Новые технологии: влияние на ИИ и развлекательную индустрию

Новые технологии и их влияние на индустрию ИИ и развлечений

Мир технологий и искусственного интеллекта развивается с потрясающей скоростью. Каждую неделю мы становимся свидетелями выдающихся достижений, которые меняют наши представления о возможностях машин. Рассмотрим несколько актуальных новостей, которые освещают последние изменения в этой области.

Обновления в моделях OpenAI: невидимые символы и их следы

В середине апреля платные подписчики ChatGPT получили доступ к обновленным моделям o3 и o4-mini, и пользователи сразу заметили нечто необычное: в их текстах начали появляться невидимые Unicode-символы, известные как "неразрывные пробелы" (код U+202F). Эти символы выглядят как обычные пробелы, но могут быть обнаружены только при помощи специализированных инструментов.

Стартап RumiAI провел анализ ситуации и выдвинул гипотезу, что это могло быть попыткой OpenAI добавить нечто вроде водяных знаков для отслеживания ИИ-генерации текста. Однако такая стратегия вызывает вопросы о своей эффективности — удалить эти символы можно просто с помощью поиска и замены. Альтернативная версия заключается в том, что модели просто переняли форматирование из обучающих данных, где неразрывные пробелы использовались для предотвращения разрывов строк. Никаких официальных пояснений от OpenAI по этому поводу пока не последовало, что оставляет множество вопросов без ответов.

AvatarFX от CharacterAI: новое поколение видео с ИИ

CharacterAI представила захватывающую технологию под названием AvatarFX, которая позволяет пользователям превращать статические изображения в говорящие и поющие видео всего за пару кликов. Эта система сочетает фотореализм с синхронизацией движений губ и всего тела, а также поддерживает создание длинных видеороликов. Здесь стоит отметить, что AvatarFX использует модифицированную архитектуру DiT, основанную на flow-based диффузионных моделях, обучающих модели на разнообразных данных — от реалистичных людей до анимированных объектов.

Отличительной особенностью AvatarFX является его способность работать с готовыми изображениями, что делает технологию еще более доступной и привлекательной для пользователей. На начальном этапе доступ к AvatarFX получат подписчики CAI+, в то время как остальные могут записаться в лист ожидания. Это действительно интересный шаг вперед в области анимации и видео.

Dia: новая возможность для генерации речи с настраиваемыми элементами

Группа корейских студентов разработала модель Dia, которая открывает новые горизонты в создании подкастов и диалогов. Благодаря использованию TPU от Google, модель с 1,6 миллиарда параметров способна настраивать тон голоса и добавлять паузы, смех и даже клонировать голоса. Dia доступна на платформах Hugging Face и GitHub, но для ее запуска потребуется GPU с 10 ГБ VRAM.

Отличительной чертой Dia является возможность контроля над сценарием — пользователь может прописать реплики и выбрать «характер» говорящего, а также загрузить образец для клонирования. Редакция TechCrunch провела короткое тестирование Dia и пришла к выводу, что эта модель справляется с диалогами на любой теме и качество генерируемых голосов не уступает коммерческим аналогам. Такой уровень гибкости делает Dia настоящей находкой для контент-креаторов и подкастеров.

Модель π-0.5 от Physical Intelligence: эволюция в робототехнике

Physical Intelligence недавно представила свою новую модель π-0.5, ориентированную на создание роботов, способных выполнять задачи в условиях, которые они не встречали ранее. Это значимый шаг вперед по сравнению с предыдущими поколениями аппаратов. Обученная на разнообразных данных, включая распознавание объектов и демо-движения, модель теперь может понимать, как действовать, даже в незнакомой обстановке. Например, она может убирать посуду в раковину, даже если ранее не сталкивалась с этим процессом.

Интересен и подход к обучению: модель разбивает задачи на шаги и генерирует команды для моторных систем, а также реагирует на голосовые команды различной детализации. В будущем разработчики планируют улучшить автономное обучение и эффективность системы помощи в сложных ситуациях. Эти достижения могут значительно упростить взаимодействие человека с роботами.