Kimi-VL: Новая Эра VLM с MoE, Ризонингом и Контекстом до 128K

Мир искусственного интеллекта шокирует своими новинками, и на этот раз звездой шоу стало Kimi-VL от Moonshot AI! 🎉 Этих весов не стыдно показать на любом AI-фестивале: открытая VLM, которая одним махом объединяет текст, изображения и видео, словно супергерой, спасающий пользователей от рутины обработки данных.

Эффективность В Лимите: MoE и Параметры

Kimi-VL использует архитектуру MoE (Mixture of Experts), которая позволяет активировать лишь 2.8 миллиарда параметров в языковом декодере. Зачем мы это знаем? Да чтобы понимать, что скорость у неё на уровне компактных аналогов, а эффективность — на высоте, сравнимой с флагманскими решениями. То есть, как говорят в мире стартапов, это "win-win" ситуация на всех уровнях!

Длинные Контексты: Мечты для Исследователей

Теперь давайте поговорим о самом шикарном плюсе Kimi-VL. Она способна обрабатывать контексты длиной до 128 тысяч токенов! Да-да, вы не ослышались. Это значит, что она идеально подходит для «тяжелых» документов, выставлений длинных видео и мультимедийных задач, которые заставляют даже самые терпеливые умы проклинать свою судьбу.

Визуальный Энкодер: Революция в Обработке Изображений

Основу модели составляет визуальный энкодер MoonViT, который оптимизирован для работы с изображениями любого разрешения. Забудьте о ломке репутации «субстандартной обработки» — Kimi-VL справляется с высокодетализированными скриншотами, как мастер по управлению графикой! Текст, графики, UI-интерфейсы — всё это может быть распознано, как будто вы сами разглядываете картинку, стоя у экрана.

Пора на Бенчмарки: Точность на Высшем Уровне

Если вы ещё не в курсе, Kimi-VL впечатляет на бенчмарках. На InfoVQA точность её работы достигает 83.2%, обгоняя даже GPT-4o! В задачах OCR модель поразила всех, достигнув 86.7% на OCRBench. Чувствую, как конкуренты вздыхают от зависти, а мы осознаем, что без цифр в мире AI сейчас никуда.

Расширенные Возможности: Kimi-VL-Thinking

И не остановились на этом — разработчики запустили Kimi-VL-Thinking с расширенными возможностями CoT (Chain of Thought). Если вы думали, что Кими уже на вершине, то подождите! С использованием RL (reinforcement learning) и длительного тюнинга CoT она демонстрирует впечатляющие результаты в математических и академических задачах. С MathVista точность скромно составляет 71.3%, а на MMMU достигается целых 61.7%! Не могу не спросить — соблазн не просто взять и побежать к своим друзьям с этой новостью?

И опять Конкуренция!

Kimi-VL оказывается непобедима, когда дело доходит до работы с агентами: на OSWorld она демонстрирует результаты на 8.22% выше, чем GPT-4o (5.03%), а на WindowsAgentArena10.4%. И для длинных видео, можно сказать, все побеждены: 64.5% на LongVideoBench подтверждают её способности анализировать часовые записи, не теряя при этом ключевых деталей!

Как Это Использовать?

Если вы искали, где располагаться в мире Kimi-VL, то не переживайте! Она доступна на Hugging Face в двух вариантах:

  • 🟢 Kimi-VL-A3B-Instruct — для рутинных задач.
  • 🟠 Kimi-VL-Thinking — для сложных рассуждений.

Инференс через Transformers даже не требует кучи строчек кода — достаточно загрузить изображение, задать вопрос и получить ответ, как будто

Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 0
Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 0
Ширина: 1280 px
Высота: 640 px
Соотношение сторон.: 2:1

Скачать
Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 1
Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 1
Ширина: 2072 px
Высота: 1204 px
Соотношение сторон.: 74:43

Скачать
Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 2
Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 2
Ширина: 2560 px
Высота: 1530 px
Соотношение сторон.: 256:153

Скачать
Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 3
Kimi-VL: Революция в VLM с MoE и 128K контекстом ver 3
Ширина: 1486 px
Высота: 1094 px
Соотношение сторон.: 743:547

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться