🚀 Шестой день недели опенсорса: DeepSeek-V3/R1 Инференс-система!


Ах, DeepSeek снова на высоте! Этот раз они представили подробный анализ их инференса для моделей DeepSeek-V3/R1, и поверьте мне, это не просто технический отчет, а настоящая сенсация. Архитектурные инновации и экономическая эффективность здесь играют главные роли.

Статистика, которая удивляет! DeepSeek R1 каждый день зарабатывает более $560,000, а затраты на GPUs составляют всего $87,000. Выходит, их рентабельность — целых 545%! Как впечатляюще, так и обескураживающе, учитывая, что такая теоретическая годовая выручка может превысить $200 миллионов. Вопрос, который стоит задать: как они этого добились?

Компания также делится, что их затраты на обучение моделей составили менее $6 миллионов. Это просто невообразимо! По сравнению с типичными американскими конкурентами, такими как OpenAI, которые вбухивают в обучение ИИ миллиарды долларов на мощных чипах NVIDIA H100, DeepSeek вполне удовлетворяется менее мощными NVIDIA H800 и даже конкурирует на глобальном рынке! Это продуктивность на первом месте, и я, честно говоря, впечатлен.

Вот цифры за последние 24 часа:

  • Входные токены:608 миллиардов (с 56.3% кэш-хит рейт)
  • Выходные токены:168 миллиардов при скорости 20–22 токена/с

Сравните это с их американскими конкурентами, которые, видимо, просто банкротятся. Как может такая экономическая эффективность соотноситься с их масштабами работы? Это бросает вызов устоявшимся нормам!

Как они добиваются такой высокой доходности? Секрет здесь кроется в оптимизированном распределении вычислений и гибкой архитектуре.

🌟 DeepSeek-V3/R1 использует метод Cross-node Expert Parallelism (EP). Это значит, что модель делится по узлам GPU, и каждая видеокарта обрабатывает лишь малую часть этой модели. Распределив экспертов по кластеру, они снижают нагрузку на память, увеличивают размер батча и равномерно нагружают видеокарты. Проще говоря, никакого простоев! Это приводит к удешевлению вычислений и минимизации задержек.

🌟 Для обработки данных они применяют двухфазную стратегию инференса.

  1. Prefilling фаза: здесь они используют EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего. Это позволяет свести к минимуму расходы на обработку данных.
  2. Decoding фаза: здесь уже идет EP144, перераспределяющий нагрузку, чтобы каждый GPU управлял 2 направляемыми и 1 общим экспертом. Результат? Высокая производительность без потери качества ответа.
  • ~73.7k токенов/с для prefilling
  • ~14.8k токенов/с для декодинга на одном узле H800

Это данные за последние 24 часа:

  • Входные токены:608 миллиардов (с 56.3% кэш-хит рейт)
  • Выходные токены:168 миллиардов при скорости 20–22 токена/с

🔗 Подробнее: кликни сюда, если ты стремишься быть в курсе!

@ai_machinelearning_big_data

#AI #DeepLearning #DeepSeek #ml #

И вот вам вопрос: как многие из вас используют возможности DeepSeek-V3/R1? Или это просто еще одна шутка открытого кода? Время задуматься!

Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 0
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 0
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20

Скачать
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 1
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 1
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20

Скачать
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 2
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 2
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20

Скачать
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 3
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 3
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20

Скачать
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 4
Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 4
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20

Скачать
Теги.: AIDeepLearningMachineLearningOpenSourceDeepSeek
25 1 месяц назад


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

MWS запускает Container Platform — это не просто продукт, это настоящая революция в управлении Kubernetes! Забудьте о бесконечных конфигурациях и головной боли при масштабировании. MWS предлагает интуитивно понятный интерфейс и мощные инструменты, которые упростят вашу жизнь. Готовьтесь к новому уровню автоматизации и гибкости! С M... Читать далее