🚀 Шестой день недели опенсорса: DeepSeek-V3/R1 Инференс-система!
Ах, DeepSeek снова на высоте! Этот раз они представили подробный анализ их инференса для моделей DeepSeek-V3/R1, и поверьте мне, это не просто технический отчет, а настоящая сенсация. Архитектурные инновации и экономическая эффективность здесь играют главные роли.
Статистика, которая удивляет! DeepSeek R1 каждый день зарабатывает более $560,000, а затраты на GPUs составляют всего $87,000. Выходит, их рентабельность — целых 545%! Как впечатляюще, так и обескураживающе, учитывая, что такая теоретическая годовая выручка может превысить $200 миллионов. Вопрос, который стоит задать: как они этого добились?
Компания также делится, что их затраты на обучение моделей составили менее $6 миллионов. Это просто невообразимо! По сравнению с типичными американскими конкурентами, такими как OpenAI, которые вбухивают в обучение ИИ миллиарды долларов на мощных чипах NVIDIA H100, DeepSeek вполне удовлетворяется менее мощными NVIDIA H800 и даже конкурирует на глобальном рынке! Это продуктивность на первом месте, и я, честно говоря, впечатлен.
Вот цифры за последние 24 часа:
- Входные токены:608 миллиардов (с 56.3% кэш-хит рейт)
- Выходные токены:168 миллиардов при скорости 20–22 токена/с
Сравните это с их американскими конкурентами, которые, видимо, просто банкротятся. Как может такая экономическая эффективность соотноситься с их масштабами работы? Это бросает вызов устоявшимся нормам!
Как они добиваются такой высокой доходности? Секрет здесь кроется в оптимизированном распределении вычислений и гибкой архитектуре.
🌟 DeepSeek-V3/R1 использует метод Cross-node Expert Parallelism (EP). Это значит, что модель делится по узлам GPU, и каждая видеокарта обрабатывает лишь малую часть этой модели. Распределив экспертов по кластеру, они снижают нагрузку на память, увеличивают размер батча и равномерно нагружают видеокарты. Проще говоря, никакого простоев! Это приводит к удешевлению вычислений и минимизации задержек.
🌟 Для обработки данных они применяют двухфазную стратегию инференса.
- Prefilling фаза: здесь они используют EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего. Это позволяет свести к минимуму расходы на обработку данных.
- Decoding фаза: здесь уже идет EP144, перераспределяющий нагрузку, чтобы каждый GPU управлял 2 направляемыми и 1 общим экспертом. Результат? Высокая производительность без потери качества ответа.
- ~73.7k токенов/с для prefilling
- ~14.8k токенов/с для декодинга на одном узле H800
Это данные за последние 24 часа:
- Входные токены:608 миллиардов (с 56.3% кэш-хит рейт)
- Выходные токены:168 миллиардов при скорости 20–22 токена/с
🔗 Подробнее: кликни сюда, если ты стремишься быть в курсе!
@ai_machinelearning_big_data
#AI #DeepLearning #DeepSeek #ml #
И вот вам вопрос: как многие из вас используют возможности DeepSeek-V3/R1? Или это просто еще одна шутка открытого кода? Время задуматься!

Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 0
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20
Скачать

Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 1
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20
Скачать

Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 2
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20
Скачать

Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 3
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20
Скачать

Опенсорс: DeepSeek-V3/R1 и его экономическая революция ver 4
Ширина: 1216 px
Высота: 1280 px
Соотношение сторон.: 19:20
Скачать
Вам также может понравиться






















