Прогресс

Китайскую модель DeepSeek R1 обучили всего за $294 тыс. — OpenAI тратит в сотни раз больше

Заявления компании резко контрастируют со словами главы OpenAI Сэма Альтмана, который утверждал, что обучение базовых моделей обходится «намного дороже $100 млн». При этом некоторые американские эксперты высказывали сомнения относительно того, какие именно технологии использовала китайская фирма.

В частности, в США утверждали, что DeepSeek мог получить доступ к мощным чипам Nvidia H100, несмотря на введенные в 2022 году ограничения на их экспорт в Китай.

Однако сама Nvidia заявила Reuters, что компания использовала законно приобретённые H800, специально предназначенные для китайского рынка. В статье DeepSeek впервые признала наличие у себя чипов A100, но они применялись лишь на ранних этапах экспериментов. При этом Reuters ранее отмечало, что именно доступ к суперкомпьютерному кластеру A100 сделал компанию одной из немногих в Китае, способных привлечь ведущих специалистов.

DeepSeek также впервые, хотя и косвенно, ответила на заявления советника Белого дома и ряда представителей ИИ-отрасли США, сделанные в январе, о том, что она якобы намеренно «адаптировала» модели OpenAI для разработки собственных.

В публикации компания описывает метод «дистилляции» — подход, при котором новая модель обучается на базе уже существующей. Как сообщает DeepSeek, именно этот метод позволяет достичь высокой эффективности при меньших затратах.

В январе компания заявила, что использовала открытую модель Llama AI от Meta (организация признана экстремистской и запрещена в РФ) для создания некоторых улучшенных версий собственных систем. При этом DeepSeek признаёт, что её модели могли косвенно унаследовать знания от OpenAI, так как часть обучающих данных была собрана с веб-страниц, где встречались ответы, сгенерированные ChatGPT.

Но это произошло непреднамеренно, а не в результате целенаправленного использования.

В январе запуск модели R1 вызвал огромный резонанс: акции ведущих мировых технологических компаний пошли вниз на фоне опасений, что дешёвые китайские аналоги способны пошатнуть позиции американских лидеров индустрии, включая Nvidia.

Несмотря на масштабный интерес, сама DeepSeek и её основатель Лян Вэньфэн остаются крайне закрытыми. С января компания лишь изредка публиковала обновления о новых продуктах. Статья в Nature позволяет заглянуть «за кулисы» и ознакомиться с деталями разработки моделей DeepSeek.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов