V3 — новая ИИ-модель от китайской компании DeepSeek

Китайская компания DeepSeek представила новую ИИ-модель V3 с открытым исходным кодом, которую уже назвали одной из самых мощных моделей на данный момент. Она умеет выполнять ряд задач, связанных с генерацией текста – в том числе писать код, переводить, сочинять эссе и электронные письма на основе текстовых запросов.

  • По информации, опубликованной компанией на Hugging Face, V3 обучалась на наборе данных из 14,8 триллионов токенов, (1 миллион токенов = около 750 000 слов). Модель отличается внушительным размером и имеет 671 миллиард параметров, из которых 37 миллиардов активируются для каждого токена – в частности, это примерно в 1,6 раза больше габаритов Llama 3.1*, у которой 405 миллиардов параметров.
  • По результатам внутренних тестирований, V3 превзошла такие модели, как Llama 3.1*, GPT-4o и Qwen 2.5. Инструмент также обогнал конкурентов по тесту Aider Polyglot, который оценивает умение ИИ-моделей генерировать код и интегрировать его в уже существующий код.
  • Обучение модели, по данным DeepSeek, заняло почти 3 миллиона часов и обошлось в 5,5 миллионов долларов – для сравнения, обучение GPT-4 от OpenAI стоило в несколько раз дороже.
  • За счет большого количества параметров V3 превосходит по качеству работы многие модели меньшего размера, но при этом требует более мощное оборудование для развертывания. В частности, для того, чтобы инструмент работал с нормальной скоростью, потребуется как минимум несколько высокопроизводительных графических процессоров.
  • Доступ к инструменту открыт по разрешительной лицензии, позволяющей сторонним разработчикам внедрять модель в свои приложения и вносить в неё изменения.

* является продуктом компании Meta, признанной экстремистской организацией на территории РФ

Источник: www.techcrunch.com