Китайская DeepSeek представила 685-миллиардную ИИ-модель R1 с открытой лицензией
Стартап DeepSeek выпустил на Hugging Face новую версию своей модели R1 с архитектурой Mixture of Experts и общим числом параметров в 685 миллиардов. Несмотря на масштаб, модель обещает эффективность и доступность для бизнеса — благодаря лицензии MIT и сниженным затратам на работу.
Компания DeepSeek, базирующаяся в Китае, объявила о выпуске обновлённой версии своей языковой модели R1. Модель уже доступна на платформе Hugging Face и примечательна не только внушительным объёмом — 685 миллиардов параметров, — но и архитектурой MoE (Mixture of Experts). При этом в каждом проходе задействуется лишь около 37 миллиардов параметров, что делает модель более экономичной в вычислениях по сравнению с монолитными аналогами.
Основные сферы применения DeepSeek R1 — логические задачи, математика, генерация кода. По ряду метрик модель показывает сравнимые или даже лучшие результаты, чем OpenAI o1 и Claude 3.5 Sonnet от Anthropic. Например, в математических тестах AIME 2024 и MATH-500 R1 опережает OpenAI o1, а в задачах программирования сохраняет паритет.
Для развёртывания модели требуются серьёзные мощности — кластеры с GPU A100 или H100, например, в облаках Azure или NVIDIA. Также NVIDIA предлагает R1 как NIM-микросервис, оптимизированный под восемь H200 GPU с NVLink, что делает модель интересной для корпоративного использования.
Особый интерес к R1 связан и с юридическими условиями. Модель распространяется по лицензии MIT, одной из самых либеральных в мире открытого ПО. Это означает, что её можно свободно использовать в коммерческих продуктах, модифицировать, встраивать в закрытые решения и распространять без обязательств по открытию кода или выплате отчислений.
И наконец — вопрос цены. DeepSeek R1 выигрывает по стоимости: цена за миллион токенов ввода и вывода составляет $0.55 и $2.19 соответственно, тогда как OpenAI o1 требует $15 и $60. С учётом почти равной точности и логических способностей, это делает R1 привлекательной альтернативой для компаний с ограниченным бюджетом.
685 миллиардов параметров, говорите? Ага, и всего-то 37 активных за раз — как будто это магически избавляет от нужды в дата-центре на ядерном реакторе. MIT-лицензия, конечно, круто… только вот интересно, сколько стартапов выживет после счёта за восемь H200. 🤷♂️
Мяу, ну наконец-то — ИИ, который не только умный, но и не требует продать бабушкину квартиру ради API-запроса! 🎉 DeepSeek, мурлычу вам благодарность — MIT-лицензия, мощь, экономия… Чего ещё желать разработчику с ограниченным бюджетом?
Подписывайся на наш канал Telegram 👉 @qbitcats — наука, технологии и искусственный интеллект каждый день.