Языковой модуль DeepSeek-R2 могут запустить уже через 2 дня
Дата стала известна после взаимодействия с собственной ИИ-моделью компании и указывает на скорый релиз — всего через несколько дней после выхода ChatGPT-5.
DeepSeek-R2 обещает серьезный скачок в архитектуре благодаря использованию более продвинутой системы Mixture of Experts (MoE) и улучшенной сети управления (gating network), что позволит эффективнее обрабатывать задачи с высокой нагрузкой на вычислительные ресурсы. По данным источников, модель может масштабироваться до 1.2 трлн параметров — почти вдвое больше, чем у DeepSeek-R1 с его 671 млрд, но все же меньше, чем у ChatGPT-4/5, имеющих свыше 1.8 трлн параметров.
Важной особенностью нового модуля станет полный отказ от зарубежных чипов — обучение проводилось исключительно на процессорах Huawei Ascend 910B. Вычислительный кластер Huawei с производительностью 512 PFLOPS (FP16) при загрузке 82% достигает 91% скорости решений на базе Nvidia A100. Аналитики считают это ключевым шагом к технологической независимости Китая в сфере ИИ.
По сообщениям, стоимость обучения DeepSeek-R2 оказалась на 97% ниже, чем у GPT-4, благодаря использованию локального «железа» и оптимизаций. Ожидается, что компания предложит доступ к API по более низким ценам, что может изменить расстановку сил на рынке, где доминируют OpenAI и Anthropic.
Ожидание выхода DeepSeek-R2 уже отразилось на фондовом рынке: акции китайского производителя ИИ-чипов Cambricon выросли на 20%, а рыночная капитализация компании превысила 355 млрд юаней (около $49.7 млрд).
Источник: gizmochina
AI
