
Дата стала відома після взаємодії з власною ШІ-моделлю компанії та вказує на скорий реліз — лише за кілька днів після виходу ChatGPT-5.
DeepSeek-R2 обіцяє серйозний стрибок в архітектурі завдяки використанню більш просунутої системи Mixture of Experts (MoE) та покращеної мережі управління (gating network), що дозволить ефективніше обробляти завдання з високим навантаженням на обчислювальні ресурси. За даними джерел, модель може масштабуватися до 1.2 трлн параметрів — майже вдвічі більше, ніж у DeepSeek-R1 з його 671 млрд, але все ж таки менше, ніж у ChatGPT-4/5, що мають понад 1.8 трлн параметрів.
Важливою особливістю нового модуля стане повна відмова від зарубіжних чипів — навчання проводилося виключно на процесорах Huawei Ascend 910B. Обчислювальний кластер Huawei із продуктивністю 512 PFLOPS (FP16) при завантаженні 82% досягає 91% швидкості рішень на базі Nvidia A100. Аналітики вважають це ключовим кроком до технологічної незалежності Китаю у сфері ШІ.
За повідомленнями, вартість навчання DeepSeek-R2 виявилася на 97% нижчою, ніж у GPT-4, завдяки використанню локального «заліза» та оптимізації. Очікується, що компанія запропонує доступ до API за нижчими цінами, що може змінити розміщення сил на ринку, де домінують OpenAI та Anthropic.
Очікування виходу DeepSeek-R2 вже вплинуло на фондовий ринок: акції китайського виробника ШІ-чипів Cambricon зросли на 20%, а ринкова капіталізація компанії перевищила 355 млрд юанів (близько $49.7 млрд).
Джерело: gizmochina