DeepSeek, китайският стартъп за изкуствен интелект, който разтърси технологичните пазари през януари със своя революционен модел R1, тихомълком пусна значително обновление на своя водещ AI модел.
Новата версия, наречена DeepSeek-R1-0528, бе представена на 28 май с кратко съобщение в WeChat групата на компанията. Въпреки че DeepSeek я определя като „незначителен пробен ъпгрейд“, първоначалните тестове разкриват съществени подобрения в множество области.
Според класацията LiveCodeBench обновеният модел вече заема четвърто място по възможности за програмиране с Pass@1 резултат от 73.1, като изостава само зад моделите O3 и O4-Mini на OpenAI. Това представлява сериозен напредък за отворен модел, особено разработен с далеч по-малко ресурси от западните си конкуренти.
Техническите спецификации показват, че R1-0528 запазва архитектурата Mixture-of-Experts (MoE) на предшественика си с приблизително 685 милиарда параметъра общо, като само около 37 милиарда са активни по време на инференция. Моделът вече поддържа разширен контекстен прозорец до 128K токена, което му позволява да обработва много по-големи документи и кодови бази.
Обратната връзка от потребители подчертава подобрения в дълбочината на разсъжденията, качеството на писане и способностите за решаване на проблеми. Разработчиците съобщават, че моделът вече може да води продължителни сесии на разсъждение с продължителност 30–60 минути при сложни задачи, подобно на моделите на Google. Ъпдейтът също така адресира предишни особености при генерирането на текст, като създава по-естествено и по-добре форматирано съдържание.
Постоянните иновации на DeepSeek оспорват схващането, че мащабирането на AI изисква огромна изчислителна мощ и инвестиции. Успехът на компанията с рентабилни, отворени модели вече принуди технологичните гиганти да реагират – OpenAI намали цените, а Google въведе по-евтини абонаментни планове. Междувременно китайски конкуренти като Alibaba и Tencent също пуснаха свои модели, претендиращи да надминат възможностите на DeepSeek.
Обновлението R1-0528 е достъпно в Hugging Face под MIT лиценз, което позволява търговско използване и модификации. Експерти от индустрията очакват DeepSeek да пусне по-комплексния си модел R2 през следващите месеци, което потенциално може да доведе до още по-големи промени в AI сектора.