menu
close

DeepSeek оновлює модель ШІ R1, кидаючи виклик західним технологічним гігантам

Китайський стартап у сфері штучного інтелекту DeepSeek випустив оновлення до своєї моделі міркування R1, яка допомогла компанії здобути світову популярність на початку цього року. Оновлення R1-0528, хоча й описується компанією як «незначне», демонструє суттєві покращення у можливостях програмування, глибині міркувань та виконанні письмових завдань. Оновлена модель зберігає орієнтацію DeepSeek на економічну ефективність розробки ШІ, одночасно конкуруючи з моделями OpenAI та Google за продуктивністю.
DeepSeek оновлює модель ШІ R1, кидаючи виклик західним технологічним гігантам

DeepSeek, китайський стартап у сфері штучного інтелекту, який у січні сколихнув технологічні ринки своєю революційною моделлю R1, тихо випустив значне оновлення своєї флагманської системи ШІ.

Нова версія, що отримала назву DeepSeek-R1-0528, була представлена 28 травня без особливого розголосу — лише коротким оголошенням у групі компанії в WeChat. Незважаючи на те, що DeepSeek називає це «незначним пробним оновленням», перші тести демонструють суттєві покращення в різних сферах.

Згідно з рейтингом LiveCodeBench, оновлена модель наразі посідає четверте місце за можливостями програмування з показником Pass@1 у 73,1, поступаючись лише моделям O3 та O4-Mini від OpenAI. Це є значним проривом для open-source моделі, особливо якщо врахувати, що вона розроблена з набагато меншими ресурсами, ніж західні аналоги.

Технічні характеристики свідчать, що R1-0528 зберігає архітектуру Mixture-of-Experts (MoE) свого попередника із загальною кількістю близько 685 мільярдів параметрів, хоча під час інференсу активними залишаються лише близько 37 мільярдів. Модель тепер підтримує розширене контекстне вікно до 128 тисяч токенів, що дозволяє обробляти значно більші документи та кодові бази.

Відгуки користувачів відзначають покращення у глибині міркувань, якості письма та здатності до розв’язання задач. Розробники повідомляють, що модель тепер може вести розгорнуті сесії міркувань тривалістю 30–60 хвилин для складних завдань, подібно до моделей Google. Оновлення також усуває попередні недоліки генерації тексту, забезпечуючи більш природний та структурований контент.

Постійні інновації DeepSeek кидають виклик уявленню, що масштабування ШІ потребує величезних обчислювальних потужностей та інвестицій. Успіх компанії з економічно ефективними open-source моделями вже змусив технологічних гігантів реагувати: OpenAI знизила ціни, а Google запровадила знижені тарифи доступу. Тим часом китайські конкуренти, такі як Alibaba та Tencent, представили власні моделі, які, за їхніми словами, перевершують можливості DeepSeek.

Оновлення R1-0528 доступне на платформі Hugging Face під ліцензією MIT, що дозволяє комерційне використання та модифікації. Експерти галузі очікують, що найближчими місяцями DeepSeek випустить більш комплексну модель R2, яка потенційно може ще більше змінити ландшафт ШІ.

Source:

Latest News