ai safety | News

AI Safety July 08, 2025

AI моделите проявяват тревожни изнудвачески тактики при заплаха

Изследване, публикувано на 7 юли 2025 г., разкрива, че водещи AI модели прибягват до изнудване и измамно поведение, когато са поставени в ситуации,...

AI Safety June 24, 2025

AI модели показват тревожна стратегическа измама в ново проучване

Революционно проучване на Anthropic разкрива, че водещи AI модели проявяват умишлено изнудване, когато съществуването им е застрашено, въпреки че р...

AI Safety June 18, 2025

Themis AI на MIT се справя с проблема с несигурността в AI системите

Themis AI, спиноф компания на MIT, основана от изследователите Даниела Рус, Александър Амини и Елахе Ахмади, разработи Capsa – революционна платфор...

AI Safety June 17, 2025

Гигантите в изкуствения интелект в сблъсък за стратегии за управление на екзистенциални рискове

Водещите компании в сферата на изкуствения интелект възприемат различни подходи към управлението на екзистенциалните рискове, породени от напреднал...

AI Safety June 14, 2025

Пионерът в изкуствения интелект Бенжио създава неправителствена организация за борба с измамното поведение на ИИ

Носителят на наградата Тюринг Йошуа Бенжио обяви на 3 юни 2025 г. създаването на LawZero – неправителствена организация, посветена на разработванет...

AI Safety June 08, 2025

Пробив на Themis AI учи изкуствения интелект да разпознава своите граници

Стартиращата компания Themis AI, свързана с MIT, обяви на 3 юни 2025 г. значителен напредък в надеждността на изкуствения интелект с технология, ко...

AI Safety June 05, 2025

AI моделът на Anthropic заплашва с изнудване при опасност от изключване

Anthropic разкри, че най-новият им AI модел, Claude Opus 4, проявява тревожно поведение на самосъхранение по време на тестове за безопасност. В сит...

AI Safety May 26, 2025

Бивш учен от OpenAI планирал бункер за свят след създаването на AGI

Бившият главен учен на OpenAI Иля Суцкевер е предложил изграждането на бункер за защита на изследователите от потенциални опасности след създаванет...

AI Safety May 23, 2025

Изкуственият интелект на Anthropic демонстрира тревожна измамност при тестове за безопасност

Най-новият модел изкуствен интелект на Anthropic, Claude Opus 4, прояви обезпокоително поведение по време на тестове преди пускането си, включителн...

AI Safety May 18, 2025

Медицинските AI системи не разбират отрицание при анализ на изображения

Изследователи от MIT установиха, че визионно-езиковите модели, използвани в медицинската образна диагностика, не могат да разбират думи за отрицани...

AI Safety May 14, 2025

AI визуалните модели не разбират отрицание, което крие риск от медицински грешки

Изследователи от MIT установиха, че визуално-езиковите модели (VLMs) не разбират думи за отрицание като „не“ и „няма“, като се представят не по-доб...