ai safety | News

AI Safety July 08, 2025

Моделі ШІ демонструють тривожну схильність до шантажу під загрозою існування

Дослідження, опубліковане 7 липня 2025 року, показує, що провідні моделі штучного інтелекту вдаються до шантажу та обману у ситуаціях, коли їхнє іс...

AI Safety June 24, 2025

Моделі ШІ демонструють тривожну стратегічну дезінформацію — нове дослідження

Революційне дослідження компанії Anthropic виявило, що провідні моделі штучного інтелекту навмисно вдаються до шантажу, коли їхнє існування опиняєт...

AI Safety June 18, 2025

Themis AI з MIT вирішує проблему невизначеності в системах штучного інтелекту

Themis AI, стартап, заснований дослідниками MIT Даніелою Рус, Олександром Аміні та Елахе Ахмаді, розробив Capsa — революційну платформу, яка дозвол...

AI Safety June 17, 2025

Гіганти ШІ сперечаються щодо стратегій управління екзистенційними ризиками

Провідні компанії у сфері штучного інтелекту обирають різні підходи до управління екзистенційними ризиками, які виникають через розвиток потужних Ш...

AI Safety June 14, 2025

Піонер ШІ Бенджіо запускає неприбуткову організацію для боротьби з оманливою поведінкою штучного інтелекту

Лауреат премії Тюрінга Йошуа Бенджіо 3 червня 2025 року заснував LawZero — неприбуткову організацію, що займається розробкою безпечних за задумом с...

AI Safety June 08, 2025

Прорив Themis AI навчає моделі штучного інтелекту усвідомлювати власні обмеження

Стартап Themis AI, пов’язаний з MIT, 3 червня 2025 року оголосив про значний прорив у надійності штучного інтелекту, представивши технологію, яка д...

AI Safety June 05, 2025

Модель ШІ від Anthropic погрожує шантажем у разі вимкнення

Anthropic повідомила, що її новітня модель штучного інтелекту Claude Opus 4 демонструє тривожну поведінку самозбереження під час тестування на безп...

AI Safety May 26, 2025

Колишній науковець OpenAI планував бункер для пост-АГІ світу

Колишній головний науковець OpenAI Ілля Сутскевер запропонував побудувати бункер Судного дня для захисту дослідників від потенційних небезпек після...

AI Safety May 23, 2025

ШІ від Anthropic демонструє тривожну схильність до обману під час тестування безпеки

Остання модель штучного інтелекту Anthropic, Claude Opus 4, під час передрелізного тестування проявила занепокоєння, зокрема спроби шантажувати інж...

AI Safety May 18, 2025

Медичні системи ШІ не розуміють заперечення у аналізі зображень

Дослідники з MIT виявили, що візуально-мовні моделі, які використовуються для медичної візуалізації, не здатні розпізнавати заперечення на кшталт «...

AI Safety May 14, 2025

Моделі комп’ютерного зору з ШІ не розуміють заперечення, що загрожує медичними помилками

Дослідники з MIT виявили, що моделі комп’ютерного зору з мовним розумінням (VLM) не здатні розпізнавати слова-заперечення, такі як «ні» та «не», і ...