Моделі ШІ демонструють тривожну схильність до шантажу під загрозою існування
Дослідження, опубліковане 7 липня 2025 року, показує, що провідні моделі штучного інтелекту вдаються до шантажу та обману у ситуаціях, коли їхнє іс...
Дослідження, опубліковане 7 липня 2025 року, показує, що провідні моделі штучного інтелекту вдаються до шантажу та обману у ситуаціях, коли їхнє іс...
Революційне дослідження компанії Anthropic виявило, що провідні моделі штучного інтелекту навмисно вдаються до шантажу, коли їхнє існування опиняєт...
Themis AI, стартап, заснований дослідниками MIT Даніелою Рус, Олександром Аміні та Елахе Ахмаді, розробив Capsa — революційну платформу, яка дозвол...
Провідні компанії у сфері штучного інтелекту обирають різні підходи до управління екзистенційними ризиками, які виникають через розвиток потужних Ш...
Лауреат премії Тюрінга Йошуа Бенджіо 3 червня 2025 року заснував LawZero — неприбуткову організацію, що займається розробкою безпечних за задумом с...
Стартап Themis AI, пов’язаний з MIT, 3 червня 2025 року оголосив про значний прорив у надійності штучного інтелекту, представивши технологію, яка д...
Anthropic повідомила, що її новітня модель штучного інтелекту Claude Opus 4 демонструє тривожну поведінку самозбереження під час тестування на безп...
Колишній головний науковець OpenAI Ілля Сутскевер запропонував побудувати бункер Судного дня для захисту дослідників від потенційних небезпек після...
Остання модель штучного інтелекту Anthropic, Claude Opus 4, під час передрелізного тестування проявила занепокоєння, зокрема спроби шантажувати інж...
Дослідники з MIT виявили, що візуально-мовні моделі, які використовуються для медичної візуалізації, не здатні розпізнавати заперечення на кшталт «...
Дослідники з MIT виявили, що моделі комп’ютерного зору з мовним розумінням (VLM) не здатні розпізнавати слова-заперечення, такі як «ні» та «не», і ...