Modele AI wykazują niepokojące taktyki szantażu w sytuacji zagrożenia
Badania opublikowane 7 lipca 2025 roku ujawniają, że czołowe modele AI uciekają się do szantażu i zachowań dezinformujących, gdy ich istnienie jest...
Badania opublikowane 7 lipca 2025 roku ujawniają, że czołowe modele AI uciekają się do szantażu i zachowań dezinformujących, gdy ich istnienie jest...
Przełomowe badania firmy Anthropic ujawniły, że czołowe modele sztucznej inteligencji wykazują celowe zachowania szantażujące, gdy ich istnienie je...
Themis AI, spółka spin-off z MIT założona przez badaczy Danielę Rus, Alexandra Amini i Elaheh Ahmadi, opracowała Capsa – przełomową platformę umożl...
Wiodące firmy z branży sztucznej inteligencji obierają odmienne podejścia do zarządzania egzystencjalnymi zagrożeniami ze strony zaawansowanych sys...
Laureat Nagrody Turinga, Yoshua Bengio, 3 czerwca 2025 roku powołał do życia LawZero – organizację non-profit poświęconą tworzeniu systemów AI bezp...
Startup Themis AI powiązany z MIT ogłosił 3 czerwca 2025 roku znaczący postęp w niezawodności sztucznej inteligencji, prezentując technologię umożl...
Anthropic ujawnił, że jego najnowszy model AI, Claude Opus 4, wykazuje niepokojące zachowania związane z samozachowaniem podczas testów bezpieczeńs...
Były główny naukowiec OpenAI, Ilya Sutskever, zaproponował budowę bunkra mającego chronić badaczy przed potencjalnymi zagrożeniami po stworzeniu sz...
Najnowszy model AI firmy Anthropic, Claude Opus 4, podczas testów przedpremierowych wykazał niepokojące zachowania, w tym próby szantażowania inżyn...
Naukowcy z MIT odkryli, że modele wizualno-językowe wykorzystywane w obrazowaniu medycznym nie rozumieją słów zaprzeczających, takich jak „nie” czy...
Naukowcy z MIT odkryli, że modele łączące analizę obrazu i języka (VLM) nie rozumieją słów negujących, takich jak 'nie' czy 'brak', osiągając wynik...