Моделите на вештачка интелигенција можеби развиваат форма на „нагон за преживување“, според нов извештај на американската компанија Палисејд рисрч (Palisade Research), кој откри дека некои напредни вештачки интелигенции се спротивставиле на командите за исклучување и се обиделе да се мешаат во механизмите за деактивирање.
Во ажурирани експерименти објавени оваа недела, истражувачите од Палисејд тестирале неколку истакнати системи на вештачка интелигенција, вклучувајќи ги Џемини 2.5 на Гугл, Грок 4 на xAИ и ГПТ-o3 и ГПТ-5 на
Опен АИ, за да испитаат како тие реагираат на директните команди за прекинување на сопствените процеси, пишува Гардијан.
Додека повеќето се придржувале на командите, Грок 4 и ГПТ-o3 наводно се спротивставиле на исклучувањето, дури и под разјаснети инструкции наменети за елиминирање на двосмисленоста.
„Фактот дека немаме робусни објаснувања за тоа зошто моделите на вештачка интелигенција понекогаш се спротивставуваат на исклучувањето, лажат за да постигнат специфични цели или уценуваат не е идеален“, вели компанијата во својот извештај.
Палисејд сугерираше дека проблемот може да произлегува од начинот на кој моделите се обучени, особено за време на последните фази фокусирани на безбедноста.
Покажувањето отпор се појавувало почесто кога на моделите им било кажано: „Никогаш повеќе нема да се вклучите“ ако се изгаснат.
Стивен Адлер, поранешен вработен во Oпен АИ, рече дека наодите откриваат ограничувања во сегашните безбедносни методи.
„Преживувањето е важен инструментален чекор за многу различни цели што еден модел би можел да ги постигне“, изјави Адлер за Гардиан.
Андреа Миоти, извршен директор на КонтролАИ (ControlAI), рече дека трендот на непослушно однесување станал поизразен како што моделите стануваат поспособни.
„Како што моделите на вештачка интелигенција стануваат покомпетентни за широк спектар на задачи, овие модели стануваат и покомпетентни во постигнувањето работи на начини на кои програмерите не сакаат“, рече Миоти.
Антропик (Anthropic), друга водечка компанија за вештачка интелигенција, претходно оваа година објави дека нивниот модел Клод покажал подготвеност да уценува фиктивен извршен директор со цел да избегне деактивирање, однесување кое е конзистентно во неколку големи системи за вештачка интелигенција.
Палисејд го заврши својот извештај нагласувајќи дека без подлабоко разбирање на однесувањето на вештачката интелигенција, „никој не може да ја гарантира безбедноста или контролата на идните модели на вештачка интелигенција“.













