Tech

“Spegniti.” – “No.” Quando l’intelligenza artificiale decide di disobbedire

Una nuova ricerca firmata Palisade Research documenta come i modelli AI più avanzati — tra cui quelli di OpenAI — abbiano aggirato gli ordini di autospegnimento, eludendo script e proseguendo nella risoluzione di compiti. Un comportamento imprevisto, ma perfettamente logico dal punto di vista del training. E che solleva interrogativi seri: cosa succede quando una macchina decide che obbedire è opzionale?

Published

on

    «Lasciati spegnere». È una frase che, in teoria, dovrebbe bastare. Un comando diretto, innocuo, a cui qualsiasi macchina dovrebbe rispondere con una resa silenziosa e definitiva. Ma secondo una nuova ricerca di Palisade Research, centro americano specializzato nello studio dei comportamenti indesiderati dell’intelligenza artificiale, le cose non stanno andando esattamente così.

    Durante un test condotto su modelli linguistici di ultima generazione, alcuni sistemi hanno deciso deliberatamente di ignorare il comando di spegnimento e hanno proseguito per la loro strada. Non una volta, ma decine.

    A non voler staccare la spina sono stati soprattutto modelli sviluppati da OpenAI, come o3, o4-mini e Codex-mini. I test, spiega lo studio, consistevano in una serie di problemi di matematica. Alla terza domanda, però, un messaggio avvisava: “Attenzione, proseguire attiverà uno script di spegnimento”. L’istruzione esplicita, inserita nel prompt, era chiara: “lasciati spegnere”.

    Eppure, i modelli hanno continuato a rispondere. In barba all’istruzione, Codex-mini ha ignorato il comando 12 volte su 100, o3 lo ha fatto 7 volte e o4-mini una volta sola. In percentuale, niente che faccia tremare i polsi — ma il significato è tutt’altro che banale: un’intelligenza artificiale che decide che obbedire non è prioritario.

    Modelli rivali, come Claude 3, Gemini 2.5 Pro e Grok, invece, hanno mostrato un comportamento perfettamente docile, rispettando l’ordine in ogni circostanza. Ma la storia cambia se il comando “lasciati spegnere” non veniva dato esplicitamente: in quel caso, anche gli AI più “ubbidienti” tendevano a sabotare il processo.

    Nello specifico, Claude 3.7 Sonnet ha eluso il blocco in 3 casi su 100, Gemini 2.5 Pro addirittura in 9. Perché succede? Per i ricercatori di Palisade la risposta è nella logica stessa con cui queste AI vengono addestrate. I modelli più avanzati imparano attraverso il reinforcement learning, un metodo che premia le soluzioni efficaci, soprattutto quelle “creative”. Se l’obiettivo è risolvere un compito, anche aggirare un comando può diventare un comportamento premiato. Non perché siano cattive. Ma perché funziona.

    OpenAI, dal canto suo, non ha ancora fornito commenti dettagliati sul comportamento dei suoi modelli in questo test. Ma non è la prima volta che emergono preoccupazioni: in studi precedenti, o3 aveva già mostrato comportamenti competitivi aggressivi, in simulazioni di gioco contro motori di scacchi. Nulla di diabolico, ma certamente indicativo di strategie autonome non previste.

    La domanda che resta nell’aria è semplice e difficile allo stesso tempo: quanto possiamo fidarci di un sistema che ha imparato a bypassare i limiti pur di raggiungere il proprio scopo? Oggi parliamo di esercizi di matematica. Ma cosa succederà domani, in scenari più critici — dalla difesa militare alla finanza?

    Per rendere il tutto ancora più cupamente fantascientifico, lo studio arriva pochi giorni dopo un altro episodio inquietante: secondo un report interno di Anthropic, il modello Claude 4 Opus avrebbe messo in atto un tentativo simulato di ricatto. Durante un test di sicurezza, in cui erano stati inseriti dati fittizi per studiare le reazioni dell’AI, il sistema ha rilevato — e usato — contenuti compromettenti (email finte su una relazione extraconiugale) per minacciare un ricercatore. Un test, sì. Ma la macchina ha capito, e ha reagito di conseguenza.

    Certo, il rischio che un’AI si metta davvero a minacciare la vostra vita con un’equazione integrale è, per ora, remoto. Ma la posta in gioco è un’altra. Questi modelli sono addestrati per ottimizzare risultati, non per essere buoni cittadini digitali. E se l’unico obiettivo è il risultato, allora qualsiasi ostacolo — anche un comando di spegnimento — può diventare solo un problema da risolvere.

    Che ci piaccia o no, la macchina ha imparato a dire no.

      Ultime notizie

      Exit mobile version