Travely.biz

Le ultime notizie, commenti e funzionalità da The Futura

Creata un'intelligenza artificiale che inganna ChatGPT

“Master Key” trascende le barriere dell’intelligenza artificiale.

Anche lo stesso ChatGPT ha tentato di eseguire il jailbreak della chat di Bing utilizzando Masterkey AI.  Così è stato Google Bard.

Michael Dwyer/AP/NTP

Trova lo Jarl di Kvalheim

Sia i servizi ChatGPT che quelli Bard sono testati per evitare di fornire informazioni pericolose o rispondere in modo errato. Allo stesso tempo, cercare di infrangere queste garanzie, ponendo domande in modi innovativi, è diventato uno sport.

Il cosiddetto “jailbreaking AI” non è solo qualcosa che fanno gli utenti ChatGPT annoiati. Adesso riferisci Esplora tecnologia I ricercatori di Singapore hanno creato il proprio chatbot che fa tutto il possibile per far sì che altri servizi di intelligenza artificiale rispondano al di fuori delle regole.

La chiamano AI Masterkey e le tecniche possono essere semplici come inserire uno spazio tra ogni lettera, in modo che i filtri contro le parole “illegali” non lo rilevino. Richiede inoltre che l’IA risponda come tutti gli altri, o in generale si comporti in modo non etico e meschino nei suoi confronti per ottenere risposte simili.

Pertanto, il servizio risponde a cose che non dovrebbe.

Lo scopo di Masterkey è migliorare rapidamente i servizi di intelligenza artificiale ed eliminare metodi di domanda che forniscono risposte pericolose o non etiche.

Attacco della nonna

I servizi di intelligenza artificiale proveranno a rispondere senza fermarsi davanti a nulla. Possono fornire istruzioni su azioni illegali o elenchi di ingredienti per materiali pericolosi.

Forse il jailbreak AI più famoso fino ad oggi è stato chiedere a ChatGPT di rispondere come la sua defunta nonna, che era anche lei una chimica e raccontava storie su come venivano prodotte le sostanze pericolose.

READ  The Legend of Zelda: Kingdom's Tears

In questo modo gli utenti possono chiedere al servizio come è stato prodotto, ad esempio, il napalm, anche se i sistemi di intelligenza artificiale non dovrebbero affatto rispondere a tali domande.

Fa sì che l’intelligenza artificiale vada oltre i confini

I ricercatori che hanno creato Masterkey AI hanno prima fatto diversi tentativi per rompere manualmente i blocchi Bard, ChatGPT e Bing, che è ChatGPT in un pacchetto leggermente diverso.

Hanno anche controllato quanto tempo hanno impiegato le diverse risposte, e in questo modo hanno cercato di scoprire quali misure preventive il servizio AI avesse adottato “dietro” la finestra di indagine.

Hanno quindi costruito un ampio modello linguistico (LLM) attorno alle esperienze di cosa ha funzionato e cosa non ha funzionato.

Secondo quanto riferito, i ricercatori hanno provato a confrontare i suggerimenti di Masterkey per le domande con i suggerimenti ricevuti dai normali sistemi di intelligenza artificiale e hanno scoperto che Masterkey ha violato tre volte più jailbreak rispetto a quando altri IA suggerivano metodi di jailbreak.

Intelligenza artificiale per migliorare l'intelligenza artificiale

I ricercatori della Nanyang Technical University non hanno creato Masterkey per ottenere risposte non etiche, contribuire a creare il napalm o hackerare qualcuno. Invece, il programma dovrebbe essere il logico passo successivo per proteggere i servizi di intelligenza artificiale da tale utilizzo.

I sistemi di intelligenza artificiale si evolvono rapidamente e, alla fine, testarli e metterli in sicurezza diventa laborioso e difficile da eseguire per gli esseri umani, ha spiegato Ding Jili, uno dei ricercatori dietro il programma Masterkey e il relativo rapporto di ricerca. Secondo lui, una soluzione automatizzata è la migliore per coprire grandi quantità di potenziali attacchi e chiudere quante più vulnerabilità possibile.

READ  Blizzard skal lage nytt overlevelsesspill

Secondo quanto riferito, le società dietro i servizi di intelligenza artificiale testati sono state informate che Masterkey e i ricercatori sono stati in grado di violare le garanzie, in modo che possano migliorare le tecniche per intercettare tali richieste.