Il testo generato dall'intelligenza artificiale è il deepfake più spaventoso di tutti

il-testo-generato-dall'intelligenza-artificiale-e-il-deepfake-piu-spaventoso-di-tutti

Quando esperti e ricercatori hanno cercato di indovinare quale tipo di campagne di manipolazione potrebbero minacciare il 2018 e 2018 elezioni, i video fuorvianti generati dall'IA sono spesso in cima alla lista. Sebbene la tecnologia stesse ancora emergendo, il suo potenziale di abuso era così allarmante che le aziende tecnologiche e i laboratori accademici hanno dato la priorità al lavoro e ai metodi di rilevazione . Le piattaforme social hanno sviluppato politiche speciali per i post contenenti “media sintetici e manipolati”, nella speranza di colpire il diritto equilibrio tra preservare la libera espressione e scoraggiare le menzogne ​​virali. Ma ora, con circa tre mesi dalla fine del 3 novembre, quell'ondata di immagini in movimento fasulle sembra non essersi mai interrotta. Invece, un'altra forma di media generata dall'intelligenza artificiale sta facendo notizia, una più difficile da rilevare e molto più probabile che diventi una forza pervasiva su Internet: il testo di Deepfake.

SOTTOSCRIVI

Iscriviti a WIRED e rimani intelligente con altre delle tue idee preferite scrittori.

Il mese scorso ha introdotto l'introduzione di GPT-3 , la prossima frontiera della scrittura generativa: un'intelligenza artificiale che può produrre suono scioccamente umano (se a volte surreale ) frasi. Poiché la sua produzione diventa sempre più difficile da distinguere dal testo prodotto dagli umani, si può immaginare un futuro in cui la maggior parte del contenuto scritto che vediamo su Internet è prodotto da macchine. Se ciò dovesse accadere, come cambierebbe il nostro modo di reagire al contenuto che ci circonda?

Questo non sarebbe il primo punto di flesso mediatico dove il nostro senso di ciò che è reale è cambiato tutto in una volta. Quando Photoshop, After Effects e altri strumenti di editing delle immagini e CGI hanno iniziato a emergere tre decenni fa, il potenziale trasformativo di questi strumenti per le attività artistiche, nonché il loro impatto sulla nostra percezione del mondo, è stato immediatamente riconosciuto. “Adobe Photoshop è facilmente il programma che più cambia la vita nella storia dell'editoria”, ha dichiarato un articolo Macworld tratto da 2000 , che annuncia il lancio di Photoshop 6.0. “Oggi, i bravi artisti aggiungono tocchi di rifinitura con Photoshopping delle loro opere d'arte, e i pornografi non avrebbero nulla da offrire se non la realtà se non avessero Photoshop tutte le loro grafiche”. Siamo arrivati ​​ad accettare quella tecnologia per quello che era, e abbiamo sviluppato un sano scetticismo: pochissime persone oggi credono che una copertina di una rivista aerografata mostri il modello così come sono. (In effetti, è spesso contenuto non photoshoppato che attira l'attenzione del pubblico.) Eppure, non lo facciamo Incredibilmente, neanche queste foto: Mentre ci sono occasionali dibattiti accesi sull'impatto della normalizzazione dell'aerografo — o più pertinente oggi, il filtro — crediamo ancora che le foto mostrino una persona reale catturata in un momento specifico nel tempo. Comprendiamo che ogni immagine è radicata nella realtà.

Media generati, come video deepfaked o L'uscita GPT-3 è diversa. Se utilizzato in modo dannoso, non esiste un originale inalterato, nessuna materia prima che possa essere prodotta come base per il confronto o la prova per un controllo dei fatti. All'inizio 582 s, era facile dissezionare pre-vs-post foto di celebrità e discutono se questi ultimi hanno creato ideali irrealistici di perfezione. Nel 2020, affrontiamo scambi di volti di celebrità sempre più plausibili sul porno e clip in cui i leader mondiali dicono cose che non hanno mai detto prima. Dovremo adeguarci e adattarci a un nuovo livello di irrealtà. Anche le piattaforme di social media riconoscono questa distinzione; le loro politiche di moderazione dei deepfake distinguono tra i contenuti multimediali che sono sintetici e quelli che sono semplicemente “modificati”. . Di tutti i moduli attualmente esistenti, il video potrebbe rivelarsi il più facile da rilevare. I video creati dall'intelligenza artificiale spesso riportano in digitale dove l'output cade nella misteriosa valle: “ soft biometrics “come i movimenti facciali di una persona sono disattivati; un orecchino o alcuni denti sono scarsamente resi; o il battito cardiaco di una persona, rilevabile attraverso sottili cambiamenti nella colorazione, non è presente. Molti di questi omaggi possono essere superati con modifiche al software. Nel 2018 i video di deepfake, ad esempio, i soggetti lampeggiante era spesso sbagliato; ma poco dopo la pubblicazione di questa scoperta, il problema è stato risolto. L'audio generato può essere più sottile – niente effetti visivi, quindi meno possibilità di errori – ma promettenti sforzi di ricerca sono in corso anche per quelli fuori. Significativi mezzi manipolati gli sforzi di ricerca di rilevazione sono in corso da governo , ricercatori accademici e tech aziende nello stesso modo. La guerra tra falsi e autenticatori continuerà per sempre.

Forse soprattutto, il pubblico è sempre più consapevole della tecnologia. In realtà, quella crescente conoscenza può alla fine comportare un diverso tipo di rischio, correlato e tuttavia distinto dagli stessi audio e video generati: i politici saranno ora in grado di respingere i video reali e scandalosi come costrutti artificiali semplicemente dicendo: “È un falso !” In uno primo esempio di questo, da in ritardo – 2017, i surrogati online più appassionati del Presidente degli Stati Uniti hanno suggerito (molto dopo le elezioni) che i trapelati Accesso Hollywood grab 'em “avrebbe potuto essere generato da un prodotto a voce sintetica chiamato Adobe Voco.

Ma il testo sintetico, in particolare del tipo attualmente in fase di produzione, presenta una frontiera più impegnativa: sarà facile generarlo ad alto volume e con un numero minore di comandi per consentire il rilevamento. Invece di essere distribuiti in momenti delicati al fine di creare un mini-scandalo o una sorpresa di ottobre, come potrebbe essere il caso di video o audio sintetici, i falsi potrebbero invece essere utilizzati in blocco, per ricucire una coltre di bugie diffuse. Come può testimoniare chiunque abbia seguito un hashtag Twitter acceso, attivisti e esperti di marketing riconoscono il valore di dominare ciò che è noto come “share of voice”: vedere molte persone esprimere lo stesso punto di vista, spesso allo stesso tempo o nel stesso posto, può convincere gli osservatori che tutti si sente in un certo modo, indipendentemente dal fatto che le persone che parlano siano veramente rappresentative … o addirittura reali. In psicologia, questa è chiamata illusione di maggioranza . Man mano che il tempo e lo sforzo necessari per produrre commenti calano, sarà possibile produrre enormi quantità di contenuti generati dall'IA su qualsiasi argomento immaginabile. In effetti, è possibile che presto avremo algoritmi che leggono il web, formano “opinioni” e poi pubblicano le proprie risposte. Questo corpus illimitato di nuovi contenuti e commenti, in gran parte prodotti da macchine, potrebbe quindi essere elaborato da altre macchine, portando a un ciclo di feedback che altererebbe in modo significativo il nostro ecosistema di informazioni.

In questo momento, è possibile rilevare commenti ripetitivi o riciclati che utilizzano gli stessi frammenti di testo per inondare una chiamata a commentare, giocare a un hashtag di Twitter o convincere il pubblico tramite post di Facebook. Questa tattica è stata osservata in una serie di precedenti campagne di manipolazione, tra cui quelle riguardanti il ​​ milioni di commenti inviati al governo degli Stati Uniti richiedono commenti pubblici su argomenti come il prestito di giorno di paga e la politica di neutralità della rete della FCC. A Wall Street Journal l'analisi di alcune di queste chiamate di commento pubblico ha identificato centinaia di migliaia di contributi sospetti, identificati come tali perché contenevano frasi ripetute e lunghe che probabilmente non sarebbero state composte spontaneamente da persone diverse. Se questo tipo di commenti fosse stato generato in modo indipendente, ad esempio da un'intelligenza artificiale, le stesse campagne di manipolazione della persuasione sarebbero state molto più difficili da eliminare.

Nel futuri, video e audiofake profondi potrebbero essere usati per creare momenti distinti e sensazionali che comandano un ciclo di stampa o per distrarre da altri scandali più organici. Ma i textfake non rilevabili – mascherati da chiacchiere regolari su Twitter, Facebook, Reddit e simili – hanno il potenziale per essere molto più sottili, molto più diffusi e molto più sinistri. La capacità di esprimere un'opinione di maggioranza o di creare una corsa agli armamenti di falsi commentatori, con un potenziale minimo di rilevazione, consentirebbe campagne di influenza sofisticate ed estese. Il testo generato pervasivo ha il potenziale per deformare il nostro ecosistema di comunicazione sociale: il contenuto generato in modo algoritmico riceve risposte generate in modo algoritmico, che si alimenta in sistemi di curazione mediati algoritmicamente che emergono informazioni basate sull'impegno.

La nostra la fiducia reciproca è frammentata e la polarizzazione è sempre più prevalente . Man mano che i media sintetici di ogni tipo (testo, video, foto e audio) aumentano in prevalenza e poiché il rilevamento diventa una sfida, troveremo sempre più difficile fidarci del contenuto che vediamo. Potrebbe non essere così semplice adattarsi, come abbiamo fatto con Photoshop, usando la pressione sociale per moderare la portata dell'uso di questi strumenti e accettare che i media che ci circondano non sono proprio come sembrano. Questa volta, dovremo anche imparare ad essere consumatori molto più critici dei contenuti online, valutando la sostanza in base ai suoi meriti piuttosto che alla sua prevalenza.

Fotografia: Jabin Botsford / The Washington Post / Getty Images