L'IA non sa più dove pescare i dati su internet, così vìola il copyright
OpenAI ha iniziato a trascrivere gli audio dai video di YouTube perché lo spazio sulla rete per addestrare i modelli come ChatGPT è finito. La zona grigia attorno al diritto d'autore
Cosa succederebbe se le aziende di intelligenza artificiale, a corto di dati, iniziassero ad addestrare i propri modelli dai video presenti su YouTube, dalle nostre conversazioni su iMessage, dai nostri post su Facebook o dalle nostre foto su Instagram? La questione del copyright sui contenuti a cui può accedere l’intelligenza artificiale è controversa e ha già provocato moltissime azioni legali, come quella del New York Times, che lo scorso dicembre ha accusato OpenAI e Microsoft di aver utilizzato articoli di notizie protetti da copyright senza autorizzazione per addestrare i propri chatbot d’intelligenza artificiale. Il problema è che più i modelli IA avanzano, più hanno bisogno di materiale su internet per formarsi – i dati sono considerati il motore che alimenta i chatbot – e lo spazio sulla rete si sta facendo sempre più piccolo: secondo il Wall Street Journal, c’è un alto rischio che la domanda di dati ad alta qualità supererà l’offerta entro due anni, rallentando potenzialmente lo sviluppo dell’intelligenza artificiale.
Per esempio, il modello GPT-2 di OpenAI è stato addestrato su un set di dati da 40 gigabyte di testo, mentre per il modello successivo, GPT-3, ne sono serviti 570. Per GPT-4 non è stato ancora annunciato il numero complessivo, ma secondo un’inchiesta del New York Times, la società avrebbe terminato i dati utili in lingua inglese già nel 2021, correndo ai ripari con uno strumento di riconoscimento vocale, Whisper, per trascrivere l’audio dei video su Youtube. OpenAI avrebbe già trascritto oltre un milione di ore di video su Youtube per addestrare GPT-4, nonostante questo rappresenterebbe, secondo gli stessi dipendenti, una violazione delle regole, poiché la piattaforma di proprietà di Google non solo vieta l’uso dei suoi video da parte di applicazioni “indipendenti”, ma anche di accedervi con “qualsiasi mezzo automatizzato”, come un chatbot.
Per soddisfare questa fame di dati dell’intelligenza artificiale, le aziende tecnologiche tra cui OpenAI, Google e Meta “hanno fatto scorciatoie, ignorato le politiche aziendali e discusso di come modificare la legge” sul copyright, scrive il Nyt, che cita l’ampliamento dei termini di servizio da parte di Google dell’anno scorso come strumento “per consentire a Google di accedere a documenti Google pubblici, recensioni di ristoranti su Google Maps e altro materiale online”. Anche Google avrebbe addestrato i propri chatbot su alcuni contenuti di YouTube, mentre la stessa Meta ha affermato di aver fatto “investimenti aggressivi” per integrare l’intelligenza artificiale nei suoi servizi e avere miliardi di immagini e video condivisi pubblicamente da Instagram e Facebook per addestrare i suoi modelli. Immagini e video che non bastano comunque, perché molti utenti di Facebook hanno cancellato i post antiquati e perché “non è il luogo in cui le persone scrivono testi adatti” per alimentare l’IA, hanno detto alcuni dipendenti di Meta.
Le aziende sfruttano il più possibile la zona ancora grigia attorno al copyright e l’anno scorso OpenAI ha ammesso al Parlamento britannico che è “impossibile” addestrare modelli di intelligenza artificiale all’avanguardia senza utilizzare materiali protetti da copyright: lo chiamano “fair use”, un uso “corretto” di materiale disponibile al pubblico, dicono che i sistemi non copiano dai materiali presenti sulla rete, semplicemente “imparano” da questi come farebbe un essere umano. Ma i titolari dei contenuti, tra cui scrittori, editori, artisti, musicisti, non la pensano così, sostengono che l’utilizzo della loro proprietà intellettuale senza pagamento o consenso è una violazione, e che non c’è nulla di “corretto” se non esiste nessun modo di verificare se il loro materiale sia stato caricato sui modelli di intelligenza artificiale, perché le aziende si rifiutano di dire quali dati “disponibili al pubblico” stanno utilizzando.