protezione dei dati

I GPTBot non possono “strisciare” nei siti di news senza permesso. Un problema

Pietro Minto 02 set 2023

La battaglia tra giornali e chatbot sull'accesso alle notizie evidenzia la necessità di una regolamentazione profonda del settore

Internet è popolato di programmi automatici che si chiamano crawler (“striscianti”) e viaggiano di pagina in pagina analizzandone il contenuto. Google ha fondato il successo del suo motore di ricerca anche su questo, sulla capacità di “leggere” e indicizzare il web usando questi bot, per organizzare al meglio i suoi risultati di ricerca. Sui crawler rischia di fondarsi anche la nuova era del web dominata dalle intelligenze artificiali di tipo generativo. Anche ChatGPT, del resto, utilizza un crawler, detto GPTBot, che oltre a strisciare e leggere le pagine dei vari siti, pratica anche il cosiddetto scraping dei dati, copiandoli per poi analizzarli.

E’ proprio questo secondo passaggio a rappresentare un problema sempre più delicato, visto che OpenAI, società sviluppatrice di ChatGPT, ha già utilizzato molti contenuti senza permesso e sempre più siti non sono più disposti a offrirli, tanto meno gratuitamente. Per questo nelle ultime settimane è entrato nel vivo lo scontro tra l’azienda e le più grandi testate giornalistiche statunitense, i cui siti internet sono depositari di enormi quantità di testi e contenuti di qualità, scritti con cura e basati su fatti provati. Insomma, un tesoro inestimabile per ChatGPT e simili, che altrimenti dovrebbero accontentarsi di strisciare tra social network, forum e altri siti non proprio noti per la cura nei contenuti.

In un tentativo di distensione, a inizio agosto OpenAI aveva permesso a qualunque sito di vietare l’accesso a GPTBot per salvaguardare i propri contenuti. Nel giro di pochi giorni l’elenco di editori e giornali che hanno bloccato il crawler è cresciuto arrivando a includere il New York Times (tra i primissimi a farlo), la Cnn, Reuters ma anche Bloomberg, Disney, il Washington Post, l’Atlantic, Insider, Abc News, Espn, oltre che grandi gruppi come Condé Nast, Vox Media e Hearst. L’unica realtà a scendere a patti con OpenAI è stata l’agenzia di stampa Associated Press, che lo scorso luglio si è detta “contenta” del riconoscimento della società IA dell’importanza delle notizie “non di parte e basate sui fatti”, precisando che l’accordo rispetterà la proprietà intellettuale e la compensazione degli autori dei contenuti. Le condizioni dell’accordo rimangono però un mistero.

Il punto è che le intelligenze artificiali e i media (vecchi e nuovi che siano) sembrano intrappolati in un gioco dall’esito poco chiaro e che alcune persone temono sia a somma zero, ovvero quelli in cui la vincita di un giocatore coincide esattamente con la perdita dell’altro. Lo scenario più temuto è ormai noto, con i chatbot in grado di dare risposte sempre più chiare e informative, col rischio di rendere obsoleti i siti di news, acuendo la già profonda crisi che interessa da ormai anni il giornalismo. Alla lunga, però, sarebbero anche i chatbot a soffrire di questo esito: senza queste fonti di notizie e di testi di qualità da cui attingere e “copiare”, infatti, anche le loro risposte comincerebbero a decadere. Un imputridimento tecnologico che avrebbe enormi conseguenze, visto che ChatGPT potrebbe ritrovarsi a sputare risposte assurde e false a causa della scarsa qualità del materiale di partenza, in quello che gli esperti del settore chiamano “collasso del modello”.

Di fronte a un’emergenza simile, c’è chi spinge affinché governi e istituzioni si muovano per regolare e limitare lo sviluppo delle IA, citando il precedente dei social network, che furono lasciati liberi di crescere con enormi conseguenze anche politiche. Il prossimo 13 settembre si riunirà il primo “A.I. Insights Forum” voluto dal leader della maggioranza del Senato statunitense Chuck Schumer, democratico, che per l’occasione ha riunito il gotha del settore: Sundar Pichai di Alphabet/Google, l’onnipresente Elon Musk, Mark Zuckerberg, Eric Schmidt, Sam Altman e Satya Nadella di Microsoft. Secondo Axios, l’idea è di capire appieno il settore prima di regolarlo, ma anche di prendere tempo, visto che al Congresso non c’è ancora un consenso generale nell’argomento.

Di più su questi argomenti:

I GPTBot non possono “strisciare” nei siti di news senza permesso. Un problema

L'AI impara dai nostri post sui social. Cosa mai potrà andare storto

Perché Nvidia inizia a produrre i suoi supercomputer per l'AI in America

Innovazioni possibili e sfide per l'Italia. Chiacchierata con Francesco Milleri, numero uno di EssilorLuxottica

ChatGPT sta diventando scema, e forse la colpa è tutta nostra

Ricerca, 'accurato come uno specializzando': dottor ChatGpt supera nuova prova