Il New York Times, la CNN e l'ABC australiana impediscono al web crawler GPTBot di OpenAI di accedere ai contenuti

Sembra che anche il Chicago Tribune e i giornali australiani Canberra Times e Newcastle Herald abbiano disabilitato il web crawler del creatore di Chat GPT

I notiziari, tra cui il New York Times, la CNN, la Reuters e l'Australian Broadcasting Corporation (ABC), hanno bloccato uno strumento di OpenAI, limitando la capacità dell'azienda di continuare ad accedere ai propri contenuti.

OpenAI è dietro uno dei chatbot di intelligenza artificiale più conosciuti, ChatGPT. Il suo web crawler, noto come GPTBot, può scansionare le pagine web per migliorare i suoi modelli di intelligenza artificiale.

The Verge è stato il primo a riferire che il New York Times aveva bloccato GPTBot sul suo sito web. Il Guardian ha successivamente scoperto che anche altri importanti siti web di notizie, tra cui CNN, Reuters, Chicago Tribune, ABC e Australian Community Media (ACM) come Canberra Times e Newcastle Herald, sembrano aver disabilitato il web crawler.

I cosiddetti modelli linguistici di grandi dimensioni come ChatGPT richiedono grandi quantità di informazioni per addestrare i loro sistemi e consentire loro di rispondere alle domande degli utenti in modi che assomigliano ai modelli linguistici umani. Ma le aziende che li sostengono sono spesso molto reticenti riguardo alla presenza di materiale protetto da copyright nei loro set di dati.

Il blocco su GPTBot può essere visto nei file robots.txt degli editori che dicono ai crawler dei motori di ricerca e di altre entità quali pagine possono visitare.

"Consentire a GPTBot di accedere al tuo sito può aiutare i modelli di intelligenza artificiale a diventare più accurati e a migliorare le loro capacità generali e la sicurezza", ha affermato OpenAI in un post sul blog che includeva istruzioni su come disabilitare il crawler.

Tutti i punti vendita esaminati hanno aggiunto il blocco ad agosto. Alcuni hanno anche vietato CCBot, il web crawler per un repository aperto di dati web noto come Common Crawl che è stato utilizzato anche per progetti di intelligenza artificiale.

La CNN ha confermato al Guardian Australia di aver recentemente bloccato GPTBot su tutti i suoi titoli, ma non ha commentato se il marchio intende intraprendere ulteriori azioni sull'uso dei suoi contenuti nei sistemi di intelligenza artificiale.

Un portavoce di Reuters ha affermato che rivede regolarmente il file robots.txt e i termini e le condizioni del sito. "Poiché la proprietà intellettuale è la linfa vitale della nostra attività, è fondamentale proteggere il copyright dei nostri contenuti", ha affermato.

I termini di servizio del New York Times sono stati recentemente aggiornati per rendere ancora più chiaro il divieto contro "lo scraping dei nostri contenuti per la formazione e lo sviluppo dell'intelligenza artificiale... ancora più chiaro", secondo un portavoce.

A partire dal 3 agosto, le regole del suo sito web vietano esplicitamente che i contenuti dell'editore vengano utilizzati per "lo sviluppo di qualsiasi programma software, incluso, ma non limitato a, l'addestramento di un sistema di apprendimento automatico o di intelligenza artificiale (AI)" senza consenso.

Gli organi di informazione a livello globale si trovano ad affrontare decisioni sull’opportunità di utilizzare l’intelligenza artificiale come parte della raccolta di notizie e anche su come gestire i loro contenuti che potrebbero essere risucchiati nei pool di formazione dalle aziende che sviluppano sistemi di intelligenza artificiale.

All’inizio di agosto, organi di stampa tra cui Agence France-Presse e Getty Images hanno firmato una lettera aperta chiedendo una regolamentazione dell’intelligenza artificiale, inclusa la trasparenza sulla “composizione di tutti i set di formazione utilizzati per creare modelli di intelligenza artificiale” e il consenso per l’uso di materiale protetto da copyright.

Google ha proposto che i sistemi di intelligenza artificiale dovrebbero essere in grado di sfruttare il lavoro degli editori a meno che non decidano esplicitamente di rinunciarvi.

In una presentazione alla revisione del quadro normativo sull’intelligenza artificiale da parte del governo australiano, la società ha sostenuto la necessità di “sistemi di copyright che consentano un uso appropriato ed equo dei contenuti protetti da copyright per consentire la formazione di modelli di intelligenza artificiale in Australia su una gamma ampia e diversificata di dati, mentre sostenere opt-out praticabili”.

Una ricerca di OriginalityAI, una società che verifica la presenza di contenuti AI, condivisa questa settimana, ha rilevato che anche i principali siti Web tra cui Amazon e Shutterstock avevano bloccato GPTBot.

Il file robot.txt del Guardian non impedisce GPTBot.

ABC, Australian Community Media, Chicago Tribune, OpenAI e Common Crawl non hanno risposto entro la scadenza.