Britannica e Merriam-Webster: causa a OpenAI per violazione copyright

Encyclopaedia Britannica e Merriam-Webster hanno citato in giudizio OpenAI. L’accusa è di avere usato senza autorizzazione contenuti protetti da copyright per addestrare i propri modelli linguistici e per generare risposte in ChatGPT.

Su cosa si basa la causa

Secondo il ricorso, OpenAI avrebbe acquisito e usato articoli online di Britannica senza licenza per l’addestramento dei suoi LLM. Britannica, che controlla Merriam-Webster, afferma di detenere il copyright su quasi 100.000 articoli pubblicati sul web.

La causa contesta più condotte. La prima riguarda l’uso dei contenuti come dati di training. La seconda riguarda la generazione di output che, secondo Britannica, includerebbero riproduzioni integrali o parziali del testo originale. La terza riguarda l’impiego degli articoli nel flusso RAG di ChatGPT, cioè nel sistema che recupera informazioni aggiornate da fonti esterne per costruire le risposte.

Il riferimento al Lanham Act e al tema delle “allucinazioni” dell’IA

Britannica accusa anche OpenAI di violare il Lanham Act, la legge statunitense sui marchi, quando ChatGPT genera informazioni inventate e le attribuisce in modo falso all’editore. Il punto non riguarda solo l’errore in sé, ma l’associazione impropria tra contenuti inesatti e un marchio editoriale riconosciuto.

Nel ricorso, questo aspetto viene presentato come un danno reputazionale oltre che legale. Secondo Britannica, le allucinazioni attribuite al publisher rischiano di indebolire la fiducia del pubblico nelle fonti informative di qualità.

Il danno economico contestato a ChatGPT

La causa sostiene che ChatGPT sottragga traffico e ricavi ai publisher perché fornisce risposte che si sostituiscono direttamente ai contenuti originali. La tesi centrale è che se l’utente ottiene una sintesi o una risposta completa tramite l’interfaccia del chatbot, ha meno motivi per visitare il sito che ha prodotto l’informazione.

Britannica lega questo effetto a un rischio più ampio per l’ecosistema informativo online. Se i contenuti editoriali vengono usati per addestrare o alimentare sistemi generativi che poi competono con le stesse fonti, il modello economico dei publisher può indebolirsi.

Un contenzioso che si aggiunge ad altre cause contro OpenAI

Britannica si aggiunge a un gruppo già ampio di editori, testate e autori che hanno avviato azioni legali contro OpenAI sul terreno del copyright. Tra i casi già noti ci sono quelli avviati dal New York Times, da Ziff Davis, proprietaria di marchi come Mashable, CNET, IGN e PCMag, e da oltre una dozzina di quotidiani negli Stati Uniti e in Canada.

Nel testo viene ricordata anche una causa simile promossa da Britannica contro Perplexity, ancora pendente. Il punto comune, in questi contenziosi, è la stessa domanda: fino a che punto un sistema di IA può usare contenuti protetti senza licenza per addestrarsi o per costruire risposte agli utenti.

Il nodo giuridico resta aperto

Non esiste ancora un precedente solido e definitivo che stabilisca se l’uso di opere protette per l’addestramento di un LLM costituisca di per sé violazione del copyright. Questo rende il contenzioso particolarmente rilevante, perché le decisioni dei tribunali possono incidere sull’intero mercato dell’IA generativa.

Un riferimento importante è arrivato nel procedimento che ha coinvolto Anthropic. In quel caso, il giudice federale William Alsup ha ritenuto che l’uso dei contenuti come dati di training potesse avere carattere trasformativo e quindi risultare lecito. Allo stesso tempo, ha distinto questa valutazione dal modo in cui i materiali erano stati ottenuti.

Il precedente Anthropic non chiude la questione

Nel caso Anthropic, Alsup ha sostenuto che l’azienda avesse violato la legge scaricando illegalmente milioni di libri invece di acquistarli regolarmente. Questa parte del procedimento ha aperto la strada a una class action da 1,5 miliardi di dollari a favore degli autori coinvolti.

Il precedente, però, non risolve automaticamente la causa contro OpenAI. Conferma piuttosto un punto: i tribunali possono distinguere tra l’uso trasformativo dei contenuti per l’addestramento e la liceità del modo in cui quei contenuti vengono raccolti, copiati o riprodotti negli output.

Qual è l’impatto di questa nuova causa?

La causa congiunta di Britannica e Merriam-Webster contro OpenAI abbraccia tre macroaspetti: il diritto di usare contenuti protetti per addestrare i modelli, la legittimità della riproduzione testuale nelle risposte generate e il danno economico subito dagli editori quando i chatbot si sostituiscono alle fonti originali.

È su questo terreno che si giocherà una parte decisiva del rapporto tra industria dell’IA e produzione editoriale. Le prossime mosse dei tribunali serviranno a chiarire non solo che cosa i modelli possono apprendere, ma anche a quali condizioni possono farlo.