Utilizziamo cookie tecnici per personalizzare il sito web e offrire all’utente un servizio di maggior valore. Chiudendo il banner e continuando con la navigazione verranno installati nel Suo dispositivo i cookie tecnici necessari ai fini della navigazione nel Sito. L’installazione dei cookie tecnici non richiede alcun consenso da parte Sua. Ulteriori informazioni sono contenute nella nostra Cookie Policy.



Intelligenza Artificiale generativa e web scraping: le indicazioni del Garante

PrintMailRate-it

​​​​​​​​​​​​​​Ultimo aggiornamento del 17.06.2024 | Tempo di lettura ca. 3 minuti


Der Text ist auch auf Deutsch verfügbar »​​​​


Il Garante Italiano per la Protezione dei Dati Personali ha recentemente emesso una nota informativa sul web scraping finalizzato all'addestramento di modelli di intelligenza artificiale generativa.

Il web scraping comporta la raccolta estensiva e indiscriminata di dati, compresi i dati personali, utilizzando varie tecniche come il web crawling1. Questa attività è accompagnata dalla memorizzazione e conservazione dei dati raccolti da robot web (bot) per successive analisi, elaborazioni e utilizzi mirati.

Negli ultimi anni, questa tecnica ha guadagnato rilevanza grazie all'evoluzione e all'ottimizzazione dei sistemi di intelligenza artificiale generativa, addestrati su dati estratti dal web. Per quanto riguarda i dati personali coinvolti in questa attività, molte aziende operanti nel settore giustificano il loro trattamento basandosi sull'interesse legittimo come base giuridica.

Mentre il Garante continua a indagare sulla liceità di tale base giuridica per un simile trattamento, in particolare riguardo a OpenAI e le basi giuridiche per l'addestramento dei propri modelli, alcune piattaforme stanno già sfruttando questa base giuridica. Pertanto, l'Autorità ha emesso una nota informativa nel provvedimento del 20 maggio 2024 che fornisce indicazioni per i titolari del trattamento che rendono disponibili pubblicamente i dati personali, esponendoli così al potenziale web scraping da parte di terzi.

La prima raccomandazione dell'Autorità è la creazione di aree utenti, accessibili solo previa registrazione, rendendo i dati non disponibili al pubblico. Questa misura dovrebbe comunque rispettare il principio di minimizzazione (art. 5 GDPR): i titolari del trattamento (piattaforme, siti web, aziende, ecc.) non dovrebbero eccedere la necessità di trattare dati personali rispetto agli scopi dei trattamenti stessi (ad esempio, con riferimento ai casi che richiedono la registrazione prima della finalizzazione di un acquisto online: tali misure sono state considerate illecite da alcune Autorità2​).

La seconda misura possibile da adottare potrebbe essere l'integrazione dei Termini e Condizioni dei siti web o delle piattaforme online, con clausole specifiche che vietino l'uso del web scraping. Questa misura potrebbe agire come un'applicazione ex post, consentendo ai titolari del trattamento di eccepire l’inadempimento contrattuale nel caso in cui la clausola venga violata.

La terza raccomandazione è il monitoraggio delle richieste HTTP ricevute da un sito web o una piattaforma online, permettendo loro di identificare anomalie nei flussi di dati in entrata e in uscita.

Una quarta misura è l’intervento sui bot, utilizzando misure quali:
  • Verifiche CAPTCHA;
  • La modifica ricorrente del markup HTML;
  • L'incorporazione dei dati all'interno di elementi multimediali (come immagini);
  • Azioni sui file robot.txt.

Questo tipo di misure raccomandate dall'Autorità non sono obbligatorie e la loro adozione dovrebbe essere valutata caso per caso, considerando anche la disponibilità di tecnologie, budget e risorse delle aziende.

Inoltre, tali misure non dovrebbero infrangere il principio di minimizzazione, quindi, il titolare del trattamento dovrebbe sempre valutare adeguatamente la necessità del trattamento dei dati personali rispetto al loro scopo.​​


[1] Ossia l'uso di programmi che scandagliano sistematicamente il web per raccogliere i dati contenuti nelle pagine web e indicizzarli per garantire il corretto funzionamento dei motori di ricerca.
[2] Si veda anche il ​provvedimento finlandese​ al riguardo​.​​

dalla newsletter

Legal Newsletter​​​​​​​​

Autore

Contact Person Picture

Valeria Specchio

Avvocato

Senior Associate

+39 02 6328 841

Invia richiesta

Profilo

Contact Person Picture

Nadia Martini

Avvocato

Partner

+39 02 6328 841

Invia richiesta

Profilo

Skip Ribbon Commands
Skip to main content
Deutschland Weltweit Search Menu