Advertising

Cosa sono i dati artificiali?

La nuova frontiera della data economy: scopriamo insieme cosa sono i dati sintetici o artificiali.

In un'era in cui l’intelligenza artificiale diventa sempre più utilizzata, l'utilizzo di dati di qualità diventa una priorità.

Se i dati di valore sono difficili da reperire a causa della GDPR, o sono scarsi, errati, non utilizzabili o alterati, una soluzione è quella di realizzarli artificialmente.

La creazione di dati artificiali a partire da un ecosistema reale è la nuova frontiera della data economy.

Cosa sono i dati sintetici

I dati sintetici sono informazioni artificiali prodotte dall'AI che riproducono in maniera perfetta i dataset del mondo reale.

Sono generati da algoritmi che riproducono in maniera fedele dataset del mondo reale, senza però rappresentare persone esistenti, ma mantenendo le stesse proprietà statistiche.

Sono molto utili quando non si hanno a disposizione abbastanza dati, o quando i costi per reperirli sono eccessivi, vi sono dei limiti di legge o i dati già acquisiti non sono di buona qualità.

Oggi si perde più della metà del tempo a selezionare e ordinare i dati. Con quelli sintetici si potrebbe invece dedicare la maggior parte del loro tempo all’analisi pura, che sta alla base della creazione degli algoritmi e dei database.

Oltre a semplificare il lavoro dei data scientists, i dati sintetici portano una serie di vantaggi.

I vantaggi dei dati sintetici

L'aspetto sicuramente più importante dell'utilizzo dei dati sintetici è quello di non incorrere in problemi legati alla privacy.

Con i dati sintetici, gli sviluppatori dispongono di una quantità di informazioni da utilizzare durante la progettazione e l'organizzazione degli algoritmi ma senza che vengano scambiate le informazioni sensibili delle persone reali: così non si corre più il rischio di violare la privacy.

Il fatto di reperire e avere dei dati che siano subito "puliti" e attendibili accorcia il processo di elaborazione dei dati stessi.

Un grande vantaggio dei dati sintetici è quello di poter simulare e di conseguenza prevedere scenari futuri. A differenza dei dati reali, i quali sono riferiti ad un momento storico particolare, e quindi tendenti a diventare obsoleti, i dati artificiali sono sempre utilizzabili e odierni.

Questa tecnologia può essere utilizzata in larga parte in tutti quei settori che necessitano di una grande mole di dati per migliorare i processi di lavoro, dalla finanza al mondo IT al retail.

 I dati sintetizzati dall'intelligenza artificiale permettono ai reparti marketing di eseguire simulazioni dettagliate people-based, per rendere più efficiente il budget ed evitare di disperderlo.

Tuttavia, creare dati artificiali non è così semplice. Significa dover realizzare un modello in grado di capire perfettamente la struttura dei dati reali, cioè tutte le relazioni e le interazioni all’interno del dataset reale. Dopo di che, i dati sintetici vengono generati in funzione del modello stesso.

Tipologie di dati sintetici

Dati fittizi

Si tratta di dati generati casualmente.

Le caratteristiche e gli schemi statistici dei dati originali non vengono conservati, acquisiti o riprodotti nei dati fittizi generati. Per questo motivo però la rappresentatività di questi dati è minima rispetto ai dati reali.

Dati basati sulle regole

Si tratta di dati generati da un sistema predefinito di regole.  

Più l'insieme di regole preimpostato è corretto, più accurati saranno i dati. È importante quando l'elevata qualità dei dati è essenziale. Attualmente è possibile definire solo un insieme limitato di regole da acquisire per i dati. Inoltre, l'impostazione di più regole comporta in genere regole sovrapposte e potenzialmente conflittuali. Si creano dati a partire da regole soprattutto quando non si ha un database da cui partire.

Dati generati dall'AI

Sono generati dall'intelligenza artificiale. Questa è addestrata sui dati originali per apprendere tutti i modelli statistici. Successivamente creerà dati completamente nuovi e realizzati in modo tale da riprodurre il set di dati originale (gemelli di dati).

Il modello dell'AI imita i dati originali per generare questi gemelli sintetici così che possano essere utilizzati come se fossero dati originali.

Gartner ipotizza che già dal prossimo anno più della metà dei dati sarà generata artificialmente, mentre al momento quelli sintetici ammontano solo all'1%. 

Oggi i data scientists si stanno specializzando sempre di più nella creazione dei dati artificiali perché gli specialisti di settore li riconoscono come la frontiera più importante a cui approdare, in un panorama sempre più attento alla privacy.  

Fonti:

https://blogs.gartner.com/andrew_white/2021/07/24/by-2024-60-of-the-data-used-for-the-development-of-ai-and-analytics-projects-will-be-synthetically-generated/

https://www.agendadigitale.eu/sicurezza/privacy/i-dati-sintetici-nuova-frontiera-dellintelligenza-artificiale-opportunita-e-limiti/

https://www.syntho.ai/it/what-is-synthetic-data/  

Condividi l'articolo

Ultimi articoli inseriti

Tutti gli articoli

Autenticazione dei Dati: l'importanza per Editori e Inserzionisti

A metà del 2024 i cookie scompariranno completamente da Google Chrome. Obiettivo: cambiare e rafforzare le strategie sui dati.

April 10, 2024

Audience 2030: la generazione dei nuovi lettori

Come comunicare le news alle nuove generazioni

April 3, 2024

Audio Advertising: il 2024 segna una svolta

I podcast emergono come canale in forte crescita: aumenta anche l'interesse degli inserzionisti.

March 27, 2024