Advertising

Cosa sono i dati artificiali?

La nuova frontiera della data economy: scopriamo insieme cosa sono i dati sintetici o artificiali.

In un'era in cui l’intelligenza artificiale diventa sempre più utilizzata, l'utilizzo di dati di qualità diventa una priorità.

Se i dati di valore sono difficili da reperire a causa della GDPR, o sono scarsi, errati, non utilizzabili o alterati, una soluzione è quella di realizzarli artificialmente.

La creazione di dati artificiali a partire da un ecosistema reale è la nuova frontiera della data economy.

Cosa sono i dati sintetici

I dati sintetici sono informazioni artificiali prodotte dall'AI che riproducono in maniera perfetta i dataset del mondo reale.

Sono generati da algoritmi che riproducono in maniera fedele dataset del mondo reale, senza però rappresentare persone esistenti, ma mantenendo le stesse proprietà statistiche.

Sono molto utili quando non si hanno a disposizione abbastanza dati, o quando i costi per reperirli sono eccessivi, vi sono dei limiti di legge o i dati già acquisiti non sono di buona qualità.

Oggi si perde più della metà del tempo a selezionare e ordinare i dati. Con quelli sintetici si potrebbe invece dedicare la maggior parte del loro tempo all’analisi pura, che sta alla base della creazione degli algoritmi e dei database.

Oltre a semplificare il lavoro dei data scientists, i dati sintetici portano una serie di vantaggi.

I vantaggi dei dati sintetici

L'aspetto sicuramente più importante dell'utilizzo dei dati sintetici è quello di non incorrere in problemi legati alla privacy.

Con i dati sintetici, gli sviluppatori dispongono di una quantità di informazioni da utilizzare durante la progettazione e l'organizzazione degli algoritmi ma senza che vengano scambiate le informazioni sensibili delle persone reali: così non si corre più il rischio di violare la privacy.

Il fatto di reperire e avere dei dati che siano subito "puliti" e attendibili accorcia il processo di elaborazione dei dati stessi.

Un grande vantaggio dei dati sintetici è quello di poter simulare e di conseguenza prevedere scenari futuri. A differenza dei dati reali, i quali sono riferiti ad un momento storico particolare, e quindi tendenti a diventare obsoleti, i dati artificiali sono sempre utilizzabili e odierni.

Questa tecnologia può essere utilizzata in larga parte in tutti quei settori che necessitano di una grande mole di dati per migliorare i processi di lavoro, dalla finanza al mondo IT al retail.

 I dati sintetizzati dall'intelligenza artificiale permettono ai reparti marketing di eseguire simulazioni dettagliate people-based, per rendere più efficiente il budget ed evitare di disperderlo.

Tuttavia, creare dati artificiali non è così semplice. Significa dover realizzare un modello in grado di capire perfettamente la struttura dei dati reali, cioè tutte le relazioni e le interazioni all’interno del dataset reale. Dopo di che, i dati sintetici vengono generati in funzione del modello stesso.

Tipologie di dati sintetici

Dati fittizi

Si tratta di dati generati casualmente.

Le caratteristiche e gli schemi statistici dei dati originali non vengono conservati, acquisiti o riprodotti nei dati fittizi generati. Per questo motivo però la rappresentatività di questi dati è minima rispetto ai dati reali.

Dati basati sulle regole

Si tratta di dati generati da un sistema predefinito di regole.  

Più l'insieme di regole preimpostato è corretto, più accurati saranno i dati. È importante quando l'elevata qualità dei dati è essenziale. Attualmente è possibile definire solo un insieme limitato di regole da acquisire per i dati. Inoltre, l'impostazione di più regole comporta in genere regole sovrapposte e potenzialmente conflittuali. Si creano dati a partire da regole soprattutto quando non si ha un database da cui partire.

Dati generati dall'AI

Sono generati dall'intelligenza artificiale. Questa è addestrata sui dati originali per apprendere tutti i modelli statistici. Successivamente creerà dati completamente nuovi e realizzati in modo tale da riprodurre il set di dati originale (gemelli di dati).

Il modello dell'AI imita i dati originali per generare questi gemelli sintetici così che possano essere utilizzati come se fossero dati originali.

Gartner ipotizza che già dal prossimo anno più della metà dei dati sarà generata artificialmente, mentre al momento quelli sintetici ammontano solo all'1%. 

Oggi i data scientists si stanno specializzando sempre di più nella creazione dei dati artificiali perché gli specialisti di settore li riconoscono come la frontiera più importante a cui approdare, in un panorama sempre più attento alla privacy.  

Fonti:

https://blogs.gartner.com/andrew_white/2021/07/24/by-2024-60-of-the-data-used-for-the-development-of-ai-and-analytics-projects-will-be-synthetically-generated/

https://www.agendadigitale.eu/sicurezza/privacy/i-dati-sintetici-nuova-frontiera-dellintelligenza-artificiale-opportunita-e-limiti/

https://www.syntho.ai/it/what-is-synthetic-data/  

Condividi l'articolo

Ultimi articoli inseriti

Tutti gli articoli

HEAT MAPS: mappe di calore utili al tuo sito

Cosa sono le mappe di calore e come possono essere utili alla strategia di crescita del tuo sito?

February 19, 2024

Fattori di ranking Google: consigli per la SEO

Scopri quali sono gli elementi a cui Google fa attenzione per posizionare il tuo sito sulle sue pagine!

February 9, 2024

41 milioni di Italiani si informano online, ma come?

Ancora una volta il panorama dell'editoria digitale è in mutamento, qui approfondiamo una ricerca molto importante sui punti di accesso all'informazione.

February 1, 2024