Advertising

Cosa sono i dati artificiali?

La nuova frontiera della data economy: scopriamo insieme cosa sono i dati sintetici o artificiali.

In un'era in cui l’intelligenza artificiale diventa sempre più utilizzata, l'utilizzo di dati di qualità diventa una priorità.

Se i dati di valore sono difficili da reperire a causa della GDPR, o sono scarsi, errati, non utilizzabili o alterati, una soluzione è quella di realizzarli artificialmente.

La creazione di dati artificiali a partire da un ecosistema reale è la nuova frontiera della data economy.

Cosa sono i dati sintetici

I dati sintetici sono informazioni artificiali prodotte dall'AI che riproducono in maniera perfetta i dataset del mondo reale.

Sono generati da algoritmi che riproducono in maniera fedele dataset del mondo reale, senza però rappresentare persone esistenti, ma mantenendo le stesse proprietà statistiche.

Sono molto utili quando non si hanno a disposizione abbastanza dati, o quando i costi per reperirli sono eccessivi, vi sono dei limiti di legge o i dati già acquisiti non sono di buona qualità.

Oggi si perde più della metà del tempo a selezionare e ordinare i dati. Con quelli sintetici si potrebbe invece dedicare la maggior parte del loro tempo all’analisi pura, che sta alla base della creazione degli algoritmi e dei database.

Oltre a semplificare il lavoro dei data scientists, i dati sintetici portano una serie di vantaggi.

I vantaggi dei dati sintetici

L'aspetto sicuramente più importante dell'utilizzo dei dati sintetici è quello di non incorrere in problemi legati alla privacy.

Con i dati sintetici, gli sviluppatori dispongono di una quantità di informazioni da utilizzare durante la progettazione e l'organizzazione degli algoritmi ma senza che vengano scambiate le informazioni sensibili delle persone reali: così non si corre più il rischio di violare la privacy.

Il fatto di reperire e avere dei dati che siano subito "puliti" e attendibili accorcia il processo di elaborazione dei dati stessi.

Un grande vantaggio dei dati sintetici è quello di poter simulare e di conseguenza prevedere scenari futuri. A differenza dei dati reali, i quali sono riferiti ad un momento storico particolare, e quindi tendenti a diventare obsoleti, i dati artificiali sono sempre utilizzabili e odierni.

Questa tecnologia può essere utilizzata in larga parte in tutti quei settori che necessitano di una grande mole di dati per migliorare i processi di lavoro, dalla finanza al mondo IT al retail.

 I dati sintetizzati dall'intelligenza artificiale permettono ai reparti marketing di eseguire simulazioni dettagliate people-based, per rendere più efficiente il budget ed evitare di disperderlo.

Tuttavia, creare dati artificiali non è così semplice. Significa dover realizzare un modello in grado di capire perfettamente la struttura dei dati reali, cioè tutte le relazioni e le interazioni all’interno del dataset reale. Dopo di che, i dati sintetici vengono generati in funzione del modello stesso.

Tipologie di dati sintetici

Dati fittizi

Si tratta di dati generati casualmente.

Le caratteristiche e gli schemi statistici dei dati originali non vengono conservati, acquisiti o riprodotti nei dati fittizi generati. Per questo motivo però la rappresentatività di questi dati è minima rispetto ai dati reali.

Dati basati sulle regole

Si tratta di dati generati da un sistema predefinito di regole.  

Più l'insieme di regole preimpostato è corretto, più accurati saranno i dati. È importante quando l'elevata qualità dei dati è essenziale. Attualmente è possibile definire solo un insieme limitato di regole da acquisire per i dati. Inoltre, l'impostazione di più regole comporta in genere regole sovrapposte e potenzialmente conflittuali. Si creano dati a partire da regole soprattutto quando non si ha un database da cui partire.

Dati generati dall'AI

Sono generati dall'intelligenza artificiale. Questa è addestrata sui dati originali per apprendere tutti i modelli statistici. Successivamente creerà dati completamente nuovi e realizzati in modo tale da riprodurre il set di dati originale (gemelli di dati).

Il modello dell'AI imita i dati originali per generare questi gemelli sintetici così che possano essere utilizzati come se fossero dati originali.

Gartner ipotizza che già dal prossimo anno più della metà dei dati sarà generata artificialmente, mentre al momento quelli sintetici ammontano solo all'1%. 

Oggi i data scientists si stanno specializzando sempre di più nella creazione dei dati artificiali perché gli specialisti di settore li riconoscono come la frontiera più importante a cui approdare, in un panorama sempre più attento alla privacy.  

Fonti:

https://blogs.gartner.com/andrew_white/2021/07/24/by-2024-60-of-the-data-used-for-the-development-of-ai-and-analytics-projects-will-be-synthetically-generated/

https://www.agendadigitale.eu/sicurezza/privacy/i-dati-sintetici-nuova-frontiera-dellintelligenza-artificiale-opportunita-e-limiti/

https://www.syntho.ai/it/what-is-synthetic-data/  

Condividi l'articolo

Ultimi articoli inseriti

Tutti gli articoli

Il boom del Podcast Advertising

Con una crescita esponenziale della spesa pubblicitaria e un numero sempre maggiore di aziende che investono in questo formato, il podcast advertising si sta affermando come una delle strategie più efficaci.

May 23, 2024

Cookieless: Google rimanda tutto al 2025

Perché Big G non è ancora pronta al cambiamento?

May 8, 2024

Autenticazione dei Dati: l'importanza per Editori e Inserzionisti

A metà del 2024 i cookie scompariranno completamente da Google Chrome. Obiettivo: cambiare e rafforzare le strategie sui dati.

April 10, 2024