Standardizzazione dei dati: definizione, test e trasformazione

Standardizzazione dei dati

Mentre le organizzazioni si spostano verso la creazione di una cultura dei dati in tutta l'azienda, molte stanno ancora lottando per ottenere i dati corretti. L'estrazione di dati da fonti disparate e l'ottenimento di formati e rappresentazioni variabili di quelle che dovrebbero essere le stesse informazioni provoca seri blocchi stradali nel percorso dei dati.

I team subiscono ritardi ed errori durante l'esecuzione delle operazioni di routine o l'estrazione di informazioni dettagliate dai set di dati. Tali problemi costringono le aziende a introdurre un meccanismo di standardizzazione dei dati, che garantisce che i dati siano presenti in una visione coerente e uniforme in tutta l'organizzazione. 

Diamo uno sguardo più approfondito al processo di standardizzazione dei dati: cosa significa, i passaggi che comporta e come puoi ottenere una visualizzazione dei dati standard nella tua azienda.

Che cos'è la standardizzazione dei dati?

In poche parole, la standardizzazione dei dati è il processo di trasformazione dei valori dei dati da un formato errato a uno corretto. Per consentire una visualizzazione dei dati standardizzata, uniforme e coerente in tutta l'organizzazione, i valori dei dati devono essere conformi allo standard richiesto, nel contesto dei campi di dati a cui appartengono.

Esempio di errori di standardizzazione dei dati

Ad esempio, il record dello stesso cliente residente in due località diverse non deve contenere discrepanze nel nome e nel cognome, nell'indirizzo e-mail, nel numero di telefono e nell'indirizzo di residenza:

Nome Email Numero di telefono Data di nascita Sesso Indirizzo di residenza
John Oneel giovanni.neal@gmail.com 5164659494 14/2/1987 M 11400 W Olimpico BL # 200
Fonte 1

Nome Cognome Email Numero di telefono Data di nascita Sesso Indirizzo di residenza
John O'neal john.neal_gmail.com +1 516-465-9494 2/14/1987 Uomo 11400 V Olimpico 200
Fonte 2

Nell'esempio sopra, puoi vedere i seguenti tipi di incongruenze:

  1. Strutturale: La prima fonte copre il nome del cliente come un singolo campo, mentre la seconda lo memorizza come due campi: nome e cognome.
  2. Motivo: La prima fonte ha a modello di posta elettronica valido imposto sul campo dell'indirizzo email, mentre al secondo manca visibilmente il @ simbolo. 
  3. Tipo di dati: La prima fonte consente solo cifre nel campo Numero di telefono, mentre la seconda ha un campo di tipo stringa che contiene anche simboli e spazi.
  4. Formato: La prima fonte riporta la data di nascita nel formato MM/GG/AAAA, la seconda nel formato GG/MM/AAAA. 
  5. Valore del dominio: La prima fonte consente di memorizzare il valore del sesso come M o F, mentre la seconda fonte memorizza il modulo completo: maschio o femmina.

Tali incongruenze dei dati ti portano a commettere gravi errori che possono far perdere alla tua azienda molto tempo, costi e fatica. Per questo motivo, implementando un meccanismo end-to-end per il standardizzazione dei dati è fondamentale per mantenere l'igiene dei dati.

Come standardizzare i dati?

La standardizzazione dei dati è un semplice processo in quattro fasi. Ma a seconda della natura delle incongruenze presenti nei tuoi dati e di ciò che stai cercando di ottenere, i metodi e le tecniche utilizzate per la standardizzazione possono variare. Qui presentiamo una regola pratica generica che qualsiasi organizzazione può utilizzare per superare i propri errori di standardizzazione. 

  1. Definisci qual è lo standard

Per raggiungere qualsiasi stato, devi prima definire cosa sia effettivamente lo stato. Nella prima fase di qualsiasi processo di standardizzazione dei dati c'è l'identificazione di ciò che è necessario per essere raggiunto. Il modo migliore per sapere di cosa hai bisogno è comprendere i requisiti aziendali. È necessario eseguire la scansione dei processi aziendali per vedere quali dati sono necessari e in quale formato. Questo ti aiuterà a impostare una linea di base per i tuoi requisiti di dati.

Una definizione di standard di dati aiuta a identificare:

  • Gli asset di dati cruciali per il tuo processo aziendale, 
  • I campi dati necessari di tali risorse,
  • Il tipo di dati, il formato e il modello a cui devono essere conformi i loro valori,
  • L'intervallo di valori accettabili per questi campi e così via.

  1. Testare i set di dati rispetto allo standard definito

Una volta che hai una definizione standard, il passaggio successivo consiste nel testare le prestazioni dei tuoi set di dati rispetto ad essi. Un modo per valutare questo è utilizzare profilazione dei dati strumenti che generano report completi e trovano informazioni come la percentuale di valori conformi ai requisiti del campo dati, come ad esempio:

  • I valori seguono il tipo e il formato di dati richiesti?
  • I valori sono al di fuori dell'intervallo accettabile?
  • I valori utilizzano forme abbreviate, come abbreviazioni e soprannomi?
  • sia indirizzi standardizzati se necessario - come Standardizzazione USPS per gli indirizzi statunitensi?

  1. Trasforma i valori non conformi

Ora è finalmente il momento di trasformare i valori che non sono conformi allo standard definito. Diamo un'occhiata alle comuni tecniche di trasformazione dei dati utilizzate.

  • Analisi dei dati – Alcuni campi di dati devono essere prima analizzati per ottenere i componenti di dati necessari. Ad esempio, analizzare il campo del nome per separare il nome, il secondo nome e il cognome, nonché eventuali prefissi o suffissi presenti nel valore.
  • Tipo di dati e conversione del formato – Potrebbe essere necessario rimuovere i caratteri non conformi durante la conversione, ad esempio rimuovendo simboli e alfabeti da un numero di telefono di sole cifre.
  • Pattern matching e validazione – La conversione del modello viene eseguita configurando un'espressione regolare per il modello. Per i valori degli indirizzi e-mail conformi a un'espressione regolare, devono essere analizzati e trasformati nel modello definito. un indirizzo e-mail può essere convalidato utilizzando la regex:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Espansione dell'abbreviazione – I nomi di società, indirizzi e nomi di persone spesso contengono forme abbreviate che possono portare il set di dati a contenere rappresentazioni diverse delle stesse informazioni. Ad esempio, potresti dover espandere gli stati nazionali, come convertire NY in New York.
  • Rimozione del rumore e correzione dell'ortografia – Alcune parole in realtà non aggiungono alcun significato a un valore e, invece, introducono molto rumore in un set di dati. Tali valori possono essere identificati in un set di dati eseguendolo su un dizionario che contiene queste parole, contrassegnandole e decidendo quali rimuovere permanentemente. Lo stesso processo può essere eseguito per trovare errori di ortografia ed errori di battitura.

  1. Ritestare il set di dati rispetto allo standard definito

Nella fase finale, il set di dati trasformato viene testato nuovamente rispetto allo standard definito per scoprire la percentuale di errori di standardizzazione dei dati corretti. Per gli errori che rimangono ancora nel tuo set di dati, puoi ottimizzare o riconfigurare i tuoi metodi ed eseguire nuovamente i dati attraverso il processo. 

Avvolgere

La quantità di dati generata oggi - e la varietà di strumenti e tecnologie utilizzati per acquisire questi dati - sta portando le aziende ad affrontare il terribile pasticcio di dati. Hanno tutto ciò di cui hanno bisogno, ma non sono del tutto sicuri del motivo per cui i dati non sono presenti in una forma e una forma accettabili e utilizzabili. L'adozione di strumenti di standardizzazione dei dati può aiutare a correggere tali incoerenze e abilitare una cultura dei dati tanto necessaria all'interno dell'organizzazione.

Cosa ne pensi?

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati dei tuoi commenti.