Tortura dell'acqua: un'analogia dell'analitica va troppo lontano

analisi del gocciolamento

I dati, come l'acqua, si presentano in molte forme. La mente umana si è evoluta per filtrare la maggior parte dei dati che ci arrivano perché semplicemente ce ne sono così tanti.

Quando apri gli occhi e le orecchie, i dati sono ovunque. Il colore del muro, il rumore dell'aria condizionata e l'odore del caffè del tuo vicino sono trattati come l'umidità. L'acqua è sempre nell'aria ma non è utile prestarvi molta attenzione.

Quando l'acqua si condensa in nebbia, ti costringe a vederla e rende la comprensione del mondo intorno a te ancora più difficile. Set di dati incompleti, dati corrotti, cattiva scienza, false conclusioni e pregiudizi cognitivi ti fanno perdere la strada nella nebbia.

I dati cadono come pioggia. Quando ce n'è solo un po ', è selvaggiamente insoddisfacente, quanto basta per sporcare la tua macchina e confondere la conversazione. Ti ritrovi a pulire via la macchia sugli occhiali mentre qualcuno sputa un punto dati casuale, raccolto da una fonte oscura.

  • Acqua stantia in uno stagno poco profondo è pericoloso. I dati, raccolti da una fornitura inaffidabile, né ripuliti né normalizzati e lasciati a crescere stagnanti, possono facilmente portare a conclusioni errate.
  • A gocciolamento costante di acqua può essere appena sufficiente per riempire una mensa o sostenere un ecosistema boschivo. Solo tre punti dati (il numero di e-mail inviate, rispetto a quelle aperte, rispetto a quelle cliccate) possono sostenere un programma di marketing.
  • A flusso più sano di dati sotto forma di un piccolo ruscello può essere utilizzato per la balneazione. Un flusso di dati continuo consente il benchmarking e il confronto storico. L'ottimizzazione della pagina di destinazione può essere ottenuta con dati di conversione costanti.
    A modesto fiume può alimentare un mulino per segare il legno o macinare il grano. Un motore di raccomandazione necessita solo del contributo affidabile di una manciata di affluenti per fornire un aumento del valore dei carrelli della spesa.
  • A cascata di può spingere un'enorme ruota idraulica e un afflusso sufficiente di informazioni può guidare un sistema di contenuti dinamico in tempo reale.
  • A fiume che è abbastanza ampio e profondo può supportare un'intera industria dei trasporti. Una quantità sufficiente di dati può far galleggiare chiatte e navi da carico sotto forma di una raccolta di cookie da reti pubblicitarie, aggregatori di dati di programmi di carte fedeltà e broker di dati.

Quando i dati arrivano nella quantità prevista in tempi previsti, possono essere acquisiti, canalizzati e utilizzati. I sistemi di irrigazione, le dighe e i bacini idrici forniscono una sensazione di controllo e consentono la costruzione di un'infrastruttura in continua espansione con canali, chiuse e dighe. I data warehouse sono stati costruiti su flussi meno affidabili.

La purezza è ad un passo alla devozione

L'acqua pulita è vitale per il successo della vita, dell'irrigazione, del funzionamento delle centrali elettriche, ecc. La definizione di "pulita" potrebbe cambiare allo scopo; va bene se ci sono alghe nell'acqua che raffredda una centrale elettrica e non è accettabile se ci sono più di 10 parti per miliardo di arsenico nell'acqua potabile.

I dati sono gli stessi. In un'applicazione di posta diretta, il fatto che tu abbia il titolo di una persona (Sig., Sig.ra, Sig. Ma i dati sporchi ti faranno inciampare ogni volta.

In qualità di Chief Data Scientist degli Stati Uniti, DJ Patil, mettilo a un vertice CTO First Round, "Se non stai pensando a come mantenere i tuoi dati puliti fin dall'inizio, sei f ^ ¢ & ed. Te lo garantisco. Provare a ripulirlo dopo il fatto richiederà almeno mesi. "

Se riscaldi l'acqua fino al punto di ebollizione, può alimentare un'intera rivoluzione industriale. I dati sembrano fare la stessa cosa. Dal momento in cui i computer hanno potuto memorizzare oltre che calcolare, i dati sono stati raccolti con la stessa rapidità con cui è stato possibile creare l'attrezzatura di archiviazione per farlo.

Il Data Lake

Mentre i dati di questi affluenti fluiscono attraverso i motori dei mulini, tutto finisce nel lago, dietro la diga. Poiché i dati vengono rilasciati in modo controllato, alimentano le turbine dell'industria dei dati; quei giganteschi motori di elaborazione dati con nomi come Google e Facebook. Non ci sarà siccità qui.

E, infine, c'è una pozza d'acqua profonda, in attesa che l'analista si tuffi. Attrezzatura subacquea e fucile subacqueo in mano, l'analista indaga in profondità, mappa un nuovo terreno e scopre nuove specie. È un momento molto eccitante per essere un esploratore di dati.

Ecco perché così tanti di loro si sono presentati per il Summit di eMetrics dal 2002. La prossima opportunità è a Boston, dal 27 settembre al 1 ottobre 2015.

Registrazione al Summit di eMetrics

Quell'ultimo ponte

E che dire del potere dei dati per scolpire il prossimo Grand Canyon? E lo scioglimento glaciale dei dati strutturati? Come trattiamo le acque reflue in un mondo che diventa sempre più attento alla privacy?

Quelle sono domande per un'altra volta e l'acqua sotto i ponti.

Cosa ne pensi?

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati dei tuoi commenti.