AAPOR Report on Big Data (february 2015)

Ovvero limiti e potenzialità dei big data.

 

Ancora una volta AAPOR mette insieme alcuni dei maggiori esperti globali di indagini statistiche e di Big Data per fare il punto della situazione su questo argomento e dare delle indicazioni utili agli associati e, in genere, ai metodologi della ricerca.

 

Big Data, cosa sono?

 

La prima cosa importante su cui si sofferma il report è cosa intendiamo con Big Data e quale può essere il suo utilizzo per chi si occupa di indagini, sondaggi e ricerche statistiche (poco importa se con metodologia CATI, CAWI, MAWI o CAMI).

 

Probabilmente quando un ufficio centrale di statistica (ad esempio Istat) parla di Big Data è probabile che concentri la sua attenzione sulle gigantesche moli di dati amministrativi che vengono generate dalle varie amministrazioni pubbliche. In alcuni paesi del nord europa i censimenti sono stati sostituiti dai flussi costanti di informazioni provenienti dall'anagrafe, dal sistema sanitario, dal catasto, dal sistema pensionistico e così via (vedi figura 10 del report).

 

reportaapor 

 

E' probabile invece che quando una grossa impresa parla di Big Data intenda riferirsi a tutti quei dati provenienti dagli (ad esempio) acquisti. Per American Express potrebbero essere tutte le transazioni avvenute in un certo periodo. Le milioni di transazioni con la carta di credito contengono informazioni di indubbia utilità: in particolare dove, quando e cosa è stato acquistato. Un altro esempio può essere quello delle carte fedeltà dei supermercati, che generano giornalmente anch'esse quantità notevoli di informazioni su cosa e quando acquistano i clienti profilati per le principali variabili socio-demografiche.

 

Infine possiamo immaginare una terza tipologia di big data ed è quella generata volontariamente nei Social Media dagli utenti stessi, attraverso un like, un'opinione su un blog, una foto caricata su Instangram, una chat in un gruppo di Whatsapp. Questo tipo di Big Data può contenere sia informazioni oggettive (ad esempio le caratteristiche dell'utente, le sue reti di amicizie e la posizione Gps quando immette quelle informazioni, il luogo, l'ora in cui è stata scattata la foto,...) che opinioni ha sui più differenti argomenti.

 

Secondo AAPOR il problema della qualità del dato, e quindi lo sviluppo di un framework utile ad individuare le varie tipologie di errore, come quello esistente nelle survey (il Total Survey Error), è un primo problema da non sottovalutare. I Big Data, per loro natura, non sono pensati per creare informazioni statistiche ma per altri scopi (amministrativi, divertimento, etc etc). L'omogenizzazione del dato quantitativo (pensate ad esempio in quanti modi differenti si può scrivere una data) o l'estrazione di dati quantitativi da informazioni qualitative (è soddisfatto o meno l’utente di un determinato servizio), è un processo estremamente ricco di errori e non chiaramente formalizzato. E lo stesso si può dire per quel che riguarda le fonti utilizzate per la generazione di questi risultati. Pensiamo, ad esempio, ad una analisi sui tweet per determinare il futuro vincitore di una competizione elettorale. Qui vanno definiti i criteri (quali, ad esempio, l'esclusione dalla rilevazione dei tweet dei profili dei partiti), come avviene il processo di omogeneizzazione dei tweet, etc etc.

 

In sintesi, se nella creazione di dati primari attraverso indagini (sondaggi, ricerche CATI-CAMI, ad esempio) abbiamo dei criteri per stabilire se i risultati sono affidabili o meno (ad esempio misurando il bias dovuto al processo di selezione dei rispondenti), nel campo dei big data non abbiamo ancora un framework condiviso per affermare la validità dei risultati ed in particolare non possediamo criteri in grado di dirci qualcosa circa la possibilità della loro generalizzazione sulla popolazione.

Numerose sperimentazioni sono state condotte nel tentativo di generalizzare i risultati a partire dai Big Data, alcuni con successo altri meno (il caso di Google Flu è un esempio negativo). Uno dei tentativi di utilizzo dei Big Data riguarda lo studio in parallelo degli andamenti delle stime elettorali con quello dei tweet relativi per vedere se si riesce ad elaborare un modello predittivo.

 

Ovviamente se l'obiettivo non è la generalizzazione dei risultati le applicazioni sono molteplici ed oramai consolidate, dal predictive analytics al rapid-cycle evaluation (ad esempio). Immaginatevi un’analisi dei Big Data provenienti dalla posizione del telefonino: potreste visualizzare in una mappa quante persone, in un dato momento, sono a casa, quante sono fuori casa e poi come si spostano, dove si concentrano quelli che sono fuori casa, magari profilati per genere, età, professione, tipo di contratto telefonico, etc etc. O ancora: i pagamenti via carta di credito. Potreste immaginare di avere in tempo reale i pagamenti, classificati per tipologia di negozio, nelle varie ore del giorno, per importi e sempre profilati per le variabili di prima. In entrambi gli esempi saremo in possesso anche delle stime sui flussi turistici e lavorativi della popolazione a livello globale. Tutto ciò assumendo che siate interessati unicamente alle transazioni via carta di credito e che non vogliate stimare le spese anche dei non possessori di carta di credito. Oltre a questo, un vantaggio formidabile dei Big Data è la granularità dell'informazione che permette di profilare gli acquisti via carta di credito dei residenti nel comune di... Canicattì.

 

Un ulteriore motivo per cui consigliamo la lettura di questo report è il dettaglio con cui esaminano le risorse tecnologiche e gli skill necessari per utilizzare i Big Data. Nel primo gruppo, tra gli strumenti più frequentemente utilizzati, ci sono Hadoop e Spark di  Apache e i linguaggi di programmazione Python e Java. Relativamente alle figure necessarie per questo tipo di analisi si fa riferimento al domain expert, al computer scientist e al system administrator.

 

Buon lavoro a tutti

 

Esperimento sul panel

CAWI verso CATI

Alcuni nostri clienti

Visitatori

Abbiamo 19 visitatori e nessun utente online

Revolution Now

Copyright Demetra opinioni.net s.r.l. sotto Free Documentation License
Sito realizzato con Joomla

I cookies ci aiutano a offrirti un servizio migliore. Utilizzando il nostro sito accetti l'uso dei cookies.