Da wired.it
Ecco cosa fa e perché sarà sempre più importante nelle nostre vite
di Pietro Leo, CTO for Big Data Analytics & Watson, Member of IBM Academy of Technology IBM Italia e
di Stefano Gliozzi, Senior Managing Consultant, Data Scientist IBM Italia 19 ago 2014
I dati crescono, questo si sa, ma sapere che a oggi il 90% di essi, come hanno riscontrato alcune ricerche, è stato creato nei soli ultimi due anni probabilmente è meno noto.
Lo tsunami dei dati ci travolge. I dati arrivano ormai da ogni dove sommergendoci anche individualmente. Non ci credete? Provate a chiedervi: quanto è grande il mio archivio fotografico digitale? Quante foto che non mi sono mai deciso a stampare giacciono nei miei hard disk? Quanto è grande lo stesso hard disk che uso ora rispetto a quello di soli tre anni fa?
Se consideriamo i dati prodotti dalla nostra società, nel suo complesso, comprendiamo quando grande sia effettivamente questo fenomeno e quanto sempre più digitali e quanto Big siamo i dati che ci circondano: sensori che acquisiscono dati metereologici, l’esplosione dei contenuti che condividiamo suisocial media, enorme quantità di registrazioni di dati relativi agli acquisti o dati bancari che ogni giorno si accumulano, archivi diimmagini e video, dati telefonici, i segnali Gps che ci scambiamo, questi sono solo pochissimi esempi, ma danno certamente l’idea della dimensione del fenomeno.
Inoltre, questi esempi sono relativi ad archivi di dati grezzi, non trattati, tipicamente conservati così come prodotti dalle rispettive sorgenti. L’esigenza di trattare i dati, non solo per acquisirli, conservarli e assolvere modesti compiti operativi, ma principalmente per analizzarli e interpretarli opportunatamente, diventa sempre più una necessità condivisa, che prevede l’intervento di un professionista specifico, che in molti chiamanoData Scientist, e che racchiude tra le sue competenze molte esperienze e specializzazioni.
In realtà saper analizzare ed interpretare dati è un vecchio mestiere. L’analisi dei dati sperimentali, economici, di business, provenienti da indagini sociali o censuari è una disciplina che ha una storia di più di due secoli e che ha un nome: statistica. Negli ultimi 40 anni, e con un’accelerazione nell’ultimo decennio, è però avvenuta una mutazione del contesto, che costringe a ridefinire ruoli e professioni.
Fino ai primi anni ‘90, gli analisti di dati dovevano anzitutto porsi il problema di quali dati raccogliere e quindi registrare; quali interviste commissionare, come codificarle e renderle disponibili per un software che le analizzasse. Ognuna di queste operazioni aveva un costo. Lo scopo era quello di trarre conoscenza/previsioni utilizzando il minor numero di dati possibili.
Dagli anni ’90 in poi, con la prima ondata di Internet e del commercio elettronico in particolare, la situazione si è profondamente modificata: molte delle informazioni, per esempio riguardanti la relazione col cliente, sono nativamente disponibiliin formati digitali. Talvolta è dato strutturato, talvolta ancora da strutturare (immagini, suoni, voce, testo libero). Di fronte a questa abbondanza di dati, la statistica tradizionale ha faticato a ribaltare il suo paradigma di analisi.
La Computer Science, molto più vicina al reale svolgimento dei fatti, ha pragmaticamente cercato di reagire, proponendo metodi e algoritmi adatti a indagare dati in quantità assolutamente inusuale per gli statistici, da qui la nascita di nuove discipline come il Data Mining, Statistical Machine Learning e altre.
Negli ultimi anni un’ulteriore accelerazione del processo didigitalizzazione che ha investito tutti i settori di industria ha ampliato ulteriormente queste necessità.
Il data scientist, con le sue capacità di analizzare e interpretare dati, diviene così sempre più una figura professionale centrale e quindi richiesta nel mondo aziendale. Su una cosa tutti gli analisti concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda di data scientist.
Sempre di più le aziende sono consapevoli di potere acquisire vantaggi competitivi dai dati che per il momento sono solo memorizzati (per esigenze di processo), ma non realmente analizzati. Per esempio, tutti i dati prodotti dalla sensoristica delle nostre automobili, sono in massima parte analizzati solo dopo il guasto dalla apparecchiatura di diagnostica del meccanico. Una loro analisi base di routine, per tutte le auto dello stesso modello, potrebbe portare enormi benefici nell’aumentare la sicurezza e la affidabilità dei mezzi. Diverse case produttrici cominciano a muoversi in questa direzione con l’obiettivo ideale di individuare la difettosità prima ancora che l’auto esca dalla stessa fabbrica.
Il data scientist è un professionista—quindi non uno scienziato o un ricercatore—ed è il portatore di una serie di competenze che permettono alle aziende non solo di sfruttare i dati disponibili per generare vantaggio competitivo, ma anche di creare nuovi modelli di business. Ecco alcuni esempi:
Capacità di comprendere l’origine, e le possibili distorsioni insite in essa, dei dati che analizza;
Capacità di analizzare il flusso informatico di provenienza dei dati: conoscere le tecnologie, i loro limiti prestazionali e i vantaggi dell’una sull’altra;
Capacità di identificare problemi di business che possono essere meglio indirizzati grazie all’analisi dei dati;
Capacità di analizzare i dati con metodi scientificamente provati: Statistica, Data Mining, Ricerca Operativa;
Capacità di comunicare con chiarezza al top management i risultati e le raccomandazioni di business conseguenti,
Certamente ogni data scientist avrà maggiori abilità in alcuni di questi campi e minori in altri, ma deve evidentemente avere la consapevolezza che tutti questi aspetti sono parte della sua professione, combinati con un’attitudine di fondo fatta curiosità e creatività nel problem solving basato sull’analisi dei fatti.
Fino a un recente passato, i data scientist si sono formati sostanzialmente in modo autonomo, empiricamente, risolvendo problemi sempre più complessi. Sono il frutto della combinazione, talvolta casuale, tra le attitudini, gli studi individuali e le opportunità aziendali, senza un percoso di formazione e di crescita ben preciso.
Negli ultimi anni però, sono si sono sviluppate iniziative anche in sinergia tra il mondo accademico e le aziende, per costruire dei curricula che avviino alla professione del data scientist, offrendo le competenze di base in modo più strutturato.
In Italia già dallo scorso anno, IBM e il Politecnico di Milano hanno avviato un progetto congiunto che va in questa direzione, chiamato PoliMI-IBM Collaborative Innovation Center for Business Data Analytics. Si tratta di un’esperienza unica in Europa, in sinergia con due iniziative simili avviate sempre da IBM con altre Università negli Stati Uniti e in estremo oriente.
Il Collaborative Innovation Center focalizza gli sforzi su cinque specifici programmi che vanno dalla laurea Magistrale al PhD, dai corsi post-graduate della School of Management agli ambiti delle start-up e degli spin-off, fino al coinvolgimento delle imprese. Obiettivo della collaborazione è la formazione di nuove competenze professionali ad hoc e nello stesso tempo la creazione di una cultura che riconosca il valore strategico della gestione dei dati (e il processo decisionale ad esso legato), il sostegno dell’imprenditorialità e delle stesse organizzazioni già posizionate sul mercato.