Verso una data science context-oriented e human interpreted
Verso una nuovo concetto di Data Science
Con questo primo contributo inauguriamo il nuovo sito della Blogtega e vogliamo iniziare condividendo con voi quello che è il nostro particolare approccio alla scienza dei dati: una Data Science context-oriented e human interpreted, in grado di rispondere in maniera affidabile alle attuali sfide che il mercato e la società ci pongono.
Cercare di definire in una cornice standardizzata il nostro lavoro è impossibile, in quanto è il frutto dell’intersezione tra varie discipline che comprendono la Data Science, l’Information Retrivial, il Natural Language Processing (NLP) e le scienze sociali. Questo perchè i problemi complessi che la società oggi pone non possono essere affrontati con un solo strumento, ma necessitano l’impiego simultaneo di diverse competenze che permettano di compensare i loro stessi limiti.
È necessario, anzitutto, partire dalla considerazione che i data scientist hanno ampie competenze in ambito matematico e informatico, essendo in grado di produrre strumenti per elaborare dati su grande scala. Allo stesso tempo ci rendiamo sempre più conto di come, per rendere veramente efficaci questi strumenti, siano sempre più necessarie le competenze proprie dello scienziato sociale in grado di capire verso dove indirizzare l’attenzione e in grado di saper leggere i risultati e soprattutto intus-legere, ovvero leggere dentro e tra i risultati per capire e intuire quelli che sono gli insight (qualcosa che non sapevi o non immaginavi che nel settore business e non solo può darti il vantaggio competitivo nel mercato) rilevanti per la domanda che ci è stata posta.
Cosa è la data science: tra punti di forza e di debolezza
La data science è stata definita come nuovo campo di studi per la prima volta da William S. Cleveland nel 2001 e potremmo definirla come quell’insieme di pratiche e tecniche computazionali utilizzate per ottenere, da dei dati grezzi, degli insights validi e direttamente azionabili per supportare e indirizzare i processi decisionali. Il data scientist viene così solitamente identificato con l’esperto di machine learning con solide competenze matematiche, informatiche e statistiche.
Il grande interesse nei confronti di questo nuovo campo di studi, tanto che l’Harvard Business Review ha definito il data scientist il “mestiere più sexy del XXI secolo”, rischia di portarci a guardare solamente ai punti di forza, trascurandone così i limiti.
Infatti, molti dei servizi offerti in questo ambito risultano essere delle black boxes sulle quali non è possibile avere un controllo effettivo. Questo elemento porta con se dei rischi non indifferenti per i decisori (nel settore business o istituzionale) che basano sempre più le loro decisioni sui risultati di questi nuovi strumenti. Concentrandosi sul settore che a noi più interessa, ovvero quello del text mining e del natural language processing, il rischio maggiore è quello di “un ingenua rincorsa dell’oggettività tramite l’estremizzazione ossessiva del calcolo numerico applicato ai testi, con la conseguente grave perdita del ruolo del contesto” [Tipaldo 2014, 191]. Non si può dimenticare che le parole assumono un significato diverso in base al contesto nel quale vengono utilizzate e che quindi, strumenti di analisi generalizzati possono fornire risultati dannosi per le nostre decisioni.
La ricchezza delle conversazioni on-line
Seppur i campi di applicazione della data science siano tra i più svariati e si pensa che interessino più i dati numerici che testuali, è necessario riconoscere come il web stia diventando sempre più il luogo privilegiato per le nostre conversazioni e per esprimere le nostre opinioni (su prodotti commerciali, questioni sociali, politiche, economiche ecc.).
Data l’estrema varietà del linguaggio umano non è pensabile di poter ottenere ottenere dei risultati affidabili da un’analisi solamente quantitativa o, anche se qualitativa, basata sempre su un approccio guidato dalla quantità che esclude l’interpretazione umana.
Verso un approccio integrato
Per colmare queste lacune pensiamo che il risultato finale non possa prescindere da altre due componenti fondamentali: la Content Analysis e l’interpretazione umana.
Parafrasando il nostro founder, potremmo definire la content analysis come quell’insieme ampio ed eterogeneo di tecniche, manuali o assistite da computer di interpretazione contestualizzata di testi, aventi come obiettivo finale la produzione di insights validi e attendibili. Infine, l’analisi del contenuto non può essere scissa dalla terza componente fondamentale: l’interpretazione umana. È proprio qui che ritorna e diventa centrale la capacità di intus-legere all’interno dei risultati elaborati dagli strumenti a nostra disposizione, per scoprire quelle sfumature che passano inosservate agli occhi quantitative-driven della macchina, ma che molte volte determinano il vantaggio competitivo di un azienda su un altra.
Questo è il valore aggiunto del team Quaerys e lo vogliamo condividere con voi nella nostra Quaerys Academy.
Un piccolo esempio per concludere
Proviamo a pensare ad una azienda che vende i propri prodotti sia tramite canali online che offline. I primi dati che attireranno l’attenzione dei dirigenti riguarderanno l’andamento delle vendite con tutte le specifiche necessarie. In questa fase sicuramente può giocare un ruolo importante la scienza dei dati in senso proprio, la quale tramite il machine learning può ad esempio fornire delle previsioni sugli andamenti futuri delle vendite.
Ma per indirizzare le nostre decisioni questo non ci basta. Infatti, il vero vantaggio competitivo rispetto al resto del mercato sta nel capire i motivi che provocano le oscillazioni negli andamenti delle nostre vendite per sapere come gestirli e indirizzarli. Le conversazioni online oggi ci offrono una fonte in continuo aumento di risorse per scoprire cosa gli utenti e i consumatori pensano dei nostri prodotti, i loro suggerimenti, le loro critiche e molto altro. Vengono qui in nostro aiuto gli strumenti offerti dal Text Mining e dal Natural Language Processing.
Il metodo adottato in Quaerys permette di scoprire tutto questo con un approccio integrato e guidato dal genio umano.