Data mining per le industrie culturali e creative
Autore/i:
Rubrica:
STUDI E RICERCHE
Articolo a cura di:
Silvia Cacciatore
Le tecniche di Data mining costituiscono un importante strumento per l’analisi di ingenti quantità di dati. Nell’ambito del progetto di Ricerca Mappatura strategica delle ICC in Veneto nell’ambito dei Bandi POR-FESR, svolto all’interno del Dipartimento di Management dell’Università Ca’ Foscari di Venezia si sono applicate, per la prima volta, tecniche di Text Mining e di Sentiment Analysis al settore delle Industrie culturali e creative.
Le tecniche di Data mining costituiscono un importante strumento per l’analisi di ingenti quantità di dati: soprattutto in un’epoca come quella attuale, contraddistinta da un uso sempre più massivo dei nuovi strumenti informatici, immagazzinare e decifrare le informazioni, riconducibili a milioni di consumatori-utenti, (Tan, Steinbach & Kumar, 2006), si rende sempre più necessario.
Oltre alle tecniche di classificazione e clustering (Xu & Wunsch, 2009), vi sono modalità di elaborazione statistica che consentono di effettuare vere e proprie analisi semantiche su testi di qualsiasi natura: tale pratica può rivelarsi di fondamentale interesse per la comprensione dei sentimenti del pubblico di riferimento (Weiss, Indurkhya & Zhang, 2010).
I principali precursori della moderna analisi quantitativa in ambito linguistico sono stati soprattutto G.K. Zipf (1935) e G.U. Yule (1944). Jean-Paul Benzecri (1963) svolse le sue prime sperimentazioni di quella che chiamerà la sua analyse des données proprio grazie allo studio di dati linguistici (Bolasco, 2005). C. Muller (1973) e P. Lafon (1984) svilupparono in seguito indici e misurazioni riconducibili alla statistica linguistica e successivamente rivolsero la loro attenzione allo studio dei lemmi e della statistica lessicale (1970 circa).
In Italia, A. Zampolli (1995) e Tullio De Mauro (1980) diedero vita alle prime risorse per una linguistica quantitativa approfondendo nuovi strumenti come i lessici di frequenza. Verso la fine del 1980 vennero messi a punto software specifici e meglio definiti i confini della statistica testuale grazie all’ausilio di analisi per forme grafiche (indipendenti dalla lingua e relative ai segni linguistici).
Solo in anni recenti (metà degli anni ’90) si è sviluppato un nuovo indirizzo statistico relativo all’analisi dei dati testuali: il Text Mining.
Tale tecnica (Bolasco, 2005, p. 28) consente di studiare in profondità il significato del testo anche in presenza di consistenti dimensioni di file di dati (aumentati esponenzialmente con lo sviluppo dell’era digitale). «Il suo scopo è trasformare l’insieme dei testi non strutturati in un insieme di dati strutturati, allocati successivamente in un database tradizionale».
L’analisi in Text Mining si compone di tre fasi:
1) Pre-processing dei testi: eperimento del testo da analizzare, formattazione (in file xml o txt) e costruzione del document warehouse quale base dati;
2) Lexical processing in cui si riconoscono i vocabolari, si individuano parole chiave e si effettuano le opportune lemmatizzazioni (riconoscimento delle principali parti del testo, quali sostantivi, verbi, aggettivi);
3) Text mining che include: categorizzazione automatica di documenti per il recupero delle informazioni più rilevanti; ricerca di entità (termini) in testi anche multilingue, interrogazioni in linguaggio naturale.
In generale vengono utilizzate due procedure statistiche:
1. Classificazione (identificazione delle tematiche principali, individuazione delle relazioni tra esse, classificazione dei dati in classi);
2. Clusterizzazione dei testi in base alla similarità del vocabolario utilizzato, al fine di rintracciare stabili aree concettuali e comportamenti omogenei rispetto agli autori dei testi o alle categorie di appartenenza.
Questo tipo di analisi è molto utilizzata in ambito Customer Relationship Management (CRM), Customer Opinion Survey, gestione delle risorse umane, osservazioni sulla concorrenza e sull’utenza, analisi di basi documentali settoriali (economico-finanziarie, giuridiche, mediche, etc).
Metodo di ricerca
Nell’ambito del progetto di Ricerca Mappatura strategica delle ICC in Veneto nell’ambito dei Bandi POR-FESR, svolto all’interno del Dipartimento di Management dell’Università Ca’ Foscari di Venezia (supervisor Prof. F. Panozzo) si sono applicate[1], per la prima volta, tecniche di Text Mining e di Sentiment Analysis al settore delle Industrie culturali e creative.
Sulla base del modello dei cerchi concentrici (Throsby, 2008) abbiamo innanzitutto classificato le imprese ed i relativi progetti (presentati nell’ambito dei Bandi POR-FESR, quindi a livello di programmazione regionale ed europea) in quattro settori principali: Nucleo artistico, Industrie culturali, industrie creative e settori complementari.
Questo ci ha consentito di operare una ricognizione iniziale delle imprese culturali anche in base ai codici ATECO di riferimento: operazione tutt’altro che semplice e che ha rivelato una vera lacuna all’interno dell’ordinamento italiano ed europeo in merito ad una definizione sistematica e condivisa delle industrie culturali, della loro posizione all’interno dello scenario economico e delle relative politiche di settore di cui farsi destinatarie.
Manca infatti una classificazione unitaria di industrie culturali e creative che realizzi una suddivisione delle stesse in base ad un criterio omogeneo di riferimento e che consenta di riportare ad ogni settore individuato i rispettivi codici ATECO: cosa che renderebbe finalmente possibile anche una misurazione efficiente dell’impatto economico complessivo delle ICC sulle economie nazionali dei rispettivi Paesi Membri.
Abbiamo quindi affiancato, ad un’analisi statistico-economica dei progetti presentati, un approfondimento semantico dei termini maggiormente utilizzati da parte delle imprese culturali esaminate, con particolare attenzione alle parole chiave che circolano nell’economia delle industrie culturali e creative.
I documenti strategici di programmazione (in particolare il RIS 3 del Veneto) prevedono degli obiettivi prestabiliti come criterio di misurazione della performance raggiunta nell’ambito di temi attinenti al dettato europeo in materia culturale. Vi sono quindi alcuni termini che maggiormente esemplificano la rispondenza delle imprese finanziate ad alcuni parametri prestabiliti: noi ne abbiamo studiati otto. Questi sono: creatività, cultura, digitale, innovazione, ricerca, smart, tecnologia, territorio.
Questo ci ha consentito di verificare quali fossero le imprese più allineate sulle strategie europee: è stato infatti possibile comprendere quali progetti siano stati in grado di rivelarsi maggiormente eterogenei rispetto ai diversi temi e come tale multidisciplinarietà sia stata poi in grado di costruire per la singola impresa un posizionamento strategico ottimale, sia rispetto alle altre imprese sul mercato, sia riguardo all’accesso ai finanziamenti per la Cultura.
L’analisi semantica, inoltre, mediante la misurazione delle frequenze di ogni termine utilizzato all’interno dei progetti presentati alla Regione Veneto (sono stati in particolare esaminati i bandi POR-FESR relativi all’Azione 3.5.1. per la creazione di nuove imprese e all’Azione 3.5.1. volta al sostegno di imprese esistenti) ha permesso di capire intorno a quali concetti ogni singola impresa e poi ogni settore in particolare ha costruito la propria mission e il proprio sistema di valori.
Sentiment Analysis
Oltre all’esplorazione dettagliata di dati e casi reali legati ai Fondi Europei di Sviluppo Regionale, la nostra ricerca ci ha consentito di applicare le nuove tecniche di Data mining al settore culturale in senso stretto.
Abbiamo infatti condotto una Sentiment Analysis, campo di studi che analizza le opinioni delle persone, i sentimenti, le valutazioni, le attitudini ed emozioni verso entità quali prodotti, servizi, organizzazioni, individui, problemi, eventi, argomenti e relativi attributi (Liu, 2012, p.7), sui testi presentati dalle imprese partecipanti ai bandi POR-FESR, al fine di indagare quale fosse il tono prevalentemente utilizzato nella compilazione dei progetti e se questo potesse avere o meno una relazione con l’attribuzione di un punteggio e quindi con una maggiore probabilità di finanziamento.
Figura 2. Sentiment analysis effettuata sui progetti presentati nell'ambito dei Bandi POR-FESR della Regione Veneto.
Fonte: elaborazione personale su dati Regione Veneto 2017.
In base all’analisi effettuata, i valori interi esaminati (somma positiva, somma negativa e somma complessiva) sono stati ponderati rapportandoli al numero totale di parole nella frase. Si sono ottenuti, in questo modo, 3 valori percentuali (sentimenti positivi, negativi e percentuale complessiva).
Aggregando i valori delle singole frasi abbiamo ottenuto una visione complessiva in grado di evidenziare il Sentiment prevalente nelle singole osservazioni/parole.
Mediante un’ulteriore analisi in regressione lineare multipla abbiamo inoltre verificato l’inesistenza di un legame stabile tra il sentiment positivo delle domande esaminate e il punteggio ottenuto complessivamente; esiste invece una debole relazione tra il numero di parole utilizzato nei progetti e il sentiment positivo espresso (segno forse che un argomento più discorsivo possa risultare maggiormente convincente).
Risultati e considerazioni
Nel complesso le tecniche di Data mining si sono rivelate uno strumento molto potente per poter esaminare il settore culturale non solo dal punto di vista statistico ma economico e strategico-organizzativo: ricostruire la catena del valore delle industrie culturali e creative potrebbe essere un modo per costruire un nuovo approccio critico e analitico ad una realtà in continua trasformazione.
Capire in che modo queste imprese costruiscono il proprio sistema di valori ed interagiscono con il proprio ambiente di riferimento (dagli stakeholder alle autorità politiche, sino a raggiungere il singolo cittadino/utente) consente inoltre di comprendere in che modo sappiano reagire efficacemente ai cambiamenti della nostra epoca e confermarsi un adeguato veicolo di innovazione e cambiamento per il nostro Paese.
Nello specifico del nostro lavoro si è evidenziato come l’analisi dei dati possa consentire all’intero settore di raggiungere una competitività maggiore in relazione agli altri settori economici e rendersi sempre più proficuo in termini di una maggiore misurabilità ed efficienza dei risultati attesi nell’ambito di finanziamenti regionali ed europei.
Un’impresa che sa parlare un linguaggio nuovo sa anche aprirsi a nuovi mercati e rendersi più vicina ad una fascia di utenza sempre più bisognosa di attenzioni e cambiamenti. Capire come le imprese culturali e creative si pongono rispetto alle politiche pubbliche, come studiano la loro proposta culturale e in che modo riescono a raggiungere nuove categorie di pubblico è una sfida che dobbiamo oggi saper raccogliere.
Quello che si rende necessario da parte delle politiche di settore, alla luce di quanto nel dettaglio abbiamo esaminato, è inserire negli obiettivi di programmazione strategica interventi che possano andare anche a favore di enti ed imprese appartenenti al Core Creative Arts; sviluppare indicatori efficaci in grado di misurare l’apporto fornito dal settore culturale allo sviluppo di processi di innovazione, sia al suo interno che rispetto alle altre organizzazioni/enti pubblici/stakeholder; avviare adeguate azioni di mappatura delle industrie culturali e creative sul proprio territorio di riferimento; monitorare costantemente i risultati raggiunti sia in termini di obiettivi che di risultati, effettuando analisi di benchmarking rispetto ai principali competitors e implementando ulteriormente le analisi di impatto economico sulle iniziative di intrapresa culturale nei luoghi strategici oggetto di finanziamento.
Bibliografia
Tan P., Steinbach M. and Kumar V. (2006), Introduction to Data Mining, Pearson International.
Xu R. and Wunsch II C. (2009), Clustering, Wiley.
Weiss S. M., Indurkhya N. and Zhang T. (2010), Fundamentals of Predictive Text Mining, Springer.
Zipf G.K. (1935), The psychobiology of language. An introduction to dynamic philology, Houghton-Mifflin, Boston.
Yule G.U. (1944), A statistical study of vocabulary, Cambridge University Press, Cambridge.
Benzécri J.P. (1973), L’analyse des données (2 tomes), Dunod, Paris.
Bolasco S. (2005), Statistica testuale e text mining: alcuni paradigmi applicativi, in Quaderni di statistica, vol.7.
Muller C. (1973), Initiation aux méthodes de statistique lexicale, Hachette, Paris (ristampa 1992, Champion, Paris).
Lafon P. (1984), Dépouillements et statistique en lexicomètrie, Ed. Slatkine & Champion, Genève-Paris.
Zampolli A., Calzolari N. (1995), Problemi, metodi e prospettive nel trattamento del linguaggio naturale: l’evoluzione del concetto di risorse linguistiche, in R. Cipriani, S. Bolasco, Ricerca qualitativa e computer, FrancoAngeli, Milano, pp. 51-68.
De Mauro T. (1980), Guida all’uso delle parole, Editori Riuniti, Roma.
Throsby D. (2008), The concentric circles model of the cultural industries, in Cultural Trends, 26 Sept, pp. 147-164.
Liu B. (2012), Sentiment Analysis and Opinion mining, Morgan & Claypool Publishers, p. 7.
© Riproduzione riservata
Silvia Cacciatore, Research fellow presso il Dipartimento di Management dell’Università Ca’ Foscari di Venezia, si occupa di temi legati all’Economia e al Management della Cultura.
Immagine: elaborazione personale su dati Regione Veneto 2017
[1] L’indagine è stata condotta in collaborazione con la dott.ssa Juliana Bernhofer.