L’importanza della statistica e dell'analisi predittiva

 Evoluzione e prospettive di sviluppo dell’arte delle previsioni

Da quando esistono dati è sorto il desiderio, , spesso un autentico bisogno, di analizzarli e soprattutto prevederli: in questo articolo proviamo a enunciare i passi fondamentali che hanno caratterizzato lo sviluppo di questa disciplina.

Analisi predittiva e analisi prescrittiva

Inizialmente l'analisi dei dati poteva essere soltanto descrittiva e, per secoli, fu il solo tipo di statistica possibile. Essa sorse già nell'antichità con i censimenti dell'Impero Romano.  A noi, gente del ventunesimo secolo, la cosa potrà sembrare strana, ma si dovette attendere l'era moderna affinché degli studiosi si rendessero conto del fatto che i metodi statistici potevano applicarsi a dati di ogni sorta e non soltanto di carattere demografico, unica applicazione della quale si abbia notizia nell'evo antico. 

L'analisi predittiva dei dati iniziò realmente soltanto dopo la rivoluzione industriale, mentre era in auge il positivismo in filosofia.  Non sembra illegittimo scorgere in questa coincidenza temporale qualche cosa che vada oltre il puro caso. 

Il desiderio di prevedere l'avvenire per prendere decisioni è più antico ancora che ogni statistica: fatto sta che in tempi antichi indovini di ogni risma, astrologi e maghi rispondevano a questo desiderio, come testimoniano testi risalenti ad epoche remote.  Al contrario nell'occidente del diciannovesimo secolo, già munito di una buona esperienza di analisi statistica dei dati, si pensò che esaminare dei dati per  prevedere il futuro, fosse meglio che interrogare sfere di cristallo, voli di uccelli o quant'altro.

Nell'ultimo decennio o poco più si sta affermando, inoltre, la cosiddetta analisi prescrittiva, un concetto risalente molto indietro nel ventesimo secolo. Una volta sviluppata piuttosto bene la teoria matematica delle decisioni, venne spontanea l'idea di algoritmi, i quali avrebbero potute prendere le decisioni ottime, una volta analizzati i dati.  Per lo più si assumeva, e si fa tuttora, che dapprima l'analisi predittiva avrebbe prodotti tanti quadri del futuro (ciascuno con probabilità associata) e l'algoritmo avrebbe dovuto ottimizzare una funzione obiettivo, la quale avrebbe tenuto conto della propensione al rischio dei committenti.

 Fin a pochi anni or sono la disponibilità di dati era di gran lunga più bassa ed anche la potenza di calcolo utilizzabile era decisamente minore: pertanto circa quarant'anni or sono, era giusto affermare che, tramite un ragionamento, fosse possibile prendere decisioni di successo molto meglio che tramite algoritmi. 

Nonostante l'enorme abbondanza di dati e la velocità delle unità di elaborazione, ancor e sempre l'analisi prescrittiva urta contro l’ostacolo della specificazione matematica di funzioni obiettivo.  Le parti interessate alle decisioni incontrano grandi difficoltà a precisare i loro obiettivi e quantificare le avversioni al rischio ed in sistemi complessi può anche accadere che vi siano conflitti d'interessi: allora la scelta dei pesi da attribuire agli obiettivi differenti di parti diverse può divenire fonte di conflitti ulteriori in un processo che potrebbe avvitarsi su sé stesso.

Perciò, da una parte l'analisi prescrittiva è molto difficile ed anche più onerosa che altre (in termini di risorse umane e materiali) dall'altra vi è tuttora scarsa richiesta di analisi di questo tipo nel mondo.  Ciononostante, nel campo del trading, fare delle operazioni in automatico richiede questo genere di analisi dei dati.

L'analisi statistica predittiva serba ancor attualmente in tutti i campi una grande utilità, poiché, se mai a valle un decisore dovesse prendere delle decisioni, questi conserverà la massima libertà di decidere e l'opportunità di ricorrere ad informazioni qualitative di vario tipo.

I metodi di previsione

I metodi statistici per l'analisi predittiva dei dati in pratica si dividono in tre grandi famiglie. 

Il primo nel tempo tra i metodi di analisi predittiva dei dati è la cosiddetta “analisi classica delle serie storiche”, opera pionieristica di Pafnutsiy Tchebycheff (1821 - 1894).

Prima del suo lavoro soltanto questo si sapeva: per un insieme di dati stazionario la media è il migliore previsore del suo futuro.  Questo era nettamente insufficiente, sia perché in numerosissimi casi d'interesse concreto le serie di dati non corrispondono a situazioni stazionarie, sia perché a metà dell'Ottocento neppure la definizione matematica precisa di “stazionarietà statistica” era stata trovata.  Oggi si sa che i processi stocastici tali che la media dei dati passati sia il migliore previsore della realizzazione successiva, sono solamente quelli che corrispondono al ripetersi indefinitamente della medesima variabile casuale.

Il metodo s'impernia sulla divisione di un processo in  parte casuale (puro rumore) e parte deterministica, a sua volta è divisa in

  • Tendenza (o trend)
  • Ciclo
  • Stagionalità

La somma (oppure il prodotto) della componente aleatoria e delle tre citate componenti deterministiche si usa chiamare “formula di Tchebycheff”.

Questo metodo, sebbene sia stato concepito circa un secolo e mezzo fa, è ancora impiegato poiché esibisce tre punti molto forti a suo favore:

  1. Parla all'intuizione, le quattro componenti classiche sono “naturali” per la mente umana!
  2. Si riesce ad applicare con pochi mezzi informatici: del resto, quando fu ideato non c'erano che carta, penne o matite e cervelli umani
  3. Non formula alcuna ipotesi restrittiva di una qualche rilevanza: in altri termini è estremamente universale. 

Storicamente qualche anno più tardi nacque il secondo importantissimo metodo di analisi predittiva.  

Le regressioni statistiche di una variabile su delle altre avevano già un minimo di storia nelle scienze naturali: fu quindi logico tentare di riprodurne il successo in ambito previsionali. Illustriamo il principio base del metodo: se si vuole prevedere la variabile A, si cercano delle variabili B, C ecc... , ed una funzione F(B,C..) tale che le variazioni osservate nel passato di A vengano spiegate nella massima misura possibile dalle variazioni di B, C, ecc...  combinate tramite la funzione F

Evidentemente questo, tuttavia, non basta:  una volta assunto, ovviamente, che la relazione

A = F(B,C...)

continui a valere con buona approssimazione nel futuro prossimo, bisogna anche prevedere B, C ed altre variabile se necessario, ai tempi avvenire per i quali si cerca di prevedere A.

La bontà dei risultati previsionali quando si usa questo metodo dipende essenzialmente da due fattori:

  • Il grado di accostamento della regressione
  • La qualità delle previsioni delle variabili B, C ecc..., dette “indipendenti” oppur “esplicative”.

Una caratteristica che viene percepita come inconveniente  del metodo è la necessità di specificare F(B,C...) : infatti, si  teme (o suppone) che i pregiudizi teorici o ideologici dell'analista influenzino tale scelta.  In altre parole, la F(B,C..)  dipende da ipotesi, idealmente esplicitate, ma che, nei casi peggiori, rimangono perfino nascoste.  Le ipotesi, è noto, quasi sempre sono discutibili.

Negli anni 60 del XX° secolo fu inventato il metodo di Box e Jenkins per l'analisi predittiva, che da allora è conosciuto come “Analisi moderna delle serie storiche”. 

Tale metodo scaturisce dall'osservazione di questo fatto: tutti i processi autoregressivi e/o a media mobile (si usa l'acronimo inglese ARMA) sono identificati in maniera unica da una loro realizzazione come serie storica e sono i soli processi aleatorii che godono di questa proprietà. 

I due ricercatori britannici Box e Jenkins dimostrarono che questo è vero proprio a quel tempo. 

Questo metodo ha, quindi, dei vantaggi notevoli:

·       Scarsissima ambiguità.  La proprietà citata eliminerebbe ogni ambiguità se si disponesse d'infiniti dati (cosa cui ci si approssima molto bene nel nostro tempo di Big Data) ma già con una quantità non troppo grande di dati l'ambiguità è abbastanza moderata

·       Considerevoli performance predittive, almeno per quanto gli studiosi di statistica hanno constatato empiricamente negli anni

·       Libertà da ipotesi di ogni tipo, sia economiche, sia sociologiche, ideologiche e via dicendo, che siano esplicite o siano nascoste.

Purtroppo vi sono anche degli svantaggi:

o   Se si vogliono stime ottimali dei parametri (e, quindi, del futuro) è necessario ricorrere al metodo della massima verosimiglianza, più oneroso e complesso da tutti i punti di vista

o   Non è escluso che il vero processo che genera i dati osservati non sia ARMA e "fittando" i dati con un processo ARMA la previsione non potrà comunque essere ottimale;  nella stragrande maggioranza dei non molti casi nei quali questo avviene, la differenza nel cortissimo periodo suol essere molto piccola.

Inoltre i risultati del metodo sono poco chiari per l'intuizione umana, ma questo, chiaramente, ha minor importanza.

Conclusioni

Le tecniche di analisi predittiva sono quindi tutte di fondamentale importanza e ancora oggi di diffuso utilizzo: le tecniche più “obsolete” non vengo  accantonate, ma sono altresì spesso utilizzate nei contesti appropriati per la loro facilità interpretativa e per il minor sforzo informatico. Ciononostante, con l’avvento dei Big Data e strumenti di Machine Learning, è stato possibile sfruttare modelli di grande complessità per previsioni sempre più accurate.

La sfida più interessante sarà quindi capire in che campi, da chi (grandi e piccole imprese) e come sfruttare tali potenzialità, per una concreta utilità e non solo per previsioni fini a se stesse.

 

Ti è piaciuto? Condividilo
Valerio
Lezioni private - Statistica e Aiuto compiti
Usa il nostro Strumento di Ricerca Intelligente
© 2007 - 2024 Letuelezioni.it è un membro della famiglia GoStudent Mappa del sito: Insegnanti privati