Nella pratica aziendale moderna si parla sempre di più di “data driven decision making”, ovvero decisioni guidate dai dati. Ma cosa sono esattamente le decisioni guidate dai dati e su quale fondamento scientifico si basano? Per approfondire questo argomento bisogna introdurre un’importante applicazione della statistica, nota come “statistica inferenziale”. Le “inferenze” in statistica sono quelle tecniche che si usano per stabilire il carattere e le proprietà di un campione statistico. 

Ad esempio una inferenza statistica si può usare per stabilire che con una elevata probabilità, i dati appartengono ad una distribuzione normale e sono distribuiti secondo una curva a campana o di Gauss, con una forma simmetrica rispetto al valore medio, oltre ad essere piuttosto concentrati attorno a questo valore. 

Quindi il processo inferenziale serve a stabilire la validità di un’ipotesi o come più spesso si fa in statistica la “non validità della ipotesi contraria” nota come ipotesi nulla.

Tornando all’esempio della statistica gaussiana, in quel caso l’ipotesi nulla (scritta per convenzione come H0) stabilisce che i dati non seguano la distribuzione normale. Il compito degli statistici è eventualmente rigettare questa ipotesi (e quindi confermare che i dati seguano la distribuzione normale).

Per questo motivo gli statistici hanno inventato una serie di test, uno di questi si chiama test di normalità. Quando viene applicato ai dati fornisce una risposta attraverso un numero speciale noto come p-value che coincide con il valore delle probabilità associato al complemento logico “dell’ipotesi nulla”. In pratica più è elevato il valore di p-value, più l’ipotesi nulla deve essere rigettata. 

Per convenzione storica ormai si afferma che se il p-value > 5% l’ipotesi nulla va rigettata. È chiaro che quando si rigetta l’ipotesi nulla con questo valore al 5% vuol dire che si sta accettando l’ipotesi che serve con il 95% di confidenza. 

In statistica e probabilità non si parla di “certezze” ma di eventi veri con un certo livello di confidenza, anzi di solito nelle ipotesi si mettono proprio quelli che si chiamano “intervalli di confidenza”. 

Per esempio: un sistema predittivo genera dei numeri come previsione delle future vendite, questi numeri fluttuano in un intervallo e per convenzione, oltre al valor medio di queste previsioni si aggiungono anche le bande di confidenza: una al 5% ed una al 95% dei possibili valori ordinati (noti come quantili) che assumono la variabile possibile vendite. Quindi le vendite saranno comprese al 95% di confidenza dentro le bande che vanno dal 5° quantile al 95°.

Ma quali sono le implicazioni pratiche di questo criterio? Un caso di business legato al marketing aiuterà a chiarire meglio i concetti.

È pratica comune nel marketing web ricorrere ad una tecnica nota come A/B testing per scegliere quale tra due versioni di un prodotto che si vuole lanciare su Internet ha potenzialmente maggiore successo, oppure quale tra due versioni di una pagina Internet è più adatta a catturare l’attenzione del pubblico.

Lo sperimentatore (in questo caso il web designer) crea due pagine una che mostra il prodotto A ed una che mostra il prodotto B, oppure pagina in versione A e pagina in versione B. I server web (vedi nota) possono essere istruiti da restituire per una stessa pagina due versione diverse normalmente in proporzione 50/50 (ma si possono anche variare le proporzioni). 

Per esempio vogliamo testare la pagina

mywebsite.com/best-product

Con due versioni 

mywebsite.com/best-product_a

mywebsite.com/best-product_b

Gli utenti vedranno nel 50% dei casi la pagina A o la pagina B chiamando l’indirizzo sopra. Allo stesso utente viene proposta però sempre la stessa pagina.

Raccogliamo diversi giorni di dati (visite alla pagina) ed in particolare due variabili:

  • La serie delle visite giornaliere/orario totali (quante persone vedono la pagina A/B durante ogni ora o ogni giorno)

 

  • Bounce rate o tempo speso sulla pagina (dopo quanto tempo abbandonano la pagina per andare ad un’altra pagina)

Quando abbiamo raccolto centinaia di click, visite e tempi di visione della pagina stessa, bisogna mostrare che la distribuzione delle medie dei dati della pagina A sono diverse dalla distribuzioni delle pagine B. 

Esistono dei test specifici per testare le medie delle distribuzioni ed in particolare il t-test che sfrutta una distribuzione nota come t di Student che serve proprio a verificare che due popolazioni sono diverse. In questo caso l’ipotesi nulla H0 determina che le popolazioni siano uguali e devono rigettare l’ipotesi al 95% di confidenza. Il test è veloce ed efficiente. 

Per esempio in Python la funzione di scipy ttest_ind restituisce immediatamente il valore di p che ci interessa:

stats.ttest_ind(pageA, pageB)

#Ttest_indResult(statistic=-1.6370984482905417, pvalue=0.1019251574705033)

Il valore di p è 0.1 e quindi superiore al 0.05 (5%) che rappresenta la soglia di accettazione. 

Le due pagine sono chiaramente diverse e quella che ha la media più elevata in entrambe le statistiche (numero visite e tempo medio per pagina) è chiaramente la migliore.

Il test di inferenza ci ha restituito la certezza al 95% che le due pagine hanno un comportamento diverso tra loro. 

Il test A/B può chiaramente essere esteso in molti modi, per esempio potrebbe diventare A/B/C oppure anche C/A|B che si legge: scegli tra evento C ed evento A a condizione che si sia prima verificato l’evento B. 

Un esempio chiarirà meglio questo ultimo caso: supponiamo che alla pagina A si arriva solo dopo aver cliccato sulla pagina B, mentre la pagina C è “a chiamata diretta”. Si potrebbe immaginare che le pagine a chiamata diretta siano sempre le migliori, in fondo ci si arriva con un solo click, ma se la pagina B fosse invece una pagina molto popolare (magari una pubblicità su web su siti molto frequentati?) non potrebbe essere che la visibilità della pagina B è molto elevata e porta traffico poi alla pagina A. 

Il test in questo caso deve prima di tutto catturare gli eventi A|B e quindi in maniera indipendente gli eventi C. Senza entrare in dettagli matematici il test A/B può essere adattato per funzionare in quel modo a livello web e le statistiche di indipendenza possono funzionare, opportunamente modificate, anche in questo caso.

In conclusione, in questo breve articolo abbiamo visto la potenza dei test al 95% di confidenza (o in alternativa con il valore p  > 0.05) per decidere se due fenomeni (due pagine web per esempio) sono realmente differenti. Dalla statistica inferenziale quindi arriva un prezioso metodo per il decision making e per il data driven business. 

 

(NOTA) https://dzone.com/articles/doing-ab-testing-apache-httpd