Il tuo test A/B ha mostrato +18%.
Probabilmente non significa niente.
Stagionalità, finestre temporali, numero di utenti, competitor in azione: le variabili che rendono quasi ogni test ambiguo — e come fare test che invece dicono qualcosa di utile.
Hai cambiato la headline della landing page. Le conversioni sono salite del 18% in due settimane. L’agenzia è entusiasta. Hai validato la variante. Probabilmente hai preso una decisione sbagliata. Non perché i dati mentano — ma perché nel periodo del test sono successe almeno tre cose che non hai misurato. E quel 18% potrebbe non avere niente a che fare con la tua headline.
Intuizione e dati: perché servono entrambi
Gli imprenditori bravi hanno un polso buono sulla loro azienda. Sanno da dove arrivano i clienti, quali prodotti funzionano, in quale periodo dell’anno le vendite crescono. Quella conoscenza è reale e preziosa — non va ignorata.
Il problema è che l’intuizione funziona bene per le tendenze grandi e lente. Riconosce pattern che si ripetono nel tempo. Ma non è attrezzata per rispondere a domande precise come: questa modifica specifica ha migliorato questo step del funnel del 12%?Per quello servono i dati segmentati — e servono bene raccolti.
Intuizione e dati non sono in competizione. L’intuizione ti dice dove guardare. I dati ti dicono cosa vedi quando guardi. Il problema nasce quando uno dei due sostituisce l’altro: decisioni solo di pancia, oppure A/B test interpretati senza contesto.
Perché segmentare ogni step cambia tutto
Il totale è il numero più facile da guardare e il meno utile per capire cosa succede. Un e-commerce con 10.000 sessioni mensili e 320 acquisti conosce il tasso di conversione globale: 3,2%. Ma non sa dove si perde il 96,8% degli utenti.
Segmentare ogni step del funnel — dalla sessione alla scheda prodotto, al carrello, al checkout, all’acquisto — mostra esattamente dove si rompe il percorso. E spesso rivela che il problema non è dove si pensava.
Stesso sito, stesse 10.000 sessioni. Senza segmentazione, il CR del 3,2% sembra un numero da ottimizzare genericamente. Con la segmentazione, il problema diventa preciso: il 58% degli utenti esce alla scheda prodotto. L’intervento da fare non è sulla headline, non è sul checkout — è sulle schede prodotto.
Senza dati segmentati, il rischio è ottimizzare il posto sbagliato. E farlo con un test A/B che misura conversioni totali — che includono il rumore di tutti gli step — invece di isolare lo step che conta.
Le variabili che nessuno conta
Supponiamo che tu abbia segmentato il funnel e identificato il problema. Decidi di testare una nuova scheda prodotto contro quella attuale. Due settimane dopo, la variante B ha il 22% di conversioni in più. Prima di dichiarare il vincitore, considera quante cose sono cambiate nel frattempo senza che tu le abbia registrate.
La cosa paradossale è che questo non significa che i test siano inutili. Significa che un test condotto senza controllare queste variabili non ha risposto alla domanda che pensi abbia risposto. Ha misurato qualcosa — ma non sai bene cosa.
Il caso più comune:un test che gira tra il 25 del mese e il 10 del mese successivo. Sette giorni con stipendi appena arrivati, sette giorni con wallet scarchi. Se le due varianti non vengono bilanciate temporalmente, stai misurando il ciclo degli stipendi — non la variante.
Significanza statistica: il concetto che manca
Quando uno strumento di A/B testing dice “95% di confidenza”, significa che c’è solo un 5% di probabilità che il risultato osservato sia dovuto al caso — supponendo che tutte le altre variabili siano costanti. Non è un voto di qualità del test. È un limite inferiore di affidabilità.
Il problema pratico: per raggiungere quel 95% con un effetto piccolo (es. +10% di conversioni), servono molti più utenti di quanti la maggior parte delle PMI italiane riceva in un mese intero.
La soglia del 95% è la convenzione accettata nel testing digitale. Sotto quella soglia, il risultato può essere reale — ma potresti stare misurando rumore. La maggior parte dei test dichiarati “vincitori” nelle PMI non la raggiunge mai: non ci sono abbastanza utenti.
| CR base | Miglioramento target | Utenti / variante | Totale utenti | PMI italiane |
|---|---|---|---|---|
| 1% | +50% (→ 1,5%) | ~6.500 | ~13.000 | Fattibile |
| 2% | +20% (→ 2,4%) | ~20.000 | ~40.000 | Difficile |
| 3% | +15% (→ 3,45%) | ~23.000 | ~46.000 | Mesi di dati |
| 5% | +10% (→ 5,5%) | ~30.000 | ~60.000 | Non realistico |
| 10% | +10% (→ 11%) | ~33.000 | ~66.000 | Non realistico |
Calcolato con 95% confidenza, 80% potenza statistica (standard ricerca). Metodo: Evan Miller — evanmiller.org
Un e-commerce italiano con 300 ordini al mese e un tasso di conversione del 2% ha circa 15.000 sessioni mensili. Per testare un miglioramento del 20% con significanza statistica, servono 40.000 utenti — quasi tre mesi di traffico, in condizioni perfettamente stabili. In tre mesi cambiano molte cose.
La soluzione non è smettere di testare. È testare cose più grandi — variazioni che producono effetti visibili anche con campioni piccoli — e calibrare le aspettative sui test di micro-ottimizzazione.
stipendi arrivano
lancia promo −20%
update
wallet scarchi
In questo scenario la settimana 2 ha probabilmente frenato entrambe le varianti a causa del competitor in promozione. La settimana 3 ha alterato la qualità del traffico paid. Le settimane 1 e 4 hanno distribuzioni d’acquisto molto diverse per il ciclo stipendi. La confidenza è al 78% — sotto la soglia accettabile. Hai dichiarato un vincitore su dati non puliti e non sufficienti.
Quando puoi fidarti di un test: i 4 sì
Prima di dichiarare un vincitore, fai questa verifica. Se una sola risposta è “no”, il risultato del test è indicativo al massimo — non è una decisione da implementare con certezza.
Se uno o più di questi è “no”: il risultato è un segnale da investigare, non una decisione da implementare. Documentalo, tienilo come ipotesi, pianifica un test più pulito.
Nella pratica quotidiana, soddisfare tutti e quattro i criteri è difficile per la maggior parte delle PMI. Non è un motivo per non fare test — è un motivo per avere aspettative calibrate e per non prendere decisioni irreversibili basate su un singolo test.
Il metodo minimo per testare bene
Detto tutto questo, i test A/B restano lo strumento più potente per migliorare in modo misurabile. L’alternativa — non testare e decidere solo per intuizione — è peggio. Ma c’è un metodo che rende i test più utili anche con volumi bassi.
Il paradosso del testing:più è difficile fare un test pulito, più è importante farlo. Il costo di una decisione sbagliata — implementata con sicurezza su dati non affidabili — è molto più alto del costo di un test condotto con metodo, anche se richiede più tempo.
Domande frequenti
Quanti utenti servono per un test A/B valido?
Quanto deve durare un test A/B?
Cos'è la significanza statistica e perché conta?
Posso fare A/B test con poco traffico?
Stagionalità e test A/B: come gestirle?
- [1]Evan Miller, How Not To Run an A/B Test (2010) e Sample Size Calculator: metodologia standard per il calcolo della dimensione campione con significanza statistica al 95%. evanmiller.org
- [2]Ronny Kohavi, Alex Deng et al., Online Controlled Experiments at Large Scale, KDD 2013: ricerca di Microsoft su variabili confondenti e dimensione campione nei test A/B in produzione.
- [3]CXL Institute, A/B Testing Guide: analisi degli errori più comuni nei test condotti da team di marketing senza background statistico. cxl.com