Analytics & KPI

Il tuo test A/B ha mostrato +18%.
Probabilmente non significa niente.

Stagionalità, finestre temporali, numero di utenti, competitor in azione: le variabili che rendono quasi ogni test ambiguo — e come fare test che invece dicono qualcosa di utile.

Nicola SerraoDigital Business Advisor9 min lettura17 Aprile 2026Analytics

Hai cambiato la headline della landing page. Le conversioni sono salite del 18% in due settimane. L’agenzia è entusiasta. Hai validato la variante. Probabilmente hai preso una decisione sbagliata. Non perché i dati mentano — ma perché nel periodo del test sono successe almeno tre cose che non hai misurato. E quel 18% potrebbe non avere niente a che fare con la tua headline.

Intuizione e dati: perché servono entrambi

Gli imprenditori bravi hanno un polso buono sulla loro azienda. Sanno da dove arrivano i clienti, quali prodotti funzionano, in quale periodo dell’anno le vendite crescono. Quella conoscenza è reale e preziosa — non va ignorata.

Il problema è che l’intuizione funziona bene per le tendenze grandi e lente. Riconosce pattern che si ripetono nel tempo. Ma non è attrezzata per rispondere a domande precise come: questa modifica specifica ha migliorato questo step del funnel del 12%?Per quello servono i dati segmentati — e servono bene raccolti.

Intuizione e dati non sono in competizione. L’intuizione ti dice dove guardare. I dati ti dicono cosa vedi quando guardi. Il problema nasce quando uno dei due sostituisce l’altro: decisioni solo di pancia, oppure A/B test interpretati senza contesto.

Perché segmentare ogni step cambia tutto

Il totale è il numero più facile da guardare e il meno utile per capire cosa succede. Un e-commerce con 10.000 sessioni mensili e 320 acquisti conosce il tasso di conversione globale: 3,2%. Ma non sa dove si perde il 96,8% degli utenti.

Segmentare ogni step del funnel — dalla sessione alla scheda prodotto, al carrello, al checkout, all’acquisto — mostra esattamente dove si rompe il percorso. E spesso rivela che il problema non è dove si pensava.

Stesso sito, stessi 10.000 utenti — due modi di leggerlo
Senza segmentazione
Sessioni totali
10.000
100%
??? (dati non disponibili)
Acquisti
320
3,2%
Cosa vediCR 3,2% — ok o no?
Con segmentazione per step
Sessioni
10.000
100%
→ Scheda prodotto
4.200
42%
↑ −58% drop — il problema è qui
→ Aggiunge al carrello
1.100
26%
→ Inizia checkout
680
62%
→ Acquisto
320
47%
Cosa vediLavora sulla scheda prodotto

Stesso sito, stesse 10.000 sessioni. Senza segmentazione, il CR del 3,2% sembra un numero da ottimizzare genericamente. Con la segmentazione, il problema diventa preciso: il 58% degli utenti esce alla scheda prodotto. L’intervento da fare non è sulla headline, non è sul checkout — è sulle schede prodotto.

Senza dati segmentati, il rischio è ottimizzare il posto sbagliato. E farlo con un test A/B che misura conversioni totali — che includono il rumore di tutti gli step — invece di isolare lo step che conta.

↗ Sul tema della gerarchia dei dati: ROAS non è un KPI

Le variabili che nessuno conta

Supponiamo che tu abbia segmentato il funnel e identificato il problema. Decidi di testare una nuova scheda prodotto contro quella attuale. Due settimane dopo, la variante B ha il 22% di conversioni in più. Prima di dichiarare il vincitore, considera quante cose sono cambiate nel frattempo senza che tu le abbia registrate.

Variabili confondenti in un test A/B tipico
📅
Stagionalità
Il comportamento d'acquisto cambia mese su mese. Un test tra marzo e aprile può riflettere la primavera, non la variante.
Impatto alto
💳
Ciclo stipendi
La settimana del 25–10 del mese sposta significativamente il comportamento d'acquisto su molte categorie.
Impatto alto
📢
Azioni competitor
Un competitor che lancia una promozione durante il test può spostare traffico qualificato — o toglierlo.
Impatto alto
👥
Dimensione campione
Con pochi utenti, differenze anche del 30% possono essere puro rumore statistico. Senza volume, nessun risultato è affidabile.
Impatto alto
⚙️
Algoritmo piattaforma
Meta e Google aggiornano gli algoritmi continuamente. Un cambio mid-test modifica la qualità del traffico indipendentemente dalla variante.
Impatto medio
🌡️
Meteo e periodo
Prodotti fisici, abbigliamento, outdoor: il meteo influenza domanda e engagement in modo misurabile.
Impatto medio
📱
Mix device / browser
Se la distribuzione mobile/desktop cambia durante il test (es. nuova campagna più mobile), cambia il comportamento d'acquisto.
Impatto medio
🏷️
Promozioni attive
Un codice sconto inviato via email durante il test aumenta le conversioni di entrambe le varianti — ma non in modo uniforme.
Impatto medio

La cosa paradossale è che questo non significa che i test siano inutili. Significa che un test condotto senza controllare queste variabili non ha risposto alla domanda che pensi abbia risposto. Ha misurato qualcosa — ma non sai bene cosa.

Il caso più comune:un test che gira tra il 25 del mese e il 10 del mese successivo. Sette giorni con stipendi appena arrivati, sette giorni con wallet scarchi. Se le due varianti non vengono bilanciate temporalmente, stai misurando il ciclo degli stipendi — non la variante.

Significanza statistica: il concetto che manca

Quando uno strumento di A/B testing dice “95% di confidenza”, significa che c’è solo un 5% di probabilità che il risultato osservato sia dovuto al caso — supponendo che tutte le altre variabili siano costanti. Non è un voto di qualità del test. È un limite inferiore di affidabilità.

Il problema pratico: per raggiungere quel 95% con un effetto piccolo (es. +10% di conversioni), servono molti più utenti di quanti la maggior parte delle PMI italiane riceva in un mese intero.

Livello di confidenza statistica — dove stai operando?
Rumore statistico
Incerto
0% — casuale70%90%95%+ — soglia

La soglia del 95% è la convenzione accettata nel testing digitale. Sotto quella soglia, il risultato può essere reale — ma potresti stare misurando rumore. La maggior parte dei test dichiarati “vincitori” nelle PMI non la raggiunge mai: non ci sono abbastanza utenti.

CR baseMiglioramento targetUtenti / varianteTotale utentiPMI italiane
1%+50% (→ 1,5%)~6.500~13.000Fattibile
2%+20% (→ 2,4%)~20.000~40.000Difficile
3%+15% (→ 3,45%)~23.000~46.000Mesi di dati
5%+10% (→ 5,5%)~30.000~60.000Non realistico
10%+10% (→ 11%)~33.000~66.000Non realistico

Calcolato con 95% confidenza, 80% potenza statistica (standard ricerca). Metodo: Evan Miller — evanmiller.org

Un e-commerce italiano con 300 ordini al mese e un tasso di conversione del 2% ha circa 15.000 sessioni mensili. Per testare un miglioramento del 20% con significanza statistica, servono 40.000 utenti — quasi tre mesi di traffico, in condizioni perfettamente stabili. In tre mesi cambiano molte cose.

La soluzione non è smettere di testare. È testare cose più grandi — variazioni che producono effetti visibili anche con campioni piccoli — e calibrare le aspettative sui test di micro-ottimizzazione.

Scenario test reale — 4 settimanecosa succede mentre il test gira
Sett. 1
Sett. 2
Sett. 3
Sett. 4
Esterni
💳 Inizio mese
stipendi arrivano
📢 Competitor
lancia promo −20%
⚙️ Meta algo
update
📅 Fine mese
wallet scarchi
Var. A
Originale — in esecuzione continua
Var. B
Nuova scheda prodotto — in test
Risultato dichiarato: Variante B +22% conversioni. Confidenza raggiunta: 78%.
Risultato non affidabile

In questo scenario la settimana 2 ha probabilmente frenato entrambe le varianti a causa del competitor in promozione. La settimana 3 ha alterato la qualità del traffico paid. Le settimane 1 e 4 hanno distribuzioni d’acquisto molto diverse per il ciclo stipendi. La confidenza è al 78% — sotto la soglia accettabile. Hai dichiarato un vincitore su dati non puliti e non sufficienti.

Strumento gratuito
Il tuo marketing sta misurando le cose giuste?
10 domande per capire se stai costruendo decisioni su dati solidi o su rumore. Ricevi un profilo della tua situazione attuale con i punti critici da correggere prima del prossimo test.
Fai l’Audit Score gratuito3 minuti · Gratuito · Nessun impegno

Quando puoi fidarti di un test: i 4 sì

Prima di dichiarare un vincitore, fai questa verifica. Se una sola risposta è “no”, il risultato del test è indicativo al massimo — non è una decisione da implementare con certezza.

Checklist validità test A/B
01
Campione statisticamente sufficiente
Hai raggiunto il numero di utenti per variante necessario per il tuo CR base e l'effetto minimo che vuoi rilevare? Vedi la tabella sopra per i numeri reali.
Verifica prima
02
Durata minima di 2 settimane complete
Il test è girato per almeno 14 giorni interi, includendo almeno due weekend completi? I weekend hanno pattern di acquisto diversi dai giorni feriali.
Verifica durata
03
Nessun evento esterno rilevante nel periodo
Nel periodo non ci sono stati: promozioni via email, campagne extra, update dell'algoritmo ad, azioni significative di competitor, festività o picchi stagionali.
Verifica contesto
04
Una sola variabile modificata per volta
Stai testando una sola cosa — headline, immagine, CTA, layout — non più variazioni contemporaneamente. Ogni variabile aggiuntiva rende impossibile attribuire il risultato.
Verifica isolamento

Se uno o più di questi è “no”: il risultato è un segnale da investigare, non una decisione da implementare. Documentalo, tienilo come ipotesi, pianifica un test più pulito.

Nella pratica quotidiana, soddisfare tutti e quattro i criteri è difficile per la maggior parte delle PMI. Non è un motivo per non fare test — è un motivo per avere aspettative calibrate e per non prendere decisioni irreversibili basate su un singolo test.

Il metodo minimo per testare bene

Detto tutto questo, i test A/B restano lo strumento più potente per migliorare in modo misurabile. L’alternativa — non testare e decidere solo per intuizione — è peggio. Ma c’è un metodo che rende i test più utili anche con volumi bassi.

1
Testa cose grandi prima di cose piccole
Con volumi bassi, testa variazioni che producono effetti del 30–50% o più. Una redesign completa della scheda prodotto, un cambio di offerta, un reframe totale del messaggio. Le micro-ottimizzazioni (colore del bottone, font) richiedono campioni enormi per produrre segnali puliti.
2
Segmenta prima, poi testa
Identifica lo step del funnel con il drop più alto — poi concentra il test su quel punto specifico. Testare la conversione totale è rumoroso. Testare lo step problematico è preciso. Risparmia mesi di raccolta dati.
3
Documenta tutto quello che cambia
Ogni test ha un log: data inizio, data fine, variante A, variante B, eventi esterni rilevati nel periodo, note contestuali. Senza questo, non puoi interpretare i risultati in contesto. Un foglio condiviso è sufficiente.
4
Usa i test come bussola, non come verdetto
Un risultato positivo non validato statisticamente è un segnale — non una prova. Dice "vai in questa direzione e approfondisci", non "implementa e scala". Accumula segnali coerenti su più test prima di fare scelte irreversibili di budget o struttura.

Il paradosso del testing:più è difficile fare un test pulito, più è importante farlo. Il costo di una decisione sbagliata — implementata con sicurezza su dati non affidabili — è molto più alto del costo di un test condotto con metodo, anche se richiede più tempo.

Domande frequenti

Quanti utenti servono per un test A/B valido?
Dipende dal tasso di conversione attuale e dall'effetto minimo che vuoi rilevare. Con un CR del 2% e un obiettivo di miglioramento del 20%, servono circa 20.000 utenti per variante — 40.000 in totale. La maggior parte delle PMI non raggiunge questi volumi in meno di 4-8 settimane.
Quanto deve durare un test A/B?
Almeno 2 settimane complete, inclusi due weekend. Questo elimina i bias da giorno della settimana. Se il volume di traffico è basso, considera 3-4 settimane. Evita di fermare un test appena vedi un risultato positivo: è quasi sempre rumore statistico.
Cos'è la significanza statistica e perché conta?
La significanza statistica (tipicamente al 95%) indica che c'è solo un 5% di probabilità che il risultato osservato sia dovuto al caso. Senza raggiungerla, non puoi distinguere un miglioramento reale dal rumore. La maggior parte degli strumenti di A/B test mostra il dato, ma pochi lo spiegano in modo comprensibile.
Posso fare A/B test con poco traffico?
Puoi fare test, ma devi abbassare le aspettative. Con poco traffico, rileva solo effetti grandi (>30-40% di miglioramento). Effetti piccoli richiedono campioni enormi. Concentra i test sulle pagine con più traffico — homepage e checkout ricevono più visite di qualsiasi altra pagina.
Stagionalità e test A/B: come gestirle?
La stagionalità invalida un test quando il comportamento degli utenti cambia significativamente durante il periodo. La soluzione: documenta sempre quando inizi e finisci un test, evita i periodi di picco (Black Friday, Natale, saldi) e fai girare i test su finestre di 7 giorni multipli.
In sintesi
Testa sempre. Ma sappi cosa stai misurando davvero.
I dati aggregati nascondono i problemi reali. Segmenta ogni step del funnel prima di decidere dove intervenire.
Le variabili confondenti — stagionalità, competitor, ciclo stipendi, aggiornamenti algoritmo — influenzano ogni test. Documentarle è l'unico modo per interpretarle.
La significanza statistica al 95% richiede campioni molto più grandi di quelli che la maggior parte delle PMI raccoglie in 2 settimane.
Testa variazioni grandi con poco traffico, micro-ottimizzazioni solo con volumi adeguati.
I 4 sì (campione, durata, nessun evento esterno, variabile isolata) sono la soglia minima per fidarsi di un risultato.
Un test con risultato non significativo non è un test fallito — dice che l'effetto è troppo piccolo per essere rilevato con quel volume. È informazione.
N
Nicola Serrao
Digital Business Advisor — Strategia, KPI, Direzione operativa
Lavoriamo insieme →
Tag:AnalyticsA/B TestDatiSignificanza statisticaFunnelKPIMisurazione
Fonti e riferimenti
  • [1]Evan Miller, How Not To Run an A/B Test (2010) e Sample Size Calculator: metodologia standard per il calcolo della dimensione campione con significanza statistica al 95%. evanmiller.org
  • [2]Ronny Kohavi, Alex Deng et al., Online Controlled Experiments at Large Scale, KDD 2013: ricerca di Microsoft su variabili confondenti e dimensione campione nei test A/B in produzione.
  • [3]CXL Institute, A/B Testing Guide: analisi degli errori più comuni nei test condotti da team di marketing senza background statistico. cxl.com