Executive summary
Quando un'impresa opera in contesti in cui i clienti possono acquistare liberamente senza vincoli di abbonamento, capire quali di essi siano ancora attivi e quanto valore genereranno in futuro diventa un problema concreto che influenza le decisioni di investimento e la pianificazione finanziaria. Questo articolo analizza in profondità i modelli matematici che stimano la probabilità che un cliente sia ancora attivo e il ricavo atteso dalle sue transazioni future, partendo dalle tecniche di classificazione basate sulla storia d'acquisto fino ai metodi più recenti fondati su strumenti statistici che tengono conto della variabilità tra clienti. L'analisi mostra che i modelli in cui ogni cliente è descritto da caratteristiche individuali non direttamente osservabili, come la sua propensione all'acquisto e all'abbandono, producono stime significativamente più accurate rispetto alle regole empiriche tradizionali, soprattutto quando i dati disponibili sono limitati o è necessario misurare il grado di affidabilità delle previsioni. Emerge inoltre che i progressi recenti nei metodi di stima stratificati consentono di incorporare informazioni contestuali e variazioni stagionali, aprendo possibilità applicative prima inaccessibili.
Background
L'analisi della base clienti in contesti non contrattuali, dove il momento di abbandono non è osservabile e il cliente può semplicemente cessare di acquistare senza notifica, rappresenta uno dei problemi più complessi nel marketing quantitativo. A differenza dei modelli contrattuali (abbonamenti, licenze), dove il churn è un evento discreto e osservato, nei contesti non contrattuali la sfida fondamentale consiste nel distinguere un cliente che ha abbandonato da uno temporaneamente inattivo, disponendo unicamente dello storico transazionale. Come formalizzato da Schmittlein, Morrison e Colombo nel lavoro seminale del 1987 [1], il problema richiede di inferire simultaneamente due processi latenti: la frequenza d'acquisto di ciascun cliente e il momento, non osservato, in cui il cliente diventa permanentemente inattivo.
L'approccio più elementare all'analisi della base clienti è la segmentazione RFM (Recency, Frequency, Monetary value), introdotta nella pratica del direct marketing negli anni Novanta [2]. Il framework RFM classifica i clienti sulla base di tre variabili osservabili: la recency (tempo trascorso dall'ultimo acquisto), la frequency (numero di transazioni in un periodo) e il monetary value (valore medio delle transazioni). Nella sua forma originale, ciascuna dimensione viene discretizzata in quintili e i clienti ricevono un punteggio composito che ne determina la priorità per le azioni di marketing. La semplicità operativa dell'RFM ne ha garantito un'adozione vastissima, ma l'approccio presenta limiti strutturali: la discretizzazione in quintili distrugge informazione, l'assenza di un modello generativo impedisce la proiezione nel futuro, e la mancanza di un framework probabilistico rende impossibile quantificare l'incertezza delle previsioni [3].
Il superamento di questi limiti ha motivato lo sviluppo dei modelli stocastici per la customer-base analysis, un programma di ricerca che ha prodotto una famiglia di modelli noti collettivamente come BTYD (Buy Till You Die). Questi modelli condividono un'architettura concettuale comune: ciascun cliente è descritto da parametri latenti individuali che governano il processo d'acquisto e il processo di abbandono, e l'eterogeneità tra clienti è catturata da distribuzioni a priori sui parametri latenti. L'inferenza consiste nell'aggiornare queste distribuzioni condizionandole allo storico transazionale osservato, ottenendo così stime individualizzate della probabilità di essere attivo (P(alive)) e del numero atteso di transazioni future [3, 4].
La combinazione di un modello di frequenza (quante transazioni attendersi) con un modello di valore monetario (quanto vale ciascuna transazione) consente di calcolare il Customer Lifetime Value (CLV), definito come il valore attuale netto dei flussi di cassa futuri generati da un cliente lungo l'intera durata della relazione. Come formalizzato da Gupta e Lehmann [5], il CLV costituisce il fondamento quantitativo per trattare i clienti come asset finanziari, collegando le metriche di marketing alla valutazione d'impresa. La stima accurata del CLV è dunque il traguardo operativo a cui convergono i modelli probabilistici esaminati in questo articolo.
Il modello Pareto/NBD: fondamenti e formulazione
Struttura generativa
Il modello Pareto/NBD, proposto da Schmittlein, Morrison e Colombo [1], è il primo modello stocastico completo per l'analisi della base clienti in contesti non contrattuali continui. L'architettura del modello poggia su un insieme di assunzioni che definiscono il processo generativo dei dati transazionali.
Per il processo d'acquisto, si assume che ogni cliente, finché è attivo, effettui transazioni secondo un processo di Poisson con tasso individuale $\lambda_i$. Questa assunzione implica che i tempi inter-transazione sono distribuiti esponenzialmente con parametro $\lambda_i$, e che il numero di transazioni in un intervallo di lunghezza $t$ segue una distribuzione di Poisson con media $\lambda_i t$. Per il processo di abbandono, si assume che ciascun cliente abbia un "tempo di vita" distribuito esponenzialmente con tasso individuale $\mu_i$: il cliente rimane attivo per un periodo $\tau_i \sim \text{Exp}(\mu_i)$, dopodiché cessa permanentemente di acquistare. Il nome "Pareto" deriva dal fatto che la distribuzione marginale del tempo di vita, una volta integrata l'eterogeneità in $\mu$, è una distribuzione di Pareto di tipo II [1].
L'eterogeneità tra clienti è modellata assumendo che i tassi individuali seguano distribuzioni gamma indipendenti:
$$\lambda_i \sim \text{Gamma}(r, \alpha), \quad \mu_i \sim \text{Gamma}(s, \beta)$$
dove $r, \alpha$ governano la distribuzione del tasso d'acquisto e $s, \beta$ governano la distribuzione del tasso di abbandono nella popolazione. Questa scelta è motivata dalla coniugazione tra la distribuzione gamma e il processo di Poisson: marginalizzando $\lambda_i$, il numero di transazioni segue una distribuzione binomiale negativa (NBD), da cui il nome del modello [1, 3].
Inferenza e sfide computazionali
Dato lo storico transazionale di un cliente, sintetizzato dalla terna $(x, t_x, T)$, dove $x$ è il numero di transazioni osservate, $t_x$ il tempo dell'ultima transazione e $T$ il tempo totale di osservazione, il modello consente di derivare la probabilità che il cliente sia ancora attivo:
$$P(\text{alive} \mid x, t_x, T, r, \alpha, s, \beta)$$
e il numero atteso di transazioni future in un orizzonte temporale $[T, T+t]$:
$$E[X(t) \mid x, t_x, T, r, \alpha, s, \beta]$$
La derivazione analitica di queste quantità richiede il calcolo di integrali che coinvolgono la funzione ipergeometrica di Gauss $_2F_1$, una complessità computazionale che ha rappresentato per lungo tempo il principale ostacolo all'adozione del modello [4]. Schmittlein e Peterson riconobbero questa difficoltà già nel 1994, e la stima dei parametri tramite massima verosimiglianza richiede l'ottimizzazione numerica di una funzione di likelihood con superfici multimodali e regioni piatte, rendendo la convergenza sensibile alle condizioni iniziali [6].
Nonostante queste difficoltà, il Pareto/NBD rimane il benchmark teorico della famiglia BTYD. La sua struttura generativa cattura in modo elegante l'interazione tra eterogeneità nei tassi d'acquisto e eterogeneità nei tassi di abbandono, e le proprietà asintotiche del modello sono state estensivamente studiate. Fader e Hardie [3] hanno dimostrato che il Pareto/NBD non è un modello "lost-for-good" in senso stretto, un cliente con alta probabilità di abbandono può tornare ad acquistare se il modello è mal specificato, evidenziando l'importanza di comprendere le assunzioni implicite nella struttura stocastica.
Il modello BG/NBD: semplificazione e praticità
Motivazione e differenze strutturali
Il modello Beta-Geometric/NBD (BG/NBD), introdotto da Fader, Hardie e Lee nel 2005 [4], nasce come alternativa computazionalmente trattabile al Pareto/NBD. La differenza fondamentale risiede nella modellazione del processo di abbandono: mentre il Pareto/NBD assume che l'abbandono possa avvenire in qualsiasi istante (tempo continuo), il BG/NBD assume che l'abbandono possa avvenire solo immediatamente dopo una transazione (tempo discreto legato agli eventi). Questa modifica apparentemente marginale nella "behavioral story" ha conseguenze computazionali radicali [4].
Nel BG/NBD, dopo ogni transazione il cliente "lancia una moneta" con probabilità individuale $p_i$ di abbandonare. Il processo d'acquisto resta un Poisson con tasso $\lambda_i$, come nel Pareto/NBD. L'eterogeneità è modellata con distribuzioni coniugate:
$$\lambda_i \sim \text{Gamma}(r, \alpha), \quad p_i \sim \text{Beta}(a, b)$$
La distribuzione Beta per la probabilità di abbandono, combinata con la distribuzione geometrica del numero di transazioni prima dell'abbandono, produce la componente "beta-geometrica" del modello. Il modello ha quindi quattro parametri a livello di popolazione: $r, \alpha, a, b$ [4].
Vantaggi computazionali
La likelihood del BG/NBD ammette un'espressione in forma chiusa che coinvolge solo la funzione beta e operazioni aritmetiche elementari, eliminando la necessità della funzione ipergeometrica di Gauss richiesta dal Pareto/NBD. Fader, Hardie e Lee [4] hanno dimostrato che i parametri possono essere stimati con un foglio di calcolo, un risultato che ha reso il modello immediatamente accessibile ai professionisti del marketing senza competenze di programmazione numerica avanzata.
Il confronto empirico tra Pareto/NBD e BG/NBD su diversi dataset reali mostra che i due modelli producono previsioni sostanzialmente equivalenti. Su dati di transazioni musicali (CDNOW), le differenze nelle previsioni aggregate e individuali sono trascurabili, con entrambi i modelli che catturano efficacemente il pattern di decadimento nelle transazioni ripetute [4]. Questa equivalenza pratica, combinata con la drastica riduzione della complessità computazionale, ha reso il BG/NBD il modello predominante nelle implementazioni operative.
Limiti e assunzioni critiche
L'assunzione che l'abbandono avvenga solo dopo una transazione implica che un cliente non può abbandonare durante un periodo di inattività, una limitazione concettuale rilevante in contesti dove l'abbandono è tipicamente preceduto da un graduale diradamento degli acquisti. Inoltre, sia il BG/NBD sia il Pareto/NBD assumono che il tasso d'acquisto individuale $\lambda_i$ sia costante nel tempo, escludendo fenomeni di stagionalità, trend e cambiamenti nel comportamento d'acquisto. L'assunzione di indipendenza tra $\lambda_i$ e $p_i$ (o $\mu_i$ nel Pareto/NBD) implica che la propensione all'acquisto e la propensione all'abbandono non sono correlate, un'ipotesi che potrebbe non reggere empiricamente, dato che clienti con alta frequenza d'acquisto potrebbero sistematicamente differire nella loro probabilità di abbandono [7].
Il modello Gamma-Gamma e la stima del valore monetario
Dalla frequenza al valore
I modelli BG/NBD e Pareto/NBD stimano il numero atteso di transazioni future, ma per calcolare il CLV è necessario stimare anche il valore monetario di ciascuna transazione. Il modello Gamma-Gamma, formalizzato da Fader e Hardie [8], completa il framework BTYD fornendo un modello stocastico per il valore medio delle transazioni di ciascun cliente.
Il modello assume che il valore di ciascuna transazione del cliente $i$ sia distribuito secondo una gamma con parametro di forma $p$ (comune a tutti i clienti) e tasso $\nu_i$ individuale:
$$z_{ij} \sim \text{Gamma}(p, \nu_i)$$
dove $z_{ij}$ è il valore della $j$-esima transazione del cliente $i$. Il valore atteso per transazione del cliente $i$ è $E[Z_i] = p / \nu_i$. L'eterogeneità nei valori medi è catturata da una distribuzione gamma su $\nu_i$:
$$\nu_i \sim \text{Gamma}(q, \gamma)$$
da cui il nome "gamma-gamma": sia le transazioni individuali sia l'eterogeneità tra clienti seguono distribuzioni gamma. I parametri del modello sono $p, q, \gamma$, stimati per massima verosimiglianza [8].
Calcolo del CLV
Un'assunzione cruciale del modello Gamma-Gamma è l'indipendenza tra il processo di frequenza e il processo monetario: il valore medio delle transazioni di un cliente non deve essere correlato con la sua frequenza d'acquisto. Questa assunzione può essere verificata empiricamente calcolando la correlazione tra frequency e monetary value nel dataset [8]. Quando l'assunzione regge, il CLV di ciascun cliente si ottiene come prodotto del numero atteso di transazioni future (dal modello BG/NBD o Pareto/NBD), del valore atteso per transazione (dal modello Gamma-Gamma) e di un fattore di sconto che riflette il costo del capitale:
$$\text{CLV}i = \sum$$}^{H} \frac{E[X_i(t)] \cdot E[M_i]}{(1 + d)^t
dove $E[X_i(t)]$ è il numero atteso di transazioni nel periodo $t$, $E[M_i]$ è il valore atteso per transazione del cliente $i$, $d$ è il tasso di sconto e $H$ è l'orizzonte di proiezione [5, 8]. Fader, Hardie e Lee [9] hanno dimostrato come le curve iso-valore nello spazio RFM, luogo dei punti con CLV costante, connettano il framework RFM classico alla stima probabilistica del CLV, fornendo un'interpretazione geometrica della segmentazione basata sul valore.
Modelli beta-geometrici per la retention in contesti contrattuali
Il modello BG per la proiezione della retention
Parallelamente ai modelli per contesti non contrattuali, Fader e Hardie [10] hanno sviluppato il modello beta-geometrico (BG) per la proiezione dei tassi di retention in contesti contrattuali discreti. In questi scenari, ad ogni periodo di rinnovo il cliente decide se continuare o abbandonare, e il tasso di retention a livello di coorte tipicamente aumenta nel tempo, un fenomeno apparentemente paradossale che il modello BG spiega attraverso l'eterogeneità cross-sezionale.
Nel modello BG, ciascun cliente ha una probabilità individuale di abbandono $\theta_i$ costante nel tempo, distribuita secondo una Beta nella popolazione:
$$\theta_i \sim \text{Beta}(a, b)$$
Il tasso di retention della coorte al periodo $t$, $S(t)$, è la probabilità che un cliente estratto a caso dalla popolazione sia ancora attivo al periodo $t$:
$$S(t) = \frac{B(a, b+t)}{B(a, b)}$$
dove $B(\cdot, \cdot)$ è la funzione beta. L'aumento del tasso di retention osservato a livello di coorte emerge naturalmente come effetto di selezione: i clienti con alta probabilità di abbandono lasciano per primi, e la coorte residua è progressivamente composta da clienti più "fedeli" [10]. Questo risultato illustra un principio generale dell'analisi della base clienti: l'eterogeneità individuale genera pattern a livello aggregato che possono essere fuorvianti se interpretati senza un modello esplicito della composizione della popolazione.
L'estensione BdW: dipendenza dalla durata
Il modello BG assume che la probabilità di abbandono individuale $\theta_i$ sia costante nel tempo. Fader, Hardie e Berger [11] hanno allentato questa assunzione introducendo il modello beta-discrete-Weibull (BdW), in cui la probabilità di abbandono individuale può aumentare o diminuire con la durata della relazione. Il modello BdW generalizza il BG sostituendo la distribuzione geometrica del tempo di vita con una distribuzione discrete-Weibull, che introduce un parametro di forma $c$ che governa la dipendenza dalla durata: $c > 1$ indica che la probabilità di abbandono aumenta con il tempo (positive duration dependence), $c < 1$ indica il contrario, e $c = 1$ recupera il modello BG standard.
L'estensione BdW è particolarmente rilevante per contesti in cui la relazione tra cliente e impresa evolve nel tempo: i costi di switching possono diminuire con l'emergere di alternative competitive, o aumentare con l'accumulo di dati e personalizzazione. I risultati empirici di Fader, Hardie e Berger [11] mostrano che la dipendenza dalla durata è statisticamente significativa in diversi dataset reali, e che ignorarla produce errori sistematici nella proiezione della retention a medio-lungo termine.
L'approccio bayesiano alla customer-base analysis
Limiti dell'inferenza frequentista nei modelli BTYD
Le formulazioni classiche dei modelli Pareto/NBD e BG/NBD utilizzano la massima verosimiglianza (MLE) per la stima dei parametri di popolazione $(r, \alpha, s, \beta)$ o $(r, \alpha, a, b)$. Le stime individuali di $P(\text{alive})$ e del numero atteso di transazioni future sono poi ottenute come aspettative condizionali rispetto ai parametri stimati. Questo approccio presenta tre limiti significativi. In primo luogo, la MLE fornisce stime puntuali dei parametri senza quantificazione dell'incertezza parametrica, il che sottostima sistematicamente l'incertezza nelle previsioni a livello individuale. In secondo luogo, l'assunzione di indipendenza tra tasso d'acquisto e tasso di abbandono è strutturale nei modelli classici e non può essere allentata nel framework MLE senza riscrivere la likelihood. In terzo luogo, l'incorporazione di covariate individuali (demografiche, comportamentali) richiede estensioni ad hoc che complicano ulteriormente il calcolo della likelihood [7, 12].
Il framework bayesiano gerarchico di Abe
Abe [7] ha proposto un'estensione bayesiana gerarchica del modello Pareto/NBD che supera i tre limiti sopra menzionati. Nel modello di Abe, i parametri individuali $(\lambda_i, \mu_i)$ sono modellati congiuntamente attraverso una distribuzione lognormale bivariata:
$$\left(\log \lambda_i, \log \mu_i\right) \sim \mathcal{N}_2\left(z_i'\Delta, \Sigma\right)$$
dove $z_i$ è un vettore di covariate individuali, $\Delta$ è la matrice dei coefficienti di regressione e $\Sigma$ è la matrice di covarianza che cattura la correlazione tra tasso d'acquisto e tasso di abbandono. Questa formulazione consente tre avanzamenti rispetto al modello classico: (1) la correlazione tra $\lambda_i$ e $\mu_i$ è stimata dai dati anziché fissata a zero; (2) le covariate individuali $z_i$ influenzano simultaneamente entrambi i processi latenti; (3) l'inferenza tramite MCMC (Markov Chain Monte Carlo) produce distribuzioni a posteriori complete per tutti i parametri, consentendo la quantificazione dell'incertezza a tutti i livelli del modello [7].
L'approccio di Abe produce come sotto-prodotto dell'inferenza MCMC il tasso di sopravvivenza individuale e la stima del tempo di vita residuo per ciascun cliente, informazioni direttamente utilizzabili per la personalizzazione delle azioni di CRM. Lo studio dimostra che le covariate demografiche e comportamentali migliorano significativamente la capacità predittiva del modello, e che i clienti con lunga durata di vita tendono a spendere di più, una correlazione che il modello classico con indipendenza tra $\lambda$ e $\mu$ non è in grado di catturare.
L'inferenza bayesiana moderna con PyMC-Marketing
Il framework PyMC-Marketing [13] rappresenta lo stato dell'arte nelle implementazioni bayesiane dei modelli BTYD. Sviluppato da PyMC Labs, il package implementa i modelli BG/NBD e Pareto/NBD in un framework bayesiano completo basato su PyMC, consentendo l'inferenza tramite MCMC (NUTS sampler) e l'integrazione con l'ecosistema probabilistico di Python. Rispetto alle implementazioni frequentiste, PyMC-Marketing offre tre vantaggi strutturali: la quantificazione completa dell'incertezza attraverso distribuzioni a posteriori, la possibilità di specificare prior informativi che incorporano conoscenza di dominio, e la stima tramite MAP (Maximum a Posteriori) con regolarizzazione che migliora significativamente le previsioni out-of-sample rispetto alla MLE [13, 14].
Un avanzamento particolarmente rilevante è l'implementazione di modelli gerarchici bayesiani per il CLV a livello di coorte, che accoppia componenti di retention e ricavo per produrre previsioni flessibili e interpretabili [14]. Questo approccio gerarchico consente di catturare la stagionalità nei pattern d'acquisto e le differenze sistematiche tra coorti di clienti, superando l'assunzione di stazionarietà che limita i modelli BTYD classici. La regolarizzazione bayesiana si rivela particolarmente vantaggiosa quando i dati sono scarsi, ad esempio per coorti recenti con poche transazioni osservate, dove le stime MLE tendono a divergere verso valori non plausibili.
Estensioni e modelli avanzati
Regolarità temporale: il modello Pareto/GGG
I modelli Pareto/NBD e BG/NBD assumono che i tempi inter-transazione seguano una distribuzione esponenziale, il che implica che gli acquisti sono completamente irregolari (processo di Poisson). Platzer e Reutterer [15] hanno dimostrato che questa assunzione è violata in molti contesti reali, dove i clienti esibiscono gradi variabili di regolarità negli acquisti. Il modello Pareto/GGG generalizza il Pareto/NBD sostituendo il processo di Poisson con un processo di rinnovo basato sulla distribuzione gamma, introducendo un parametro di regolarità individuale: valori del parametro di forma della gamma superiori a 1 indicano acquisti più regolari rispetto al processo di Poisson, mentre valori inferiori a 1 indicano acquisti più irregolari.
I risultati empirici mostrano che incorporare la regolarità temporale migliora la capacità predittiva del modello, in particolare nella stima di P(alive): pattern di acquisto altamente regolari rendono più informativo un periodo di inattività prolungato, poiché la deviazione dalla regolarità attesa fornisce un segnale più forte di potenziale abbandono [15]. L'implementazione del Pareto/GGG è disponibile nel package R CLVTools [16], che fornisce un framework unificato per la stima di modelli BTYD con supporto per covariate time-invariant e time-varying.
Covariate temporali e contesto
L'incorporazione di covariate time-varying nei modelli BTYD rappresenta una direzione di ricerca attiva. Fader e Hardie [17] hanno formalizzato l'inclusione di covariate time-invariant nei modelli Pareto/NBD e BG/NBD, dimostrando come variabili demografiche e di canale possano essere integrate nel modello attraverso la parametrizzazione dei tassi individuali. Le covariate time-varying, promozioni, stagionalità, azioni di marketing, richiedono una formulazione più complessa, in cui i parametri del processo d'acquisto evolvono nel tempo. Lavori recenti hanno affrontato questa sfida nel framework bayesiano, dove la flessibilità dei modelli gerarchici consente di specificare componenti temporali come effetti random o regressori dipendenti dal tempo [14, 16].
Il package CLVTools [16] implementa sia covariate time-invariant sia time-varying per i modelli Pareto/NBD e BG/NBD, con vincoli di regolarizzazione e uguaglianza sui parametri che migliorano la stabilità numerica della stima. Bachmann et al. [16] hanno documentato l'architettura del package in un articolo recente, illustrando come la modularità del framework consenta di combinare diversi modelli di frequenza e valore monetario con diverse specificazioni di covariate.
Implementazioni e strumenti software
L'ecosistema Python: lifetimes e PyMC-Marketing
La libreria lifetimes [18], sviluppata da Cameron Davidson-Pilon, è stata per lungo tempo l'implementazione di riferimento in Python per i modelli BTYD. La libreria implementa il BG/NBD, il Modified BG/NBD e il Gamma-Gamma con stima MLE, fornendo un'interfaccia ad alto livello per il calcolo di P(alive), il numero atteso di transazioni future e il CLV. L'API è progettata attorno al formato dei dati RFM (recency, frequency, T), consentendo il passaggio diretto da un dataset transazionale alle previsioni individuali con poche righe di codice. Tuttavia, la libreria non è più attivamente mantenuta e non supporta l'inferenza bayesiana né l'incorporazione di covariate [18].
PyMC-Marketing [13] ha raccolto l'eredità di lifetimes nel framework bayesiano, implementando i modelli BG/NBD, Pareto/NBD, Modified BG/NBD e Shifted-BG con inferenza MCMC completa. Il vantaggio principale risiede nella quantificazione dell'incertezza: ogni previsione è accompagnata da intervalli di credibilità che riflettono l'incertezza nei parametri e nella struttura del modello. PyMC-Marketing supporta inoltre la stima MAP con regolarizzazione, che si posiziona come compromesso tra la semplicità della MLE e la completezza dell'inferenza MCMC [13].
L'ecosistema R: CLVTools e BTYD
L'ecosistema R offre due implementazioni principali. Il package BTYD (Buy Till You Die), sviluppato da Platzer, fornisce implementazioni MLE del Pareto/NBD, BG/NBD e BG/BB (per contesti contrattuali discreti). CLVTools [16] rappresenta l'evoluzione più recente, con un'architettura orientata agli oggetti che unifica l'accesso ai modelli Pareto/NBD e BG/NBD con supporto per covariate time-invariant e time-varying, regolarizzazione dei parametri e il modello Gamma-Gamma per il valore monetario. CLVTools gestisce internamente le trasformazioni dei dati e le validazioni, riducendo significativamente il rischio di errori nella preparazione dei dati di input.
Confronto critico degli approcci di stima
La scelta tra stima MLE, MAP e MCMC completa ha implicazioni pratiche rilevanti. La MLE è computazionalmente efficiente e sufficiente quando il dataset è ampio e le distribuzioni a posteriori sono approssimativamente simmetriche. La MAP con regolarizzazione bayesiana migliora la robustezza su dataset di dimensioni moderate, prevenendo la convergenza verso stime estreme dei parametri. L'inferenza MCMC completa è necessaria quando l'incertezza nelle previsioni è un requisito, ad esempio per decisioni di investimento che richiedono intervalli di confidenza, o quando la struttura gerarchica del modello è complessa. Il costo computazionale cresce nell'ordine MLE < MAP < MCMC, ma la scalabilità dell'inferenza approssimata (variational inference) e dei sampler moderni come NUTS rende l'MCMC praticabile su dataset con decine di migliaia di clienti [13, 14].
Limiti, problemi aperti e direzioni future
Assunzioni strutturali e violazioni empiriche
I modelli BTYD, nonostante il loro successo empirico, poggiano su assunzioni che vengono sistematicamente violate in contesti reali. L'assunzione di stazionarietà del tasso d'acquisto individuale ignora trend, stagionalità e cambiamenti nel comportamento del cliente. L'assunzione di abbandono permanente (una volta inattivo, il cliente non ritorna) è violata nei mercati dove la riattivazione spontanea è comune. L'assunzione di indipendenza tra frequenza e valore monetario, necessaria per il modello Gamma-Gamma, è empiricamente discutibile in settori dove i clienti frequenti ottengono sconti o dove la dimensione dell'ordine è inversamente correlata alla frequenza [8].
Platzer e Reutterer [15] hanno affrontato l'assunzione di irregolarità degli acquisti, dimostrando che l'incorporazione della regolarità temporale migliora le previsioni. Fader, Hardie e Berger [11] hanno allentato l'assunzione di stazionarietà della probabilità di abbandono nei contesti contrattuali. Tuttavia, un framework unificato che allenti simultaneamente le assunzioni di stazionarietà, indipendenza e abbandono permanente nei contesti non contrattuali continui rimane un problema aperto.
Scalabilità e contesti multi-canale
L'applicazione dei modelli BTYD in contesti omnicanale, dove un singolo cliente interagisce attraverso e-commerce, punto vendita fisico, app mobile, solleva il problema della definizione stessa di "transazione" e dell'aggregazione dei touchpoint. I modelli classici, nella formulazione originale di Schmittlein, Morrison e Colombo [1], assumono un singolo canale di acquisto con transazioni omogenee, e l'estensione a contesti multi-canale richiede o un'aggregazione pre-modello (che perde informazione sul canale) o una struttura multi-livello che modella esplicitamente il processo di scelta del canale. L'approccio gerarchico proposto da Abe [7] offre un punto di partenza naturale per questa estensione, poiché le covariate individuali $z_i$ possono codificare il canale prevalente del cliente, ma un modello che tratti esplicitamente il processo di selezione del canale come componente endogena del comportamento d'acquisto rimane un problema aperto nella letteratura BTYD.
Modelli neuronali e approcci ibridi
Una direzione emergente è l'applicazione di reti neurali alla predizione del CLV, sia come modelli standalone sia come componenti di architetture ibride. I modelli neuronali possono catturare pattern non lineari e interazioni complesse senza specificare una struttura parametrica a priori, ma sacrificano l'interpretabilità e la quantificazione dell'incertezza che caratterizzano i modelli probabilistici [12]. Come osservato da Rossi, Allenby e McCulloch [12], la forza dei modelli bayesiani parametrici risiede nella possibilità di incorporare conoscenza strutturale di dominio attraverso le distribuzioni a priori, un vantaggio che i modelli neurali puri non replicano. L'approccio più promettente appare essere l'integrazione di componenti neurali all'interno di framework probabilistici, ad esempio utilizzando reti neurali per parametrizzare le distribuzioni a priori in modelli bayesiani, combinando la flessibilità dei modelli neuronali con il rigore inferenziale dei modelli stocastici. Il framework PyMC [13], grazie alla compatibilità con le librerie di differenziazione automatica, rende tecnicamente praticabile questa integrazione.
Riferimenti
[1] D. C. Schmittlein, D. G. Morrison, R. Colombo, "Counting Your Customers: Who Are They and What Will They Do Next?," in Management Science, vol. 33, no. 1, pp. 1-24, 1987. https://pubsonline.informs.org/doi/10.1287/mnsc.33.1.1
[2] A. M. Hughes, Strategic Database Marketing, Probus Publishing, 1994.
[3] P. S. Fader, B. G. S. Hardie, "Probability Models for Customer-Base Analysis," in Journal of Interactive Marketing, vol. 23, no. 1, pp. 61-69, 2009. https://journals.sagepub.com/doi/abs/10.1016/j.intmar.2008.11.003
[4] P. S. Fader, B. G. S. Hardie, K. L. Lee, "'Counting Your Customers' the Easy Way: An Alternative to the Pareto/NBD Model," in Marketing Science, vol. 24, no. 2, pp. 275-284, 2005. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=578087
[5] S. Gupta, D. R. Lehmann, Managing Customers as Investments: The Strategic Value of Customers in the Long Run, Wharton School Publishing, 2005.
[6] D. C. Schmittlein, R. A. Peterson, "Customer Base Analysis: An Industrial Purchase Process Application," in Marketing Science, vol. 13, no. 1, pp. 41-67, 1994.
[7] M. Abe, "'Counting Your Customers' One by One: A Hierarchical Bayes Extension to the Pareto/NBD Model," in Marketing Science, vol. 28, no. 3, pp. 541-553, 2009. https://pubsonline.informs.org/doi/10.1287/mksc.1090.0502
[8] P. S. Fader, B. G. S. Hardie, "The Gamma-Gamma Model of Monetary Value," Working Paper, 2013. https://www.brucehardie.com/notes/025/gamma_gamma.pdf
[9] P. S. Fader, B. G. S. Hardie, K. L. Lee, "RFM and CLV: Using Iso-Value Curves for Customer Base Analysis," in Journal of Marketing Research, vol. 42, no. 4, pp. 415-430, 2005. https://journals.sagepub.com/doi/10.1509/jmkr.2005.42.4.415
[10] P. S. Fader, B. G. S. Hardie, "How to Project Customer Retention," in Journal of Interactive Marketing, vol. 21, no. 1, pp. 76-90, 2007. https://faculty.wharton.upenn.edu/wp-content/uploads/2012/04/Fader_hardie_jim_07.pdf
[11] P. S. Fader, B. G. S. Hardie, P. Berger, "'How to Project Customer Retention' Revisited: The Role of Duration Dependence," in Journal of Interactive Marketing, vol. 43, pp. 1-16, 2018. https://www.sciencedirect.com/science/article/abs/pii/S1094996818300057
[12] P. E. Rossi, G. M. Allenby, R. McCulloch, Bayesian Statistics and Marketing, Wiley, 2005.
[13] PyMC Labs, "PyMC-Marketing: Bayesian Marketing Toolbox," GitHub repository, 2024. https://github.com/pymc-labs/pymc-marketing
[14] PyMC Labs, "Hierarchical Bayesian Models for Customer Lifetime Value," 2024. https://www.pymc-labs.com/blog-posts/hierarchical_clv
[15] M. Platzer, T. Reutterer, "Ticking Away the Moments: Timing Regularity Helps to Better Predict Customer Activity," in Marketing Science, vol. 35, no. 5, pp. 779-799, 2016. https://www.researchgate.net/publication/301828698_Ticking_Away_the_Moments_Timing_Regularity_Helps_to_Better_Predict_Customer_Activity
[16] P. Bachmann, M. Platzer, T. Reutterer, "Estimating Individual Customer Lifetime Values with R: The CLVTools Package," arXiv:2602.09845, 2026. https://arxiv.org/abs/2602.09845
[17] P. S. Fader, B. G. S. Hardie, "Incorporating Time-Invariant Covariates into the Pareto/NBD and BG/NBD Models," Working Paper, 2007. https://www.brucehardie.com/notes/019/time_invariant_covariates.pdf
[18] C. Davidson-Pilon, "Lifetimes: Measuring Customer Lifetime Value in Python," GitHub repository, 2022. https://github.com/CamDavidsonPilon/lifetimes