Parliamone
// tecnologie.probabilistic-forecasting

Probabilistic Forecasting

Dalla quantile regression alla conformal prediction: fondamenti teorici, architetture neurali e quantificazione dell'incertezza per previsioni che restituiscono distribuzioni anziché singoli valori.

Forecasting & OptimizationAI & Machine Learning

Executive summary

Quando un'organizzazione prende decisioni basate su previsioni, dalla gestione di un magazzino alla pianificazione della capacità di un impianto, conoscere il singolo valore atteso non è sufficiente: è necessario sapere quanto quella previsione potrebbe essere lontana dalla realtà. Questo articolo analizza i metodi che producono previsioni sotto forma di distribuzioni di probabilità anziché numeri singoli, permettendo di quantificare esplicitamente il margine di errore e di calibrare le decisioni in funzione del rischio. Dall'analisi emerge che le tecniche più recenti, in particolare quelle che combinano modelli di apprendimento automatico avanzati con garanzie matematiche sulla precisione degli intervalli, offrono un avanzamento significativo rispetto ai metodi tradizionali, ma richiedono scelte progettuali consapevoli sulla rappresentazione dell'incertezza e sulla valutazione della qualità delle previsioni.


Background

Il forecasting probabilistico si distingue dal forecasting puntuale per una differenza concettuale fondamentale: anziché produrre una singola stima $\hat{y}{t+h}$ per l'orizzonte $h$, restituisce una distribuzione predittiva $\hat{F}$ che assegna probabilità a tutti i possibili valori futuri della variabile target [1]. Questa distinzione non è puramente accademica: in contesti decisionali reali, gestione scorte, dimensionamento risorse, energy trading, le conseguenze di sovrastimare e sottostimare sono tipicamente asimmetriche, e solo una previsione distribuzionale consente di ottimizzare rispetto a funzioni di costo asimmetriche [2].

La formalizzazione moderna del campo è stata consolidata da Gneiting e Katzfuss [1], che hanno stabilito il principio cardine della maximizing sharpness subject to calibration: una previsione probabilistica è tanto migliore quanto più le sue distribuzioni predittive sono concentrate (sharp), a condizione che siano calibrate, ossia che le probabilità previste corrispondano alle frequenze osservate. Il concetto di calibrazione si verifica attraverso l'analisi dei probability integral transform (PIT) histogram: se $F_{t+h}$ è la distribuzione predittiva e $y_{t+h}$ il valore realizzato, la variabile $u_{t+h} = \hat{F}{t+h}(y)$ deve seguire una distribuzione uniforme su $[0,1]$ per previsioni perfettamente calibrate [1].

La valutazione rigorosa delle previsioni probabilistiche richiede strictly proper scoring rules, funzioni che assegnano un punteggio numerico alla coppia (distribuzione predittiva, valore realizzato) e il cui valore atteso è minimizzato quando il forecaster riporta la distribuzione vera [3]. Il Continuous Ranked Probability Score (CRPS) è la metrica più diffusa nella pratica:

$$\text{CRPS}(F, y) = \int_{-\infty}^{+\infty} \left[ F(z) - \mathbb{1}(y \leq z) \right]^2 dz$$

dove $F$ è la CDF predittiva e $y$ il valore osservato. Il CRPS generalizza l'errore assoluto medio al caso distribuzionale: per una previsione puntuale degenera nel MAE [3]. Una proprietà fondamentale è che il CRPS può essere decomposto in termini di reliability (calibrazione) e sharpness (concentrazione), consentendo una diagnosi separata dei due aspetti della qualità previsionale [1].

Il quantile score (o pinball loss) fornisce una valutazione complementare, focalizzata su specifici quantili della distribuzione predittiva:

$$S_\tau(\hat{q}\tau, y) = \begin{cases} \tau (y - \hat{q}\tau) & \text{se } y \geq \hat{q}\tau \ (1 - \tau)(\hat{q}\tau - y) & \text{se } y < \hat{q}_\tau \end{cases}$$

dove $\hat{q}\tau$ è il quantile predetto al livello $\tau \in (0,1)$. Il pinball loss è anch'esso una scoring rule strettamente propria: il suo valore atteso è minimizzato quando $\hat{q}\tau$ coincide con il vero quantile $\tau$-esimo della distribuzione condizionata [3]. L'uso combinato di CRPS e quantile score su un insieme di livelli $\tau$ consente una valutazione completa della distribuzione predittiva, evitando che la qualità venga giudicata su un singolo punto della distribuzione.

La competizione M5 Uncertainty [4] ha fornito un banco di prova su larga scala per il forecasting probabilistico applicato, richiedendo la previsione di nove quantili (da 0.005 a 0.995) per 42.840 serie temporali di vendite Walmart. I risultati hanno evidenziato che meno del 23% dei partecipanti ha superato i benchmark organizzati, e che le prestazioni erano marcatamente peggiori ai livelli estremi della distribuzione (code) e ai livelli più granulari della gerarchia prodotto-negozio [4]. Questo risultato sottolinea la difficoltà intrinseca del forecasting probabilistico in condizioni reali, specialmente quando si richiede accuratezza nelle code della distribuzione.


Fondamenti metodologici: dalla quantile regression alla conformal prediction

Il forecasting probabilistico si articola lungo due assi complementari: la stima diretta della distribuzione predittiva (o di suoi quantili) e la costruzione di intervalli di previsione con garanzie formali di copertura. Questi due approcci, storicamente sviluppati in comunità scientifiche distinte, econometria e statistica computazionale, rispettivamente, convergono nelle architetture contemporanee.

Quantile regression

La quantile regression, introdotta da Koenker e Bassett nel 1978 [5], rappresenta il fondamento teorico per la stima diretta di quantili condizionati. A differenza della regressione ai minimi quadrati ordinari, che stima la media condizionata $E[Y|X]$, la quantile regression stima il quantile $\tau$-esimo condizionato $Q_\tau(Y|X)$ minimizzando la funzione di loss asimmetrica:

$$\hat{\beta}\tau = \arg\min\beta \sum_{i=1}^{n} \rho_\tau(y_i - x_i^\top \beta)$$

dove $\rho_\tau(u) = u(\tau - \mathbb{1}(u < 0))$ è la check function. La formulazione originale di Koenker e Bassett [5] è lineare nei parametri, ma il principio si estende a modelli arbitrari, incluse reti neurali: è sufficiente sostituire la loss quadratica standard con la pinball loss per addestrare un modello che stimi quantili condizionati anziché medie condizionali.

Il vantaggio principale della quantile regression è la capacità di catturare eteroschedasticità e asimmetria nella distribuzione condizionata senza imporre una forma parametrica. Stimando un insieme di quantili ${\tau_1, \ldots, \tau_K}$, si ottiene un'approssimazione non parametrica della distribuzione predittiva. Il limite è che i quantili stimati non garantiscono monotonia ($\hat{q}{\tau_1} \leq \hat{q}$ per $\tau_1 < \tau_2$), un problema noto come quantile crossing, che richiede regolarizzazione o post-processing per essere risolto [5]. Inoltre, la quantile regression non offre garanzie formali di copertura finito-campionaria: la validità è asintotica e dipende dalla corretta specificazione del modello.

Prediction intervals e approcci parametrici

Un approccio alternativo alla costruzione di previsioni probabilistiche consiste nell'assumere una distribuzione parametrica per il termine di errore e derivare analiticamente gli intervalli di previsione. Nei modelli ARIMA classici, l'intervallo al livello $(1-\alpha)$ è dato da $\hat{y}{t+h} \pm z_h$ è la deviazione standard stimata dell'errore di previsione a orizzonte $h$. Questo approccio è computazionalmente efficiente ma subordinato all'assunzione di normalità degli errori, un'ipotesi frequentemente violata in serie temporali reali con code pesanti o distribuzione asimmetrica.} \cdot \hat{\sigma}_h$, dove $\hat{\sigma

I modelli GARCH (Generalized Autoregressive Conditional Heteroscedasticity) rilassano l'assunzione di varianza costante, modellando esplicitamente la volatilità condizionata, e rappresentano lo standard de facto nell'econometria finanziaria per la costruzione di intervalli di previsione. Tuttavia, anche la famiglia GARCH mantiene assunzioni parametriche sulla distribuzione delle innovazioni, e la stima degli intervalli degrada rapidamente con l'orizzonte previsionale.

Conformal prediction

La conformal prediction costituisce un cambio di paradigma rispetto ai metodi precedenti: fornisce intervalli di previsione con garanzie di copertura distribution-free e finite-sample, senza richiedere assunzioni sulla distribuzione dei dati o sulla correttezza del modello [6, 7]. Il framework è stato originariamente sviluppato da Vovk, Gammerman e Shafer [8] e successivamente formalizzato in una forma computazionalmente trattabile attraverso la split conformal prediction.

Il meccanismo di base della split conformal prediction opera come segue. Si suddivide il dataset in un insieme di addestramento $\mathcal{D}{\text{train}}$ e un insieme di calibrazione $\mathcal{D}$ e si calcolano i residui assoluti (}}$. Si addestra un modello $\hat{f}$ su $\mathcal{D}_{\text{train}nonconformity scores) sul set di calibrazione:

$$R_i = |y_i - \hat{f}(x_i)|, \quad i \in \mathcal{D}_{\text{cal}}$$

Per un nuovo input $x_{n+1}$, l'intervallo di previsione al livello $1 - \alpha$ è:

$$C(x_{n+1}) = \hat{f}(x_{n+1}) \pm Q_{1-\alpha}\left({R_i}{i \in \mathcal{D}\right)$$}}

dove $Q_{1-\alpha}$ è il quantile $(1-\alpha)(1 + 1/|\mathcal{D}_{\text{cal}}|)$-esimo della distribuzione empirica dei residui. La garanzia formale è che, sotto l'assunzione di exchangeability dei dati (più debole della i.i.d.), si ha:

$$P(y_{n+1} \in C(x_{n+1})) \geq 1 - \alpha$$

Questa garanzia è marginale (vale in media sull'intera distribuzione dei dati) e finito-campionaria (non richiede $n \to \infty$) [6, 7]. Il limite della split conformal prediction nella sua forma base è che produce intervalli di larghezza costante, indipendenti dall'input: un'osservazione in una regione ad alta incertezza e una in una regione a bassa incertezza ricevono lo stesso intervallo.

Conformalized Quantile Regression (CQR)

Romano, Patterson e Candès [9] hanno risolto il problema dell'adattività combinando quantile regression e conformal prediction nel framework Conformalized Quantile Regression (CQR). L'idea è elegante: si addestra un modello di quantile regression che stima i quantili $\hat{q}{\alpha/2}(x)$ e $\hat{q}(x)$, poi si applica la calibrazione conformal sui residui asimmetrici:

$$R_i = \max\left{\hat{q}{\alpha/2}(x_i) - y_i, \; y_i - \hat{q}(x_i)\right}$$

L'intervallo calibrato diventa:

$$C_{\text{CQR}}(x_{n+1}) = \left[\hat{q}{\alpha/2}(x}) - Q_{1-\alpha}({R_i}), \; \hat{q{1-\alpha/2}(x({R_i})\right]$$}) + Q_{1-\alpha

CQR eredita la garanzia di copertura marginale dalla conformal prediction e l'adattività eteroschedastica dalla quantile regression [9]. I risultati sperimentali di Romano et al. dimostrano che CQR produce intervalli significativamente più corti rispetto alla split conformal prediction standard, mantenendo la stessa copertura, e che il miglioramento è particolarmente marcato su dati con eteroschedasticità pronunciata [9].

La limitazione principale di CQR, e della conformal prediction in generale, riguarda l'applicazione a serie temporali, dove l'assunzione di exchangeability è violata dalla dipendenza temporale. Estensioni recenti affrontano questo problema attraverso adaptive conformal inference (ACI), che aggiorna dinamicamente il livello di confidenza $\alpha_t$ per mantenere la copertura empirica vicina al target anche sotto distributional shift [7]. Un ulteriore sviluppo, Ensemble Conformalized Quantile Regression (EnCQR), utilizza meccanismi di ensemble e residui leave-one-out per costruire intervalli validi su dati non scambiabili, estendendo l'applicabilità del framework CQR a contesti temporali [10].


Architetture neurali per il forecasting probabilistico

L'adozione di reti neurali profonde per il forecasting probabilistico ha prodotto un cambio di scala: i modelli apprendono distribuzioni predittive complesse da migliaia di serie temporali correlate, superando i limiti dei metodi classici univariati. Le architetture principali si distinguono per la rappresentazione della distribuzione output e per il meccanismo di condizionamento temporale.

DeepAR: autoregressive recurrent networks

DeepAR, proposto da Salinas et al. [2], rappresenta il modello fondazionale per il forecasting probabilistico con reti neurali. L'architettura è una rete ricorrente (LSTM) autoregressiva che, ad ogni passo temporale $t$, parametrizza la distribuzione predittiva $p(y_t | y_{1:t-1}, x_{1:T})$ attraverso i parametri di una distribuzione scelta a priori (tipicamente gaussiana o negative binomial per dati di conteggio). I parametri $\theta_t = (\mu_t, \sigma_t)$ sono prodotti dall'output della rete ricorrente:

$$h_t = \text{LSTM}(h_{t-1}, [y_{t-1}, x_t])$$ $$\mu_t = W_\mu h_t + b_\mu, \quad \sigma_t = \text{softplus}(W_\sigma h_t + b_\sigma)$$

Il training avviene massimizzando la log-likelihood $\sum_t \log p(y_t | \theta_t)$ sull'intero corpus di serie temporali. A inference, la natura autoregressiva consente di generare traiettorie campionarie (sample paths) attraverso campionamento sequenziale dalla distribuzione predittiva ad ogni step, ottenendo una rappresentazione Monte Carlo della distribuzione congiunta sugli orizzonti futuri [2].

L'innovazione chiave di DeepAR non è architetturale ma concettuale: il modello viene addestrato congiuntamente su un large number of related time series, condividendo i parametri della rete tra serie diverse. Le covariate specifiche di ciascuna serie (embedding categorici, feature statiche) condizionano la rete, consentendo transfer di informazione tra serie simili. Salinas et al. [2] riportano un miglioramento medio del 15% rispetto ai metodi stato dell'arte su dataset reali di Amazon, con i benefici più marcati su serie con storia limitata, dove il modello può sfruttare l'informazione appresa dalle serie correlate.

Il limite di DeepAR risiede nella scelta della famiglia distribuzionale: specificando una distribuzione parametrica (gaussiana, Student-t, negative binomial), il modello non può catturare distribuzioni predittive multimodali o con forme arbitrarie. Inoltre, la generazione autoregressiva di traiettorie è sequenziale e quindi lenta per orizzonti lunghi.

Temporal Fusion Transformer (TFT)

Il Temporal Fusion Transformer, proposto da Lim et al. [11], rappresenta un avanzamento architetturale significativo che integra forecasting probabilistico e interpretabilità. A differenza di DeepAR, il TFT produce direttamente stime quantiliche multi-orizzonte in un singolo passo forward, evitando la generazione autoregressiva.

L'architettura del TFT è composta da quattro componenti principali. Il variable selection network applica soft attention sulle feature di input, determinando quali covariate sono rilevanti ad ogni step temporale e producendo pesi di importanza interpretabili. Il gating mechanism (basato su Gated Residual Networks, GRN) sopprime componenti non necessarie, adattando la complessità del modello alla difficoltà del problema. Lo strato ricorrente (LSTM bidirezionale) elabora le dipendenze locali, mentre lo strato di interpretable multi-head attention cattura pattern a lungo raggio con una formulazione che consente di visualizzare quali istanti passati il modello utilizza per ciascun orizzonte previsionale [11].

Il TFT produce output probabilistici attraverso quantile regression: lo strato finale predice simultaneamente i quantili $\hat{q}{\tau_1}(t+h), \ldots, \hat{q}(t+h)$ per ciascun orizzonte $h$, addestrati minimizzando la somma delle pinball loss. Lim et al. [11] riportano un miglioramento del 7% sul quantile loss normalizzato rispetto ai metodi precedenti su quattro dataset di benchmark, con il vantaggio aggiuntivo di meccanismi di interpretabilità che consentono di diagnosticare il comportamento del modello.

La combinazione di forecasting diretto multi-orizzonte e quantile regression rende il TFT particolarmente adatto a contesti dove l'interpretabilità è un requisito operativo, ad esempio nel demand planning, dove la comprensione dei driver delle previsioni è necessaria per la validazione da parte degli esperti di dominio.

Deep State Space Models

Un approccio ortogonale consiste nell'ibridare modelli di stato spazio lineari con deep learning. Rangapuram et al. [12] hanno proposto un framework in cui una rete ricorrente parametrizza le matrici di transizione e di osservazione di un modello di stato spazio lineare specifico per ciascuna serie temporale. L'inferenza probabilistica avviene attraverso il filtro di Kalman, ereditando le proprietà di trattabilità analitica e interpretabilità dei modelli lineari, mentre la rete neurale fornisce la capacità di apprendere pattern complessi da grandi volumi di dati [12].

Questo approccio è particolarmente vantaggioso in regime di dati scarsi, dove i modelli di stato spazio classici eccellono grazie alla struttura di prior implicita, e la rete neurale aggiunge la capacità di generalizzazione cross-serie. Il limite è la restrizione alla classe delle distribuzioni gaussiane imposta dal filtro di Kalman, che può essere inadeguata per serie temporali con distribuzioni fortemente non gaussiane.

Modelli generativi: normalizing flow e diffusion

Le architetture più recenti abbandonano l'assunzione di distribuzione parametrica fissa, adottando modelli generativi che apprendono distribuzioni predittive di forma arbitraria. Gasthaus et al. [13] hanno proposto Spline Quantile Function RNNs (SQFR), in cui la distribuzione predittiva è rappresentata da una funzione quantile parametrizzata come spline monotona, con i coefficienti della spline prodotti da una rete ricorrente. L'addestramento avviene minimizzando il CRPS, e la rappresentazione mediante spline garantisce monotonia dei quantili per costruzione, eliminando il problema del quantile crossing [13].

Rasul et al. [14] hanno introdotto TimeGrad, il primo modello a diffusione per il forecasting probabilistico multivariato. L'architettura combina un encoder ricorrente per catturare le dipendenze temporali con un modello di diffusione denoising che genera campioni dalla distribuzione predittiva ad ogni step. Il processo di generazione parte da rumore gaussiano e lo trasforma iterativamente in un campione dalla distribuzione target, attraverso una catena di Markov guidata dal gradiente appreso [14]. I risultati sperimentali dimostrano prestazioni stato dell'arte su dataset multivariati con migliaia di dimensioni, al costo di un processo di inference significativamente più lento rispetto ai modelli autogressivi diretti.


Quantificazione dell'incertezza: aspetti pratici e limiti

La scelta tra previsioni probabilistiche e puntuali non è neutra dal punto di vista progettuale: implica decisioni su come rappresentare, comunicare e utilizzare l'incertezza nel processo decisionale.

Previsioni probabilistiche vs. previsioni puntuali

Una previsione puntuale $\hat{y}_{t+h}$ è implicitamente ottimale rispetto a una funzione di loss specifica: la media condizionata minimizza il MSE, la mediana minimizza il MAE, e i quantili minimizzano la pinball loss [3]. Il problema sorge quando la loss operativa non corrisponde alla loss di addestramento: un modello addestrato con MSE che produce previsioni per un problema di inventory management, dove il costo di stockout può essere significativamente superiore al costo di overstock, fornisce una previsione sistematicamente subottimale [4].

Le previsioni probabilistiche risolvono questo disallineamento fornendo l'intera distribuzione, dalla quale il decisore estrae la statistica rilevante per il suo specifico trade-off costi-benefici. Un responsabile di magazzino può utilizzare il quantile 95% per dimensionare lo stock di sicurezza; un energy trader può utilizzare l'intera distribuzione per calcolare il Conditional Value at Risk (CVaR); un pianificatore di capacità può simulare scenari estraendo traiettorie campionarie.

Tuttavia, le previsioni probabilistiche introducono complessità aggiuntiva su tre fronti: (1) la comunicazione dell'incertezza ai decisori non tecnici richiede interfacce e visualizzazioni adeguate; (2) la valutazione della qualità richiede metriche proprie (CRPS, quantile score, coverage) che non sono equivalenti alle metriche puntuali; (3) l'integrazione in pipeline decisionali automatizzate richiede la definizione esplicita della funzione di utilità e del meccanismo di ottimizzazione stocastica.

Calibrazione e sharpness in pratica

La calibrazione delle previsioni probabilistiche è il requisito fondamentale per la loro utilità decisionale [1]. Un modello che dichiara intervalli al 90% che coprono il valore vero solo nel 70% dei casi produce decisioni sistematicamente rischiose. In pratica, la verifica della calibrazione si effettua attraverso due strumenti complementari: i PIT histogram, che devono approssimare una distribuzione uniforme, e la coverage probability empirica, calcolata come la proporzione di osservazioni che cadono entro gli intervalli predetti a ciascun livello nominale.

La conformal prediction offre un vantaggio strutturale in questo contesto: la garanzia di copertura marginale $P(y \in C(x)) \geq 1-\alpha$ è valida per costruzione, indipendentemente dalla qualità del modello sottostante [6, 7]. Se il modello è scarso, gli intervalli conformali saranno ampi (bassa sharpness) ma correttamente calibrati. Questo contrasta con gli intervalli parametrici (ad esempio quelli gaussiani di DeepAR), che possono essere sia troppo stretti che mal calibrati se le assunzioni distribuzionali sono violate.

La copertura condizionale, la garanzia che $P(y \in C(x) | X = x) \geq 1-\alpha$ per ogni $x$, è un obiettivo significativamente più ambizioso, e nessun metodo distribution-free può garantirla senza assunzioni aggiuntive [7]. CQR [9] migliora la copertura condizionale rispetto alla split conformal, ma il gap tra copertura marginale e condizionale può rimanere significativo in regioni di input sottorappresentate nel set di calibrazione.

Sorgenti di incertezza

La quantificazione dell'incertezza nelle previsioni deve distinguere tra tre componenti distinte. L'incertezza aleatoria è irriducibile e deriva dalla variabilità intrinseca del processo generatore dei dati: anche con un modello perfetto e dati infiniti, le previsioni rimangono incerte a causa della stocasticità del fenomeno. L'incertezza epistemica riflette la conoscenza limitata del modello e diminuisce con l'aumento dei dati: si manifesta in regioni dello spazio di input poco rappresentate nel training set. L'incertezza di modello riguarda l'inadeguatezza della famiglia di modelli scelta, ad esempio, un modello lineare applicato a una relazione non lineare.

I metodi presentati nelle sezioni precedenti differiscono nella capacità di catturare queste componenti. DeepAR e il TFT, producendo distribuzioni predittive parametriche o quantili, catturano primariamente l'incertezza aleatoria. Per stimare l'incertezza epistemica è necessario ricorrere a tecniche aggiuntive: Monte Carlo dropout, deep ensembles, o inference bayesiana approssimata. La conformal prediction, operando sulla distribuzione empirica dei residui, cattura implicitamente l'incertezza totale (aleatoria + epistemica), ma non ne permette la decomposizione.


Limiti e problemi aperti

Il gap teoria-pratica nella conformal prediction per serie temporali

La garanzia di copertura della conformal prediction presuppone exchangeability, una condizione violata nelle serie temporali a causa della dipendenza temporale tra osservazioni successive [7]. Le estensioni proposte, ACI, EnCQR [10], e varianti basate su finestre mobili, offrono garanzie più deboli (approximate coverage) che possono degradare sotto distributional shift severi. In pratica, la copertura empirica su dati reali con regime changes può scendere significativamente sotto il livello nominale, richiedendo meccanismi di monitoraggio e ricalibrazione continua. Come osservato da Angelopoulos e Bates [7], il gap tra le garanzie teoriche in regime i.i.d. e le prestazioni effettive su dati temporali resta uno dei problemi aperti più rilevanti del campo.

Scalabilità e costo computazionale

Le architetture neurali per il forecasting probabilistico, in particolare i modelli a diffusione come TimeGrad [14], richiedono risorse computazionali significativamente superiori rispetto ai metodi puntuali. La generazione di campioni dalla distribuzione predittiva è intrinsecamente più costosa della produzione di una singola stima: TimeGrad richiede centinaia di step di denoising per campione, e gli ensemble methods moltiplicano il costo di training e inference per il numero di modelli nell'ensemble. Anche la generazione autoregressiva di traiettorie in DeepAR [2] scala linearmente con l'orizzonte previsionale e con il numero di campioni richiesti, rendendo il costo computazionale proporzionale al livello di dettaglio probabilistico desiderato. In deployment real-time con vincoli di latenza stringenti, questo trade-off impone scelte architetturali consapevoli tra qualità dell'incertezza e velocità di risposta. Approcci come il TFT [11], che producono quantili in un singolo passo forward, offrono un compromesso favorevole tra espressività probabilistica e costo computazionale.

Valutazione su dati reali

La competizione M5 [4] ha evidenziato che i metodi probabilistici faticano particolarmente nella previsione delle code della distribuzione: i quantili estremi (0.005, 0.995) presentano errori significativamente maggiori rispetto ai quantili centrali. Questo è problematico perché le decisioni operative più critiche, stock di sicurezza, capacity planning per picchi, dipendono proprio dalle code. Inoltre, la valutazione della qualità calibrativa richiede volumi di dati elevati per essere statisticamente significativa, rendendo difficile il monitoraggio della calibrazione in contesti con poche serie temporali o orizzonti brevi.

Interpretabilità e comunicazione dell'incertezza

Anche quando un modello produce previsioni probabilistiche accurate e calibrate, la comunicazione dell'incertezza ai decisori rimane una sfida aperta. La letteratura sulla decision science indica che gli intervalli di previsione vengono frequentemente ignorati o male interpretati dai decisori non tecnici, un fenomeno osservato anche nel contesto della competizione M5, dove la definizione stessa dei quantili da predire è risultata non intuitiva per molti partecipanti [4]. Il TFT [11] offre meccanismi di interpretabilità intrinseca (attention weights, variable importance), ma l'interpretabilità dell'incertezza stessa, perché l'intervallo è ampio in questo punto?, richiede tecniche di spiegazione aggiuntive che restano un'area di ricerca attiva.


Implicazioni pratiche

La scelta dell'approccio al forecasting probabilistico dipende dal contesto operativo e dalle garanzie richieste. I modelli neurali autogressivi (DeepAR [2]) sono indicati quando si dispone di un grande corpus di serie temporali correlate e si richiede una distribuzione predittiva completa per la simulazione di scenari. Il TFT [11] è preferibile quando l'interpretabilità è un requisito operativo e le previsioni devono essere validate da esperti di dominio. I metodi conformali (CQR [9], EnCQR [10]) sono particolarmente adatti quando la garanzia di copertura finito-campionaria è un requisito non negoziabile, ad esempio in applicazioni regolamentate o safety-critical, e possono essere applicati come wrapper di post-calibrazione su qualsiasi modello esistente.

Il toolkit GluonTS [15] fornisce un'infrastruttura unificata per la sperimentazione e il deployment di modelli probabilistici, includendo implementazioni di DeepAR, Deep State Space Models e altri modelli con output distribuzionale. L'adozione di un framework standardizzato riduce il costo di sperimentazione e facilita il confronto rigoroso tra approcci su dataset specifici del dominio.

Un principio emergente dalla letteratura è che la combinazione di metodi neurali con calibrazione conformal produce risultati superiori all'uno o all'altro approccio isolato: il modello neurale fornisce la forma della distribuzione predittiva (sharpness), e la calibrazione conformal ne corregge la copertura (calibration), seguendo esattamente il principio di Gneiting e Katzfuss [1]. Questa architettura modulare consente di aggiornare indipendentemente il modello predittivo e il meccanismo di calibrazione, un vantaggio operativo significativo in ambienti di produzione con requisiti di manutenibilità.


Riferimenti

[1] T. Gneiting, M. Katzfuss, "Probabilistic Forecasting," Annual Review of Statistics and Its Application, vol. 1, pp. 125-151, 2014. https://www.annualreviews.org/content/journals/10.1146/annurev-statistics-062713-085831

[2] D. Salinas, V. Flunkert, J. Gasthaus, T. Januschowski, "DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks," International Journal of Forecasting, vol. 36, no. 3, pp. 1181-1191, 2020. https://arxiv.org/abs/1704.04110

[3] T. Gneiting, A. E. Raftery, "Strictly Proper Scoring Rules, Prediction, and Estimation," Journal of the American Statistical Association, vol. 102, no. 477, pp. 359-378, 2007. https://www.tandfonline.com/doi/abs/10.1198/016214506000001437

[4] S. Makridakis, E. Spiliotis, V. Assimakopoulos, "The M5 Uncertainty Competition: Results, Findings and Conclusions," International Journal of Forecasting, vol. 38, no. 4, pp. 1365-1385, 2022. https://www.sciencedirect.com/science/article/pii/S0169207021001722

[5] R. Koenker, G. Bassett, "Regression Quantiles," Econometrica, vol. 46, no. 1, pp. 33-50, 1978. https://www.econometricsociety.org/publications/econometrica/1978/01/01/regression-quantiles

[6] J. Lei, M. G'Sell, A. Rinaldo, R. J. Tibshirani, L. Wasserman, "Distribution-Free Predictive Inference for Regression," Journal of the American Statistical Association, vol. 113, no. 523, pp. 1094-1111, 2018. https://arxiv.org/abs/1604.04173

[7] A. N. Angelopoulos, S. Bates, "Conformal Prediction: A Gentle Introduction," Foundations and Trends in Machine Learning, vol. 16, no. 4, pp. 494-591, 2023. https://arxiv.org/abs/2107.07511

[8] G. Shafer, V. Vovk, "A Tutorial on Conformal Prediction," Journal of Machine Learning Research, vol. 9, pp. 371-421, 2008. https://jmlr.org/papers/v9/shafer08a.html

[9] Y. Romano, E. Patterson, E. Candès, "Conformalized Quantile Regression," in Proc. NeurIPS, 2019. https://arxiv.org/abs/1905.03222

[10] M. Jensen, F. Bießmann, S. Bosse, "Ensemble Conformalized Quantile Regression for Probabilistic Time Series Forecasting," IEEE Transactions on Neural Networks and Learning Systems, 2022. https://pubmed.ncbi.nlm.nih.gov/36331651/

[11] B. Lim, S. O. Arik, N. Loeff, T. Pfister, "Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting," International Journal of Forecasting, vol. 37, no. 4, pp. 1748-1764, 2021. https://arxiv.org/abs/1912.09363

[12] S. S. Rangapuram, M. W. Seeger, J. Gasthaus, L. Stella, Y. Wang, T. Januschowski, "Deep State Space Models for Time Series Forecasting," in Proc. NeurIPS, 2018. https://papers.nips.cc/paper/8004-deep-state-space-models-for-time-series-forecasting

[13] J. Gasthaus, K. Benidis, Y. Wang, S. S. Rangapuram, D. Salinas, V. Flunkert, T. Januschowski, "Probabilistic Forecasting with Spline Quantile Function RNNs," in Proc. AISTATS, 2019. https://proceedings.mlr.press/v89/gasthaus19a.html

[14] K. Rasul, C. Seward, I. Schuster, R. Vollgraf, "Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting," in Proc. ICML, 2021. https://arxiv.org/abs/2101.12072

[15] A. Alexandrov et al., "GluonTS: Probabilistic and Neural Time Series Modeling in Python," Journal of Machine Learning Research, vol. 21, no. 116, pp. 1-6, 2020. https://jmlr.org/papers/v21/19-820.html

Probabilistic Forecasting

Raccontaci la situazione. Rispondiamo entro 24 ore nei giorni lavorativi.

Tweaks

Light mode
Atmospheric (glass)
Client logos
Terminal hero