Deltahedge

Executive summary

Quando un'organizzazione deve prendere decisioni basandosi su dati storici, prevedere quali clienti abbandoneranno un servizio, stimare il valore futuro di un indicatore di processo o classificare automaticamente documenti, si affida a tecniche che apprendono schemi ricorrenti da esempi già etichettati. Questo articolo analizza in profondità le principali famiglie di metodi utilizzati per questo scopo, dai modelli più semplici fino ai sistemi che combinano centinaia di predittori e alle reti di calcolo multistrato. L'analisi mette in luce un risultato contro-intuitivo consolidato dalla ricerca recente: non esiste un singolo metodo universalmente superiore, e la scelta più efficace dipende dalla natura dei dati, dalla quantità di esempi disponibili e dal tipo di problema. L'articolo esamina inoltre le tecniche matematiche e sperimentali che permettono di misurare l'affidabilità di una previsione e di selezionare il modello più adatto, evidenziando come queste tecniche siano decisive per ottenere risultati robusti in contesti reali.

Background

L'apprendimento supervisionato costituisce il paradigma più maturo e diffuso del machine learning: dato un insieme di coppie $(x_i, y_i)$ dove $x_i \in \mathbb{R}^d$ rappresenta un vettore di feature e $y_i$ la variabile target, l'obiettivo è apprendere una funzione $f: \mathbb{R}^d \rightarrow \mathcal{Y}$ che minimizzi l'errore di generalizzazione su dati non osservati durante l'addestramento. Quando $\mathcal{Y}$ è un insieme discreto di categorie si parla di classificazione; quando $\mathcal{Y} \subseteq \mathbb{R}$ si parla di regressione. La distinzione è fondamentale perché determina la scelta della funzione di loss, delle metriche di valutazione e, in molti casi, della famiglia di modelli candidati [1].

Le radici teoriche risalgono alla teoria dell'apprendimento statistico formalizzata da Vapnik e Chervonenkis negli anni Settanta, che ha stabilito le condizioni sotto cui un algoritmo di apprendimento può garantire buone prestazioni su dati futuri a partire da un campione finito. La nozione di VC-dimension e i limiti di generalizzazione che ne derivano forniscono il fondamento teorico per comprendere perché modelli più complessi non producano necessariamente previsioni migliori, un principio noto come compromesso bias-varianza [1, 2]. Il lavoro di Cortes e Vapnik sulle support-vector machines nel 1995 ha tradotto questa teoria in un algoritmo pratico capace di costruire superfici di decisione ottimali in spazi ad alta dimensionalità, dimostrando che il controllo della complessità del modello è altrettanto importante quanto la minimizzazione dell'errore empirico [3].

A partire dai primi anni Duemila, due sviluppi hanno trasformato il panorama dell'apprendimento supervisionato. Il primo è l'emergere dei metodi ensemble, in particolare random forest [4] e gradient boosting [5], che combinano predittori deboli per ottenere prestazioni superiori a qualsiasi componente singolo. Il secondo è la rinascita delle reti neurali profonde, resa possibile dalla disponibilità di hardware parallelo (GPU) e di dataset di grande scala, che ha portato a risultati senza precedenti in visione artificiale, elaborazione del linguaggio naturale e altre aree [2]. Tuttavia, la ricerca recente ha evidenziato che su dati tabulari strutturati, il formato predominante nelle applicazioni industriali, i metodi basati su alberi decisionali mantengono un vantaggio sistematico rispetto alle architetture deep learning [6]. Questa osservazione empirica rende la comprensione delle proprietà fondamentali di ciascuna famiglia di modelli non un esercizio accademico, ma una necessità operativa per chiunque progetti sistemi predittivi in produzione.

Modelli lineari e a kernel: fondamenti e limiti

I modelli lineari rappresentano il punto di partenza naturale dell'apprendimento supervisionato. La regressione lineare stima $f(x) = w^T x + b$ minimizzando l'errore quadratico medio, mentre la regressione logistica modella la probabilità di appartenenza a una classe attraverso la funzione sigmoide $\sigma(w^T x + b) = \frac{1}{1 + e^{-(w^T x + b)}}$. Nonostante la loro semplicità, questi modelli offrono proprietà importanti: interpretabilità diretta dei coefficienti, stabilità numerica, e garanzie teoriche ben comprese. Le varianti regolarizzate, Ridge ($L_2$), Lasso ($L_1$) e Elastic Net, introducono un termine di penalità nella funzione obiettivo che controlla la complessità del modello, riducendo la varianza a fronte di un incremento controllato del bias [1].

Il limite intrinseco dei modelli lineari risiede nell'assunzione di una relazione lineare tra feature e target. Le support-vector machines (SVM) superano questa limitazione attraverso il kernel trick: la funzione di decisione viene calcolata in uno spazio di feature implicito ad alta dimensionalità senza mai computare esplicitamente la trasformazione, sfruttando il teorema di Mercer per garantire che il prodotto scalare nello spazio trasformato sia calcolabile efficientemente [3]. Con kernel radiale (RBF), una SVM può approssimare superfici di decisione arbitrariamente complesse, e la formulazione come problema di ottimizzazione convessa garantisce l'unicità della soluzione, una proprietà che le reti neurali non possiedono [1].

Tuttavia, le SVM presentano limiti pratici significativi. La complessità computazionale dell'addestramento scala come $O(n^2)$ o $O(n^3)$ nel numero di campioni, rendendole impraticabili su dataset di grande scala senza approssimazioni. Inoltre, la scelta del kernel e dei relativi iperparametri (ad esempio, il parametro $\gamma$ del kernel RBF e il parametro di regolarizzazione $C$) richiede una ricerca esaustiva che può risultare costosa. Lo studio comparativo di Fernández-Delgado et al. [7], condotto su 121 dataset con 179 classificatori, ha mostrato che le SVM con kernel RBF si collocano tra i metodi più performanti ma sono sistematicamente superate dalle varianti di random forest, suggerendo che i metodi ensemble offrono un rapporto prestazioni-costo computazionale più favorevole nella maggior parte degli scenari applicativi.

Metodi ensemble: bagging, random forest e la riduzione della varianza

L'intuizione fondamentale dei metodi ensemble è che la combinazione di predittori diversificati produce stime più accurate e stabili rispetto a qualsiasi predittore singolo. Questa idea ha una giustificazione teorica precisa: se si considerano $M$ predittori con errori indipendenti e varianza $\sigma^2$, la varianza della media è $\sigma^2/M$, con una riduzione proporzionale al numero di modelli. In pratica le predizioni non sono mai completamente indipendenti, ma la riduzione della correlazione tra i predittori resta il meccanismo chiave che spiega l'efficacia degli ensemble [1].

Il bagging (Bootstrap Aggregating), introdotto da Breiman, genera diversità addestrando ciascun predittore su un campione bootstrap del training set, un campione con reinserimento della stessa dimensione dell'originale, in cui mediamente il 63.2% delle osservazioni è rappresentato almeno una volta. L'aggregazione avviene per media (regressione) o voto di maggioranza (classificazione). Il random forest [4] estende il bagging con un meccanismo aggiuntivo di randomizzazione: a ogni split di ogni albero, viene considerato solo un sottoinsieme casuale di $m$ feature (tipicamente $m \approx \sqrt{d}$ per la classificazione e $m \approx d/3$ per la regressione). Questa doppia randomizzazione, sui campioni e sulle feature, riduce ulteriormente la correlazione tra gli alberi, e Breiman ha dimostrato che l'errore di generalizzazione di una foresta converge quasi certamente a un limite finito al crescere del numero di alberi, che dipende dalla forza dei singoli alberi e dalla correlazione tra di essi [4].

L'analisi empirica su larga scala conferma la robustezza dei random forest. Nello studio di Fernández-Delgado et al. [7] su 121 dataset UCI, le implementazioni di random forest hanno raggiunto il 94.1% dell'accuratezza massima teorica, risultando la famiglia di classificatori più consistentemente performante tra le 17 famiglie testate. Grinsztajn et al. [6] hanno replicato questo risultato nel contesto specifico del confronto con architetture deep learning su dati tabulari, evidenziando che i modelli basati su alberi sono particolarmente robusti alla presenza di feature non informative, una proprietà legata al meccanismo di selezione implicita delle feature operato dagli split degli alberi decisionali.

Un vantaggio operativo significativo dei random forest è la disponibilità di stime out-of-bag (OOB): poiché ogni albero è addestrato su circa il 63.2% dei dati, le osservazioni escluse possono essere utilizzate come set di validazione interno, fornendo una stima dell'errore di generalizzazione senza necessità di cross-validation esplicita. Questa proprietà riduce il costo computazionale della fase di model selection e rende i random forest particolarmente adatti a scenari in cui il budget computazionale è limitato [4].

Gradient boosting: dall'ottimizzazione funzionale ai framework moderni

A differenza del bagging, che costruisce predittori in parallelo e li media, il boosting opera in modo sequenziale: ogni nuovo predittore viene addestrato per correggere gli errori residui dei predecessori. L'idea originale, formalizzata da Schapire [8] nel contesto della teoria PAC, dimostra che è possibile trasformare un weak learner, un classificatore appena migliore del caso, in un predittore arbitrariamente accurato attraverso la combinazione pesata di istanze successive.

Friedman [5] ha riformulato il boosting come un problema di ottimizzazione nel dominio delle funzioni: dato un modello additivo $F(x) = \sum_{m=1}^{M} \beta_m h_m(x)$, dove $h_m$ sono alberi decisionali, ogni iterazione aggiunge un nuovo albero che approssima il gradiente negativo della funzione di loss rispetto alle predizioni correnti. Questa formulazione, denominata gradient boosting, è estremamente generale: qualsiasi funzione di loss differenziabile può essere utilizzata, dalla least-squares alla Huber loss per la regressione, dalla log-loss alla focal loss per la classificazione. Il learning rate $\eta$ controlla il contributo di ogni albero, e la teoria mostra che valori piccoli di $\eta$ (tipicamente 0.01-0.1) combinati con un numero elevato di iterazioni producono migliore generalizzazione attraverso un meccanismo di regolarizzazione implicita noto come shrinkage [5].

XGBoost, LightGBM e CatBoost

L'implementazione pratica del gradient boosting ha conosciuto un'accelerazione decisiva con tre framework che hanno introdotto ottimizzazioni algoritmiche e ingegneristiche significative.

XGBoost [9], proposto da Chen e Guestrin nel 2016, introduce una regolarizzazione esplicita nella funzione obiettivo, aggiungendo termini proporzionali al numero di foglie e alla norma $L_2$ dei pesi, e un algoritmo di approssimazione basato su weighted quantile sketch per la ricerca degli split ottimali. L'architettura sfrutta parallelismo a livello di feature, compressione dei dati e accesso cache-aware, consentendo di scalare a dataset con miliardi di osservazioni. Il sistema ha dominato le competizioni Kaggle e le applicazioni industriali, con oltre 36.000 citazioni accademiche a testimonianza del suo impatto [9].

LightGBM [10], sviluppato da Microsoft Research, affronta il collo di bottiglia computazionale del gradient boosting, la ricerca degli split, che richiede la scansione di tutti i campioni per ogni feature, attraverso due innovazioni. Gradient-based One-Side Sampling (GOSS) esclude i campioni con gradienti piccoli (che contribuiscono poco all'information gain), riducendo il costo computazionale senza degradare significativamente l'accuratezza. Exclusive Feature Bundling (EFB) identifica feature mutuamente esclusive e le raggruppa, riducendo la dimensionalità effettiva. Il risultato è un'accelerazione fino a 20 volte rispetto al gradient boosting convenzionale con accuratezza comparabile [10]. LightGBM adotta inoltre una strategia di crescita leaf-wise (anziché level-wise), che tende a convergere più rapidamente su dataset di grande scala.

CatBoost [11], sviluppato da Yandex, affronta un problema sistematico presente in tutte le implementazioni precedenti di gradient boosting: il target leakage introdotto dalla codifica delle feature categoriche. L'approccio tradizionale, sostituire ogni categoria con la media del target nel training set, introduce una dipendenza circolare che causa prediction shift. CatBoost risolve questo problema con ordered boosting, una procedura basata su permutazioni casuali che garantisce che la codifica di ciascun campione utilizzi solo informazioni da campioni precedenti nell'ordine della permutazione. Questa proprietà di unbiasedness produce vantaggi particolarmente evidenti su dataset con molte feature categoriche [11].

Confronto e criteri di scelta

I benchmark recenti mostrano che le prestazioni predittive dei tre framework sono largamente comparabili, con differenze spesso inferiori alla variabilità statistica [6, 9, 10, 11]. Le differenze significative emergono su dimensioni operative: LightGBM offre i tempi di addestramento più bassi, rendendolo preferibile per pipeline con vincoli di latenza o per dataset di grande scala; CatBoost gestisce nativamente le feature categoriche senza preprocessing manuale; XGBoost offre il maggior numero di opzioni di regolarizzazione e il supporto più maturo per deployment distribuito. La scelta tra i tre dovrebbe essere guidata dalle caratteristiche specifiche del dataset e dai vincoli infrastrutturali, non da benchmark generici.

Reti neurali e deep learning per dati supervisionati

Le reti neurali feedforward, nella loro forma di multilayer perceptron (MLP), approssimano la funzione target attraverso composizioni successive di trasformazioni affini e non-linearità: $f(x) = \sigma_L(W_L \cdot \sigma_{L-1}(W_{L-1} \cdots \sigma_1(W_1 x + b_1) \cdots + b_{L-1}) + b_L)$, dove $W_l$ e $b_l$ sono i pesi e i bias dello strato $l$, e $\sigma_l$ è la funzione di attivazione. Il teorema di approssimazione universale garantisce che un MLP con un singolo strato nascosto di ampiezza sufficiente può approssimare qualsiasi funzione continua su un compatto, ma non dice nulla sull'efficienza di tale approssimazione né sulla facilità di apprendimento dei pesi [2].

In pratica, la profondità è essenziale: le architetture profonde possono rappresentare certe classi di funzioni con un numero esponenzialmente inferiore di parametri rispetto alle architetture shallow. L'addestramento avviene tramite backpropagation e discesa del gradiente stocastica (SGD) o varianti adattive (Adam, AdaGrad), e la convergenza dipende criticamente dall'inizializzazione dei pesi, dalla scelta del learning rate e dalla tecnica di regolarizzazione. Dropout, batch normalization, weight decay e data augmentation sono tecniche standard per controllare l'overfitting, ma la loro combinazione ottimale è specifica per ogni problema e architettura [2].

Architetture specializzate

Le reti convoluzionali (CNN) sfruttano la struttura spaziale dei dati, invarianza traslazionale e località, attraverso filtri con pesi condivisi, e sono lo standard de facto per la classificazione di immagini. Le reti ricorrenti (RNN, LSTM, GRU) modellano dipendenze temporali in sequenze, mentre l'architettura transformer, introdotta da Vaswani et al. [12], ha rivoluzionato l'elaborazione del linguaggio naturale attraverso il meccanismo di self-attention che consente di catturare dipendenze a lungo raggio senza le limitazioni delle architetture ricorrenti. Ciascuna di queste architetture incorpora un inductive bias specifico, struttura spaziale per le CNN, struttura sequenziale per le RNN, struttura relazionale per i transformer, che le rende altamente efficaci nel proprio dominio ma meno generalizzabili ad altri tipi di dati.

Il caso dei dati tabulari

Su dati tabulari strutturati, la situazione è meno favorevole al deep learning. L'analisi sistematica di Grinsztajn et al. [6], condotta su 45 dataset di media scala (~10.000 campioni) con tuning estensivo degli iperparametri, ha dimostrato che XGBoost e random forest superano consistentemente MLP, ResNet e FT-Transformer. Gli autori identificano tre proprietà dei dati tabulari che spiegano questo divario: (1) la presenza di feature non informative, rispetto alle quali gli alberi sono intrinsecamente robusti grazie al meccanismo di selezione degli split; (2) l'assenza di struttura spaziale o sequenziale sfruttabile dagli inductive bias delle architetture deep; (3) la rotational invariance delle reti neurali, che è un vantaggio su immagini ma uno svantaggio su dati tabulari dove l'orientamento delle feature è informativo [6].

Questo risultato non implica che il deep learning sia irrilevante per l'apprendimento supervisionato su dati strutturati. Architetture recenti come TabNet, SAINT e TabTransformer hanno ridotto parzialmente il divario, e in scenari con dataset molto grandi (>100.000 campioni) e feature ad alta cardinalità, le reti neurali possono diventare competitive. Tuttavia, il costo di tuning e addestramento rimane significativamente più elevato, e l'interpretabilità è inferiore. La raccomandazione operativa che emerge dalla letteratura è chiara: su dati tabulari, i metodi basati su alberi dovrebbero essere il baseline di riferimento, e il deep learning dovrebbe essere considerato solo quando vi sono ragioni specifiche per aspettarsi un vantaggio [6].

Compromesso bias-varianza e il fenomeno del double descent

Il compromesso bias-varianza è il principio teorico fondamentale che governa la generalizzazione dei modelli supervisionati. L'errore di generalizzazione atteso di un modello si decompone come:

$$E[(y - \hat{f}(x))^2] = \text{Bias}[\hat{f}(x)]^2 + \text{Var}[\hat{f}(x)] + \sigma^2$$

dove il primo termine misura l'errore sistematico dovuto alle assunzioni del modello (un modello lineare ha alto bias su una relazione non lineare), il secondo misura la sensibilità del modello a variazioni nel training set, e $\sigma^2$ è il rumore irriducibile. Modelli semplici hanno alto bias e bassa varianza; modelli complessi hanno basso bias e alta varianza. La teoria classica predice una curva a U dell'errore di test in funzione della complessità, con un minimo nel punto di compromesso ottimale [1].

Questa teoria classica è stata messa in discussione dalla pratica moderna del deep learning, dove reti neurali con milioni di parametri, ben oltre il numero di campioni di addestramento, vengono addestrate fino a interpolare perfettamente il training set, eppure generalizzano bene. Belkin et al. [13] hanno formalizzato questo fenomeno proponendo la curva di double descent: oltre il punto di interpolazione (dove il modello ha esattamente la capacità di memorizzare il training set), l'errore di test non continua a crescere ma diminuisce nuovamente. Il regime di over-parameterization, in cui il numero di parametri supera largamente il numero di campioni, ammette soluzioni interpolanti con bassa norma che generalizzano bene, un comportamento non previsto dalla teoria classica del bias-varianza [13].

Nakkiran et al. [14] hanno esteso questa osservazione dimostrando che il double descent si manifesta lungo tre assi: model-wise (al crescere del numero di parametri), epoch-wise (al crescere del tempo di addestramento) e sample-wise (con un regime paradossale in cui più dati di addestramento peggiorano temporaneamente le prestazioni). Questo risultato ha implicazioni pratiche rilevanti: la regola empirica secondo cui l'addestramento dovrebbe essere interrotto al primo aumento dell'errore di validazione (early stopping) potrebbe essere sub-ottimale per modelli molto grandi, dove continuare l'addestramento oltre l'apparente overfitting può condurre a prestazioni migliori [14].

È importante notare che il double descent non invalida il compromesso bias-varianza, ne estende il dominio di applicazione. Per i modelli basati su alberi e per le reti neurali di dimensione moderata, la curva a U classica rimane una guida affidabile [1]. Il double descent emerge specificamente in regimi di forte over-parameterization con regolarizzazione implicita (ad esempio, SGD con inizializzazione random e tasso di apprendimento finito), come documentato empiricamente sia da Belkin et al. [13] sia da Nakkiran et al. [14]. La comprensione di quando ciascun regime si applica è essenziale per una corretta strategia di model selection: su dati tabulari con modelli ensemble, il framework classico resta operativo; su reti neurali profonde con milioni di parametri, il double descent deve essere tenuto in considerazione nelle decisioni di early stopping e dimensionamento del modello.

Cross-validation e strategie di selezione del modello

La selezione del modello, la scelta dell'algoritmo, della sua configurazione di iperparametri e del livello di complessità, richiede una stima affidabile dell'errore di generalizzazione. L'errore sul training set è un estimatore fortemente ottimistico (specialmente per modelli complessi), e l'uso di un singolo holdout set introduce alta varianza nella stima, particolarmente problematica su dataset di dimensione limitata. La cross-validation affronta questo problema suddividendo sistematicamente i dati in sottoinsiemi di addestramento e validazione [15].

Varianti principali

La $k$-fold cross-validation suddivide il dataset in $k$ partizioni di uguale dimensione; per ogni fold, il modello viene addestrato su $k-1$ partizioni e valutato sulla rimanente. L'errore stimato è la media degli errori sui $k$ fold. La scelta di $k$ determina un compromesso: valori piccoli ($k=5$) producono stime con bias più alto (il modello è addestrato su una frazione minore dei dati) ma varianza più bassa; valori grandi ($k=20$ o leave-one-out con $k=n$) riducono il bias ma aumentano la varianza e il costo computazionale. Arlot e Celisse [15] forniscono un'analisi teorica rigorosa di questo compromesso, mostrando che la scelta ottimale di $k$ dipende dal rapporto tra la dimensione del campione e la complessità della classe di modelli. La pratica consolidata suggerisce $k=5$ o $k=10$ come default ragionevole per la maggior parte degli scenari [1, 15].

La stratified $k$-fold preserva la distribuzione delle classi in ogni fold, ed è essenziale quando le classi sono sbilanciate, una condizione frequente in applicazioni industriali come il rilevamento di frodi o la diagnostica. La repeated $k$-fold ripete l'intera procedura con diverse partizioni casuali e media i risultati, riducendo la varianza della stima a costo di un aumento lineare del tempo di calcolo. La nested cross-validation usa un loop esterno per stimare l'errore di generalizzazione e un loop interno per l'ottimizzazione degli iperparametri, separando rigorosamente le due fasi e producendo stime non distorte, un requisito spesso trascurato nella pratica ma fondamentale per la correttezza statistica del processo di model selection [15].

Ottimizzazione degli iperparametri

La ricerca degli iperparametri ottimali è un problema di ottimizzazione black-box in cui la funzione obiettivo (l'errore di cross-validation) è costosa da valutare e non ha un gradiente analitico. La grid search esplora sistematicamente una griglia predefinita, ma il costo cresce esponenzialmente con il numero di iperparametri. La random search, proposta da Bergstra e Bengio, è più efficiente quando solo pochi iperparametri sono effettivamente influenti, una condizione empiricamente comune, perché distribuisce il budget computazionale in modo più uniforme nello spazio [16]. Metodi bayesiani come Tree-structured Parzen Estimators (TPE) e Gaussian Process-based optimization costruiscono un modello surrogato della funzione obiettivo e selezionano il prossimo punto da valutare bilanciando esplorazione e sfruttamento, risultando particolarmente vantaggiosi quando il budget di valutazioni è limitato.

Un aspetto frequentemente sottovalutato è l'interazione tra la strategia di cross-validation e la pipeline di preprocessing. Operazioni come la normalizzazione, l'imputazione dei valori mancanti e la selezione delle feature devono essere eseguite separatamente su ciascun fold di addestramento per evitare data leakage, una forma di contaminazione in cui informazioni dal set di validazione influenzano l'addestramento. Framework come scikit-learn [17] forniscono astrazioni (Pipeline, ColumnTransformer) che garantiscono l'isolamento corretto delle trasformazioni, ma la responsabilità della configurazione corretta rimane dell'ingegnere.

Implicazioni pratiche e criteri di scelta

La selezione del modello in un contesto industriale deve bilanciare prestazioni predittive con vincoli operativi che la letteratura accademica spesso trascura. La latenza di inferenza, i requisiti di memoria, l'interpretabilità per gli stakeholder non tecnici e la manutenibilità nel tempo sono fattori che possono essere altrettanto determinanti quanto un incremento marginale di accuratezza.

Una tassonomia operativa può guidare la scelta iniziale. Per dataset tabulari di piccola e media scala (fino a ~100.000 campioni), il gradient boosting (XGBoost, LightGBM o CatBoost) rappresenta il baseline più competitivo, con random forest come alternativa quando la robustezza e la semplicità di configurazione sono prioritarie [6, 7]. I modelli lineari regolarizzati restano appropriati quando l'interpretabilità dei coefficienti è un requisito esplicito o quando la dimensionalità è molto elevata rispetto al numero di campioni ($d \gg n$). Le reti neurali sono indicate per dati non strutturati (immagini, testo, audio) o per dataset tabulari di grande scala con pattern non lineari complessi.

Il compromesso tra complessità del modello e costo di mantenimento è particolarmente rilevante in produzione. Un modello gradient boosting con tuning moderato richiede un investimento ingegneristico contenuto per essere messo in produzione; una rete neurale profonda comporta costi significativamente superiori per il tuning degli iperparametri, la gestione dell'infrastruttura GPU e il monitoraggio del data drift, un divario che l'analisi di Grinsztajn et al. [6] quantifica indirettamente mostrando tempi di tuning per le reti neurali superiori di un fattore 10-100 rispetto ai metodi ad albero. La regola empirica che emerge dalla letteratura e dalla pratica è di iniziare con il modello più semplice che soddisfa i requisiti di prestazione, e incrementare la complessità solo quando l'analisi degli errori rivela pattern sistematici che il modello corrente non cattura [1, 6].

Infine, la valutazione rigorosa tramite cross-validation annidata, con metriche appropriate al problema specifico (non solo accuratezza, ma precision, recall, F1-score per classificazione sbilanciata; MAE, RMSE, metriche quantiliche per regressione), è il prerequisito non negoziabile per qualsiasi deployment in produzione. Come emerge sistematicamente dalla letteratura sulla riproducibilità nel machine learning, una valutazione metodologicamente scorretta, ad esempio l'ottimizzazione degli iperparametri sullo stesso set usato per la stima dell'errore, produce stime di prestazione inflazionate che non si traducono in risultati operativi [1, 15]. La disciplina nella valutazione è spesso più determinante della scelta dell'algoritmo.

Riferimenti

[1] T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer, 2009. https://link.springer.com/book/10.1007/978-0-387-84858-7

[2] I. Goodfellow, Y. Bengio, A. Courville, Deep Learning, MIT Press, 2016. https://www.deeplearningbook.org/

[3] C. Cortes, V. Vapnik, "Support-Vector Networks," Machine Learning, vol. 20, pp. 273–297, 1995. https://link.springer.com/article/10.1007/BF00994018

[4] L. Breiman, "Random Forests," Machine Learning, vol. 45, pp. 5–32, 2001. https://link.springer.com/article/10.1023/A:1010933404324

[5] J. H. Friedman, "Greedy Function Approximation: A Gradient Boosting Machine," The Annals of Statistics, vol. 29, no. 5, pp. 1189–1232, 2001. https://projecteuclid.org/journals/annals-of-statistics/volume-29/issue-5/Greedy-function-approximation-A-gradient-boosting-machine/10.1214/aos/1013203451.full

[6] L. Grinsztajn, E. Oyallon, G. Varoquaux, "Why do tree-based models still outperform deep learning on typical tabular data?," in Proc. NeurIPS, 2022. https://arxiv.org/abs/2207.08815

[7] M. Fernández-Delgado, E. Cernadas, S. Barro, D. Amorim, "Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?," JMLR, vol. 15, pp. 3133–3181, 2014. https://jmlr.org/papers/v15/delgado14a.html

[8] R. E. Schapire, "The Strength of Weak Learnability," Machine Learning, vol. 5, pp. 197–227, 1990. https://link.springer.com/article/10.1007/BF00116037

[9] T. Chen, C. Guestrin, "XGBoost: A Scalable Tree Boosting System," in Proc. KDD, pp. 785–794, 2016. https://arxiv.org/abs/1603.02754

[10] G. Ke et al., "LightGBM: A Highly Efficient Gradient Boosting Decision Tree," in Proc. NeurIPS, pp. 3149–3157, 2017. https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree

[11] L. Prokhorenkova, G. Gusev, A. Vorobev, A. V. Dorogush, A. Gulin, "CatBoost: Unbiased Boosting with Categorical Features," in Proc. NeurIPS, pp. 6639–6649, 2018. https://arxiv.org/abs/1706.09516

[12] A. Vaswani et al., "Attention Is All You Need," in Proc. NeurIPS, 2017. https://arxiv.org/abs/1706.03762

[13] M. Belkin, D. Hsu, S. Ma, S. Mandal, "Reconciling Modern Machine-Learning Practice and the Classical Bias–Variance Trade-Off," PNAS, vol. 116, no. 32, pp. 15849–15854, 2019. https://www.pnas.org/doi/10.1073/pnas.1903070116

[14] P. Nakkiran, G. Kaplun, Y. Bansal, T. Yang, B. Barak, I. Sutskever, "Deep Double Descent: Where Bigger Models and More Data Hurt," in Proc. ICLR, 2020. https://arxiv.org/abs/1912.02292

[15] S. Arlot, A. Celisse, "A Survey of Cross-Validation Procedures for Model Selection," Statistics Surveys, vol. 4, pp. 40–79, 2010. https://arxiv.org/abs/0907.4728

[16] J. Bergstra, Y. Bengio, "Random Search for Hyper-Parameter Optimization," JMLR, vol. 13, pp. 281–305, 2012. https://jmlr.org/papers/v13/bergstra12a.html

[17] F. Pedregosa et al., "Scikit-learn: Machine Learning in Python," JMLR, vol. 12, pp. 2825–2830, 2011. https://jmlr.org/papers/v12/pedregosa11a.html

Supervised Machine Learning