Deltahedge

Executive summary

Quando un impianto industriale, un server o un sensore produce un flusso continuo di misurazioni nel tempo, identificare automaticamente i momenti in cui il comportamento devia dalla norma è un problema critico per prevenire guasti, frodi e malfunzionamenti. Questo articolo analizza lo stato dell'arte dei metodi per il rilevamento automatico di queste deviazioni, esaminando sia le tecniche basate su modelli matematici avanzati sia quelle più semplici e tradizionali. Dall'analisi emerge un risultato sorprendente: le tecniche più complesse e costose non superano sempre quelle più semplici, e il modo in cui i ricercatori hanno misurato le prestazioni di questi metodi negli ultimi anni si è rivelato profondamente inaffidabile. L'articolo offre una guida critica per orientarsi in un campo in rapida evoluzione e in piena revisione metodologica.

Background e definizione del problema

La ricerca sul rilevamento di anomalie in serie temporali (time series anomaly detection, TSAD) ha prodotto oltre 150 metodi basati su deep learning in meno di cinque anni [2], eppure il campo si trova in piena crisi metodologica: le metriche con cui questi metodi sono stati valutati si sono rivelate inaffidabili [15], e i metodi più complessi non superano sistematicamente quelli più semplici [22]. Ciò che è anomalo, inoltre, dipende dal contesto applicativo, dalla stagionalità dei dati e dalla tolleranza dell'operatore, non esiste una soglia universale [1].

Formalmente, data una serie temporale multivariata $X = {x_1, x_2, \ldots, x_T}$ con $x_t \in \mathbb{R}^d$, il problema si riduce ad assegnare a ciascun istante $t$ (o a ciascun segmento) un punteggio di anomalia $s_t$ e una label binaria $y_t \in {0, 1}$ attraverso una funzione di soglia. La maggior parte dei metodi opera in regime non supervisionato o semi-supervisionato, poiché le anomalie reali sono rare e costose da etichettare [2].

La survey di Choi et al. [2] offre la panoramica più ampia, mentre la valutazione sistematica di Schmidl et al. [3] ha testato 71 algoritmi su 967 serie temporali. Un risultato costante emerge da queste analisi: nessun singolo metodo domina su tutti i dataset, e le prestazioni variano drasticamente in funzione del tipo di anomalia (punto, contesto, collettiva), della dimensionalità dei dati e delle caratteristiche del dominio [3].

I dataset di benchmark più utilizzati riflettono questa eterogeneità. Il Server Machine Dataset (SMD), introdotto da Su et al. [4], comprende metriche di 38 server con anomalie etichettate. I dataset MSL e SMAP, derivati dalla telemetria NASA, sono stati introdotti da Hundman et al. [5] e sono diventati lo standard de facto per la valutazione di metodi multivariati. SWaT e WADI [6] provengono da sistemi di controllo industriale per il trattamento delle acque, con anomalie generate da attacchi simulati. PSM (Pooled Server Metrics), rilasciato da eBay [7], aggiunge un contesto di metriche aggregate da infrastruttura web. Questi dataset, pur essendo ampiamente adottati, presentano limitazioni significative in termini di realismo e varietà delle anomalie, un punto su cui si tornerà nella discussione sulle metriche di valutazione.

Tassonomia degli approcci

La letteratura organizza i metodi di TSAD in quattro famiglie principali, distinte per il meccanismo attraverso cui viene calcolato il punteggio di anomalia [2, 8].

Metodi basati su ricostruzione

L'intuizione alla base di questi metodi è diretta: un modello addestrato a ricostruire sequenze normali produrrà un errore di ricostruzione elevato quando incontra pattern anomali. L'architettura fondazionale è l'LSTM autoencoder, introdotto nel contesto TSAD da Malhotra et al. [9]: un encoder LSTM comprime una finestra temporale in una rappresentazione latente, e un decoder LSTM ricostruisce la sequenza originale. L'errore di ricostruzione $|x_t - \hat{x}_t|$ costituisce il punteggio di anomalia.

OmniAnomaly [4] ha esteso questo paradigma combinando GRU con un framework VAE (Variational Autoencoder) e normalizing flow per catturare distribuzioni latenti più espressive, introducendo al contempo il dataset SMD. USAD [10] ha proposto un'architettura a due decoder con training avversariale, ottenendo velocità di addestramento significativamente superiori rispetto alle alternative basate su GAN con prestazioni competitive su SWaT, WADI, SMD, MSL e SMAP. Il vantaggio dei metodi ricostruttivi è la relativa semplicità concettuale e la capacità di operare senza etichette; il limite principale è l'assunzione che il modello non impari a ricostruire anche le anomalie, un problema noto come identity shortcut che diventa critico con autoencoder sovradimensionati.

Metodi basati su previsione

L'approccio alternativo sfrutta modelli di forecasting: si predice il valore atteso al tempo $t+1$ dato il contesto storico, e si utilizza l'errore di previsione come indicatore di anomalia. Hundman et al. [5] hanno introdotto stacked LSTM con nonparametric dynamic thresholding, un meccanismo che adatta automaticamente la soglia di anomalia in base alla distribuzione degli errori recenti, evitando soglie statiche inadatte a segnali non stazionari.

I metodi forecasting-based hanno il vantaggio di produrre anomaly score interpretabili (la deviazione tra valore atteso e osservato) e di integrarsi naturalmente con pipeline di monitoraggio che già implementano previsioni. Il limite è la dipendenza dalla qualità della previsione: un modello che prevede male in condizioni normali genererà falsi positivi, e modelli troppo flessibili possono assorbire le anomalie nel forecast, producendo falsi negativi.

Metodi basati su transformer e contrastive learning

A partire dal 2022, le architetture transformer sono state adattate al TSAD con risultati che, almeno sui benchmark convenzionali, hanno segnato nuovi record. Anomaly Transformer [11] ha introdotto il concetto di association discrepancy: le anomalie interrompono i pattern di associazione temporale che il meccanismo di self-attention cattura. Attraverso una strategia minimax tra prior-association e series-association, il modello produce un anomaly score che non dipende esclusivamente dall'errore di ricostruzione. TranAD [12] ha combinato transformer con training avversariale e un meccanismo di self-conditioning in due fasi, ottenendo velocità di inferenza superiori ad Anomaly Transformer con prestazioni comparabili.

DCdetector [13] ha rappresentato un ulteriore passo avanti, applicando contrastive learning con dual attention (patch-wise e channel-wise) per creare rappresentazioni invarianti alle permutazioni. L'anomaly score emerge dalla discrepanza tra le due mappe di attenzione, sfruttando sia l'invarianza appresa tramite contrastive learning sia la capacità dei transformer di catturare dipendenze a lungo raggio.

Parallelamente, TimesNet [14] ha proposto un approccio ortogonale: trasformare serie temporali 1D in tensori 2D basati su periodicità apprese, applicando convoluzioni 2D per catturare variazioni intra-periodo e inter-periodo. Questo metodo si è dimostrato competitivo su TSAD come task tra i cinque per cui è stato progettato (long-term forecasting, short-term forecasting, imputation, classificazione e anomaly detection).

Tuttavia, come si vedrà nelle sezioni successive, le prestazioni riportate da questi metodi sono state sottoposte a una revisione critica severa che ne ha ridimensionato significativamente la portata.

Metodi statistici e classici

L'ultima famiglia comprende metodi non basati su deep learning, la cui rilevanza è stata rivalutata drasticamente dalla letteratura recente. Isolation Forest costruisce alberi di decisione casuali e misura la profondità media necessaria per isolare un'osservazione: le anomalie, essendo rare e distinte, vengono isolate in pochi split. Il metodo è efficace su anomalie puntuali ma fatica a catturare anomalie contestuali (valori normali in assoluto, anomali nel contesto temporale) senza un adeguato feature engineering sulla finestra temporale [23].

Local Outlier Factor (LOF) calcola la densità locale di ciascun punto rispetto ai suoi k-nearest neighbors, assegnando un punteggio di anomalia ai punti in regioni a bassa densità. La sensibilità al parametro $k$ è il limite principale: valori troppo bassi generano instabilità, valori troppo alti mascherano anomalie locali. In pratica, la scelta di $k$ richiede validazione su dati specifici del dominio [23].

Matrix Profile, sviluppato da Yeh et al., calcola la distanza euclidea tra ogni sottosequenza di lunghezza $m$ e la sua sottosequenza più simile nell'intera serie. L'algoritmo STOMP garantisce complessità $O(n^2)$ per il calcolo esatto, con varianti approssimate (SCRIMP++) che raggiungono performance sub-quadratiche. Il vantaggio distintivo è l'assenza di parametri oltre la lunghezza della sottosequenza, e la capacità di rilevare discord (sottosequenze senza match simili) in modo esatto e deterministico.

PCA (Principal Component Analysis) opera proiettando i dati multivariati sulle componenti principali e misurando l'errore di ricostruzione nello spazio ridotto. Come dimostrato da Sarfraz et al. [22], questo approccio lineare raggiunge prestazioni comparabili ai metodi deep su diversi benchmark standard, un risultato che ha ridefinito le aspettative sulla complessità necessaria per il TSAD.

Prima di confrontare le prestazioni di queste famiglie, è necessario affrontare un problema fondamentale: le metriche con cui i metodi sono stati storicamente valutati.

La crisi delle metriche di valutazione

La sezione precedente ha descritto metodi che, sulla carta, raggiungono F1-score superiori al 90% sui benchmark standard. Tuttavia, una serie di lavori pubblicati tra il 2022 e il 2024 ha dimostrato che questi risultati sono sistematicamente gonfiati da un protocollo di valutazione difettoso: il point-adjust F1.

Il problema del point-adjust F1

Il protocollo point-adjust (PA) funziona così: se un segmento anomalo composto da $n$ punti consecutivi viene rilevato anche in un solo punto, tutti gli $n$ punti vengono considerati correttamente classificati. Kim et al. [15] hanno dimostrato formalmente che questo protocollo è fondamentalmente viziato: un generatore di anomaly score casuale ottiene prestazioni comparabili ai metodi stato dell'arte quando valutato con PA-F1. Un modello non addestrato raggiunge performance quasi indistinguibili da quelle dei metodi pubblicati [15].

La gravità del problema è stata quantificata da Ghorbani et al. [16] con la metrica PATE (Proximity-Aware Time series anomaly Evaluation): modelli come Anomaly Transformer e DCdetector, che raggiungono PA-F1 di 0.91 su SMD, collassano a PATE score di circa 0.06, il rapporto tra PA-F1 e PATE è superiore a un ordine di grandezza. Il ranking si inverte completamente: metodi semplici come USAD e LSTM standard ottengono PATE score significativamente superiori (0.71-0.73 su SWaT) perché producono detection temporalmente coerenti, non singoli punti isolati all'interno di segmenti anomali [16].

Metriche alternative: VUS e oltre

La comunità ha proposto diverse alternative. Schmidl et al. [17] hanno analizzato 20 metriche di valutazione, stabilendo una tassonomia e concludendo che le misure indipendenti dalla soglia (AUC-ROC, AUC-PR) sono più adatte delle metriche point-based. La famiglia VUS (Volume Under the Surface), proposta da Paparrizos et al. [18], estende AUC-PR in modo parameter-free e threshold-independent, ed è stata adottata come metrica primaria dal benchmark TSB-AD (NeurIPS 2024) [19].

IBM Research ha proposto il Balanced Point Adjustment (BA) [20], che penalizza i falsi positivi con garanzie formali assiomatiche, offrendo una correzione al PA piuttosto che un suo completo abbandono. Lavori recenti a ICLR 2026 [21] utilizzano VUS-PR come metrica primaria con protocolli di partizionamento rigorosi, segnalando che le venue di primo livello hanno assorbito le lezioni della crisi valutativa.

L'implicazione pratica è significativa: i risultati pubblicati prima del 2022 che utilizzano PA-F1 come metrica primaria devono essere interpretati con estrema cautela. Il campo sta convergendo su VUS-PR come standard, ma la transizione è ancora in corso e molti lavori recenti continuano a riportare PA-F1 per compatibilità con la letteratura precedente.

Baseline semplici vs. deep learning: il dibattito aperto

Il risultato più provocatorio degli ultimi anni proviene da un position paper presentato a ICML 2024 da Sarfraz et al. [22]. Gli autori hanno dimostrato che l'errore di ricostruzione PCA (un metodo lineare) raggiunge F1=0.833 su SWaT, superando GDN (0.810) e TranAD (0.799). Il risultato più sconcertante riguarda la distillazione: quando modelli come GDN e TranAD vengono compressi in singoli perceptron lineari, l'F1 non cambia significativamente (GDN: 0.810→0.808; TranAD: 0.799→0.800). La conclusione è che i modelli deep stato dell'arte apprendono effettivamente mappature lineari, e la complessità architetturale non aggiunge beneficio misurabile [22].

Il benchmark TSB-AD (NeurIPS 2024) [19] ha confermato questo quadro su scala più ampia: 1.070 serie temporali da 40 dataset, 40 algoritmi valutati con VUS-PR. Per il rilevamento univariato, più della metà dei 12 metodi migliori sono approcci statistici, con Sub-PCA in testa. Solo 2 metodi neurali (USAD, CNN) e 1 foundation model (MOMENT) compaiono nel tier superiore. Per il caso multivariato, le reti neurali mostrano maggiore competitività (CNN e OmniAnomaly ai posti 2° e 3°), ma i metodi statistici restano nella fascia alta [19].

Rewicki et al. [23] hanno corroborato questi risultati con un confronto rigoroso tra sei metodi deep e classici: Isolation Forest e LOF raggiungono F1 comparabili ai metodi deep quando gli iperparametri vengono ottimizzati equamente. I metodi deep mostrano un vantaggio reale solo su dati multivariati ad alta dimensionalità con dipendenze temporali complesse [23]. Analogamente, studi su metodi basati su alberi decisionali [24] hanno dimostrato che approcci evolutivi tree-based eguagliano il deep learning su dati univariati, specialmente quando i dataset sono piccoli e il tasso di anomalia è inferiore al 10%.

La conclusione operativa non è che il deep learning sia inutile per il TSAD, ma che la scelta del metodo deve essere guidata dalle caratteristiche del problema: dimensionalità, volume dei dati, complessità delle dipendenze temporali, vincoli computazionali. Per dati univariati o a bassa dimensionalità, metodi statistici e tree-based rappresentano la scelta razionale di default. Per dati multivariati ad alta dimensionalità con pattern temporali complessi, le architetture deep, in particolare USAD e OmniAnomaly, giustificano il costo computazionale aggiuntivo.

Foundation model per serie temporali: promesse e limiti

I foundation model per serie temporali (TSFM), TimesFM [25], Chronos [26], MOMENT [27], hanno generato aspettative elevate: modelli pre-addestrati su miliardi di data point temporali, capaci di zero-shot o few-shot inference su task downstream, compreso il rilevamento anomalie.

La realtà si è rivelata più sobria. Uno studio critico [28] ha valutato cinque famiglie di TSFM (MOMENT, Chronos, TimesFM, Time-MoE, TSPulse) per anomaly detection, concludendo che le loro prestazioni non differiscono significativamente da baseline one-liner: varianza su finestra mobile e differenza quadratica. Le rappresentazioni degli strati finali risultano sovra-adattate all'obiettivo di pre-training (forecasting), le teste di ricostruzione riproducono fedelmente anche le anomalie, e le teste di previsione falliscono su orizzonti futuri incerti [28].

MOMENT [27] rappresenta il caso più favorevole: su 248 serie temporali UCR, con linear probing raggiunge Adjusted Best F1 di 0.628 e VUS-ROC di 0.684. Tuttavia, un baseline k-NN ottiene VUS-ROC di 0.706 (superiore), pur con F1 inferiore a 0.554. Al momento della valutazione TSB-AD (dati fino a metà 2024) [19], MOMENT era l'unico TSFM a comparire nel tier superiore per il caso univariato. Un confronto diretto [29] tra TimeGPT, FPT, Time-MOE, MOIRAI e Chronos su cinque dataset industriali ha mostrato che XGBoost con feature ingegnerizzate supera tutti i TSFM (F1 standard senza point-adjust: 0.94 su Pulp, 0.87 su SMD, 0.80 su MSL), sebbene i risultati vadano interpretati nel contesto del protocollo di valutazione specifico utilizzato dagli autori.

L'approccio più promettente sembra essere l'uso dei TSFM come feature extractor piuttosto che come detector end-to-end. THEMIS [30] utilizza embedding congelati di Chronos con detector non supervisionati (LOF, decomposizione spettrale), ottenendo risultati competitivi su MSL in regime zero-shot. Questo paradigma, embedding pre-addestrati + classificatore semplice, rappresenta un compromesso pragmatico che sfrutta le rappresentazioni apprese senza soffrire dei limiti delle teste task-specific.

Dal benchmark alla produzione: il gap industriale

Le sezioni precedenti hanno analizzato il panorama metodologico attraverso la lente dei benchmark accademici. Il deployment in produzione introduce sfide addizionali che i benchmark non catturano e che, in molti casi, sono più determinanti della scelta dell'algoritmo.

Müller (Microsoft) [1] identifica nove gap critici tra ricerca e produzione. Il primo è la modalità di valutazione: i benchmark accademici operano in batch (il modello ha accesso all'intera serie temporale), mentre la produzione richiede streaming, dove solo i dati storici informano le predizioni e la detection deve avvenire con latenza limitata. Il secondo riguarda la proliferazione dei modelli: le pipeline accademiche addestrano un modello per serie temporale, ma un sistema industriale può avere decine di migliaia di serie, rendendo impraticabile l'approccio one-model-per-series.

La valutazione di TimeSeriesBench [31] su 168 configurazioni ha confermato questi gap: algoritmi che eccellono in valutazione batch degradano significativamente in streaming, e la non-stazionarietà dei dati reali, con nuove serie temporali che emergono quotidianamente, viola l'assunzione di distribuzione stabile su cui molti metodi si basano.

Ulteriori sfide industriali includono la soglia di detection (nessun benchmark accademico affronta il problema della scelta e dell'adattamento dinamico della soglia in produzione), l'explainability (un operatore non agirà su un alert senza capirne la causa), il feedback loop umano (le etichette degli operatori devono retroagire sul modello), e la gestione delle anomalie condizionali, che sono anomale solo in un contesto specifico (es. un picco di carico è anomalo di notte ma normale durante un batch schedulato) [31].

La TimeEval evaluation [3] ha testato 71 algoritmi su 967 serie temporali confermando che nessun metodo domina universalmente e che le prestazioni dipendono criticamente dal tipo di anomalia, dalla dimensionalità e dalle caratteristiche di dominio. Questa osservazione, combinata con i gap industriali descritti, suggerisce che il valore aggiunto in produzione risiede meno nella scelta dell'algoritmo e più nella progettazione dell'intera pipeline: preprocessing, feature engineering, selezione del modello basata sulle caratteristiche dei dati, calibrazione della soglia, monitoraggio del model drift, e integrazione con i workflow operativi.

Direzioni future e sintesi

L'analisi condotta in questo articolo evidenzia tre dinamiche convergenti che stanno ridefinendo il campo del TSAD. La prima è la transizione verso metriche di valutazione affidabili: VUS-PR si sta affermando come standard nelle venue di primo livello [19, 21], e questa convergenza renderà progressivamente possibile confrontare i metodi su basi solide, invalidando al contempo una parte significativa dei risultati storici basati su PA-F1. La seconda dinamica è la rivalutazione dei metodi classici: l'evidenza accumulata da TSB-AD [19], dal position paper ICML [22] e dagli studi comparativi [23, 24] indica che la complessità architetturale non è un proxy affidabile per l'efficacia, e che la scelta del metodo deve essere guidata dalle caratteristiche specifiche dei dati, dimensionalità, volume, tipologia di anomalia, vincoli computazionali.

La terza dinamica riguarda il ruolo dei foundation model: nonostante le aspettative, i TSFM non hanno ancora dimostrato un vantaggio strutturale per il TSAD [28, 29]. L'approccio più promettente, utilizzarli come feature extractor con classificatori semplici [30], suggerisce che il valore dei TSFM risieda nelle rappresentazioni apprese, non nelle teste task-specific. Restano aperti problemi critici per il deployment industriale: streaming detection a bassa latenza, gestione della proliferazione di modelli, soglie adattive, explainability e integrazione del feedback umano [1]. Il progresso reale, in produzione, dipenderà meno da nuove architetture e più dalla maturazione dell'intera catena ingegneristica attorno all'anomaly detection.

Riferimenti

[1] A. C. Müller, "Open Challenges in Time Series Anomaly Detection: An Industry Perspective," arXiv:2502.05392, 2025. https://arxiv.org/abs/2502.05392

[2] K. Choi, J. Yi, C. Park, S. Yoon, "Deep Learning for Time-Series Anomaly Detection: A Survey," ACM Computing Surveys, Vol. 56, No. 1, 2024. https://doi.org/10.1145/3631531

[3] S. Schmidl, P. Wenig, T. Papenbrock, "Anomaly Detection in Time Series: A Comprehensive Evaluation," Proc. VLDB Endowment, 15(9), 2022. http://vldb.org/pvldb/vol15/p1779-wenig.pdf

[4] Y. Su et al., "Robust Anomaly Detection for Multivariate Time Series through Stochastic Recurrent Neural Network," Proc. KDD, 2019. https://doi.org/10.1145/3292500.3330672

[5] K. Hundman et al., "Detecting Spacecraft Anomalies Using LSTMs and Nonparametric Dynamic Thresholding," Proc. KDD, 2018. https://doi.org/10.1145/3219819.3219845

[6] A. P. Mathur, N. O. Tippenhauer, "SWaT: A Water Treatment Testbed for Research and Training on ICS Security," Proc. CySWater, 2016.

[7] A. Abdulaal et al., "Practical Approach to Asynchronous Multivariate Time Series Anomaly Detection and Localization," Proc. KDD, 2021.

[8] Q. Wen et al., "A Survey on Time Series Anomaly Detection with Deep Learning," arXiv:2211.05244, 2024. https://arxiv.org/abs/2211.05244

[9] P. Malhotra et al., "LSTM-Based Encoder-Decoder for Multi-Sensor Anomaly Detection," ICML Workshop on Anomaly Detection, 2016. https://arxiv.org/abs/1607.00148

[10] J. Audibert et al., "USAD: UnSupervised Anomaly Detection on Multivariate Time Series," Proc. KDD, 2020. https://doi.org/10.1145/3394486.3403392

[11] J. Xu et al., "Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy," Proc. ICLR, 2022. https://arxiv.org/abs/2110.02642

[12] S. Tuli, G. Casale, N. R. Jennings, "TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data," Proc. VLDB Endowment, 2022. https://arxiv.org/abs/2201.07284

[13] Y. Yang et al., "DCdetector: Dual Attention Contrastive Representation Learning for Time Series Anomaly Detection," Proc. KDD, 2023. https://arxiv.org/abs/2306.10347

[14] H. Wu et al., "TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis," Proc. ICLR, 2023. https://arxiv.org/abs/2210.02186

[15] S. Kim et al., "Towards a Rigorous Evaluation of Time-Series Anomaly Detection," Proc. AAAI, 2022. https://ojs.aaai.org/index.php/AAAI/article/view/20680

[16] R. Ghorbani et al., "PATE: Proximity-Aware Time Series Anomaly Evaluation," Proc. KDD, 2024. https://dl.acm.org/doi/10.1145/3637528.3671971

[17] S. Schmidl et al., "Navigating the Metric Maze: A Taxonomy of Evaluation Metrics for Anomaly Detection in Time Series," Data Mining and Knowledge Discovery, 2023. https://link.springer.com/article/10.1007/s10618-023-00988-8

[18] J. Paparrizos et al., "Volume Under the Surface: A New Accuracy Evaluation Measure for Time-Series Anomaly Detection," Proc. VLDB Endowment, 2022. https://arxiv.org/abs/2009.13807

[19] Q. Liu, J. Paparrizos, "The Elephant in the Room: Towards A Reliable Time-Series Anomaly Detection Benchmark," Proc. NeurIPS (Datasets and Benchmarks Track), 2024. https://arxiv.org/abs/2212.13105

[20] K. Chiu et al., "Towards Unbiased Evaluation of Time-series Anomaly Detector," NeurIPS 2024 Workshop, 2024. https://arxiv.org/abs/2409.13053

[21] J. Lee et al., "Point-wise Anomaly Detection via Calibrated Score," Proc. ICLR, 2026. https://openreview.net/forum?id=calibrated-score-iclr2026

[22] S. Sarfraz et al., "Position: Quo Vadis, Unsupervised Time Series Anomaly Detection?" Proc. ICML, 2024. https://arxiv.org/abs/2405.02678

[23] F. Rewicki, J. Denzler, J. Niebling, "Is it worth it? Comparing six deep and classical methods for unsupervised anomaly detection in time series," Applied Intelligence, 2024. https://doi.org/10.1007/s10489-024-05814-4

[24] M. Hempel et al., "Can Tree Based Approaches Surpass Deep Learning in Anomaly Detection? A Benchmarking Study," arXiv:2402.07281, 2024. https://arxiv.org/abs/2402.07281

[25] A. Das et al., "A decoder-only foundation model for time-series forecasting," arXiv:2310.10688, 2023. https://arxiv.org/abs/2310.10688

[26] A. F. Ansari et al., "Chronos: Learning the Language of Time Series," arXiv:2403.07815, 2024. https://arxiv.org/abs/2403.07815

[27] M. Goswami et al., "MOMENT: A Family of Open Time-series Foundation Models," Proc. ICML, 2024. https://arxiv.org/abs/2402.03885

[28] S. Liu et al., "When Foundation Models are One-Liners: Limitations and Future Directions for Time Series Anomaly Detection," OpenReview, 2025. https://openreview.net/forum?id=H27kvyG4qf

[29] S. Rashidi et al., "Time Series Foundational Models: Their Role in Anomaly Detection and Prediction," arXiv:2412.19286, 2024. https://arxiv.org/abs/2412.19286

[30] A. Darban et al., "THEMIS: Unlocking Pretrained Knowledge with Foundation Model Embeddings for Anomaly Detection in Time Series," arXiv:2510.03911, 2025. https://arxiv.org/abs/2510.03911

[31] H. Si et al., "TimeSeriesBench: An Industrial-Grade Benchmark for Time Series Anomaly Detection Models," arXiv:2402.10802, 2024. https://arxiv.org/abs/2402.10802

Time Series Anomaly Detection