Deltahedge

Executive summary

Estrarre automaticamente i nomi di persone, organizzazioni, luoghi e altre entità rilevanti da un testo è un problema fondamentale per qualsiasi sistema che debba comprendere documenti scritti. Negli ultimi dieci anni, le tecniche per risolvere questo problema si sono evolute radicalmente: dai primi sistemi basati su regole statistiche, si è passati a modelli che apprendono direttamente dal testo, fino ai più recenti sistemi capaci di riconoscere categorie di entità mai viste prima senza alcun addestramento specifico. Questa analisi ripercorre l'evoluzione delle architetture principali, ne confronta i risultati su test di valutazione standardizzati e identifica i problemi ancora aperti, con particolare attenzione alle implicazioni per l'integrazione in sistemi di produzione. La scelta del modello più adatto dipende dal contesto applicativo, dalla disponibilità di dati annotati e dai vincoli di costo e latenza, fattori che questa analisi permette di valutare sistematicamente.

Background

La formalizzazione moderna del riconoscimento di entità nominate risale al Message Understanding Conference (MUC-6, 1995), che per prima ha definito il task di identificazione e classificazione di menzioni di entità, persone, organizzazioni, luoghi, all'interno di testo non strutturato. La successiva CoNLL-2003 Shared Task [2] ha stabilito il benchmark di riferimento per la valutazione: un corpus annotato di testo giornalistico Reuters con quattro tipi di entità (PER, ORG, LOC, MISC) e la metrica entity-level F1 come standard. Tassonomie più granulari possono definire decine o centinaia di tipi [1]. OntoNotes 5.0 [3] ha esteso la valutazione a 18 tipi di entità su testi multi-genere (newswire, broadcast, web, conversazione telefonica), introducendo un livello di complessità significativamente superiore.

Il NER costituisce un componente fondamentale in pipeline di information extraction, question answering, knowledge graph construction e, più recentemente, in sistemi agentic basati su large language model. L'evoluzione degli approcci riflette le trasformazioni più ampie del campo NLP. I sistemi basati su feature engineering manuale e Conditional Random Fields (CRF) hanno dominato fino al 2015. L'introduzione di architetture neurali, in particolare BiLSTM-CRF [4, 5], ha eliminato la dipendenza da feature ingegnerizzate. Il paradigma del pre-training e fine-tuning, reso dominante da BERT [6], ha segnato un ulteriore salto qualitativo. Più recentemente, l'emergere di large language model ha aperto nuove possibilità per NER zero-shot e open-vocabulary [7, 8], ridefinendo i confini di ciò che è possibile senza supervisione specifica per task.

Tassonomia degli approcci

Sequence labeling classico: BiLSTM-CRF

L'architettura BiLSTM-CRF, introdotta simultaneamente da Lample et al. [4] e Ma & Hovy [5] nel 2016, ha rappresentato il primo approccio puramente neurale competitivo per NER. Il modello combina tre componenti: una rappresentazione a livello di carattere (tramite LSTM o CNN) che cattura informazioni morfologiche, un encoder bidirezionale LSTM che modella il contesto sequenziale, e un layer CRF che impone vincoli strutturali sulla sequenza di etichette (ad esempio, impedendo transizioni invalide come B-PER → I-ORG nello schema BIO).

Il contributo fondamentale di questa architettura è stato dimostrare che un sistema end-to-end, senza alcun feature engineering manuale, gazetteer o risorsa linguistica esterna, poteva raggiungere risultati competitivi con lo stato dell'arte precedente. Lample et al. [4] hanno riportato un F1 di 90.94 su CoNLL-2003, mentre Ma & Hovy [5] hanno raggiunto 91.21 combinando CNN per le feature a livello di carattere con BiLSTM-CRF. Questi risultati hanno effettivamente chiuso l'era dei modelli basati su feature engineering per NER, stabilendo BiLSTM-CRF come architettura dominante per i successivi tre anni.

Il principale limite di BiLSTM-CRF risiede nella natura sequenziale dell'encoding LSTM, che impedisce la parallelizzazione e limita la capacità di catturare dipendenze a lungo raggio. Inoltre, le rappresentazioni word embedding statiche (GloVe, Word2Vec) utilizzate come input non catturano la polisemia contestuale, un problema particolarmente rilevante per il NER dove la stessa forma superficiale può riferirsi a entità di tipo diverso a seconda del contesto.

Fine-tuning di modelli transformer

La pubblicazione di BERT [6] nel 2018 ha trasformato radicalmente l'approccio al NER. Il paradigma pre-training/fine-tuning consente di sfruttare conoscenza linguistica appresa su miliardi di token di testo non annotato, adattandola al task specifico con un dataset supervisionato relativamente piccolo. Per il NER, il fine-tuning di BERT-Large su CoNLL-2003 ha raggiunto un F1 di 92.4, un miglioramento di circa 1.2 punti rispetto allo stato dell'arte precedente [6].

I vantaggi dei modelli transformer per NER sono molteplici. L'attenzione bidirezionale su tutta la sequenza consente di catturare dipendenze a lungo raggio senza le limitazioni delle LSTM. Il pre-training su larga scala produce rappresentazioni contestuali che disambiguano naturalmente le entità polisemiche. Infine, la parallelizzazione dell'architettura transformer riduce significativamente i tempi di training rispetto a BiLSTM-CRF.

Successive iterazioni hanno consolidato questo approccio. RoBERTa ha migliorato il pre-training eliminando il next sentence prediction objective e aumentando i dati di training. DeBERTa [9] ha introdotto l'attenzione disgiunta e un enhanced mask decoder, portando ulteriori miglioramenti incrementali. Il framework Flair [10], sviluppato alla Humboldt University in collaborazione con Zalando Research, ha introdotto le contextual string embeddings, rappresentazioni a livello di carattere derivate dagli stati interni di language model bidirezionali, raggiungendo 93.09 F1 su CoNLL-2003 e dimostrando che la combinazione di rappresentazioni contestuali di diversa natura (stacked embeddings) può superare i singoli modelli.

Ad oggi, il fine-tuning di encoder transformer pre-trained rimane l'approccio dominante per NER supervisionato quando si dispone di dati annotati per le categorie di entità target, con risultati che si attestano stabilmente sopra 93 F1 su CoNLL-2003.

Approcci span-based e MRC-based

La formulazione tradizionale del NER come sequence labeling (assegnare un'etichetta BIO a ogni token) presenta limiti strutturali per il NER annidato, dove un'entità può contenere altre entità (ad esempio, "Università di Roma" contiene l'entità LOC "Roma" all'interno dell'entità ORG). Gli approcci span-based e MRC-based affrontano questo problema riformulando il task.

Li et al. [11] hanno proposto di trasformare il NER in un problema di machine reading comprehension: ogni tipo di entità viene espresso come una domanda in linguaggio naturale (ad esempio, "Trova i nomi di persona nel passaggio"), e il modello estrae le risposte dal testo. Questa formulazione gestisce naturalmente il NER annidato, poiché query diverse possono estrarre span sovrapposti. Su OntoNotes 5.0, l'approccio MRC-NER ha raggiunto 92.33 F1, con risultati particolarmente competitivi sui benchmark di nested NER: 85.98 F1 su ACE2004 e 86.88 su ACE2005, come riportato nelle tabelle sperimentali del paper [11].

SpanNER [12] ha adottato una strategia diversa: enumerare tutti i possibili span candidati nel testo e classificare ciascuno indipendentemente. Questo elimina la dipendenza dallo schema di etichettatura BIO e consente la predizione diretta a livello di span. Li et al. [13] hanno ulteriormente unificato flat, nested e discontinuous NER attraverso una formulazione word-word relation classification su una griglia 2D (W2NER), raggiungendo 93.28 F1 su CoNLL-2003 e risultati competitivi su tutti e tre i formati di NER.

I modelli più recenti per nested NER continuano a progredire. SSAM (Span Spatial Attention Model, 2025) ha raggiunto 89.04 F1 su ACE2005 e 81.82 su GENIA [24], benchmark che rimangono significativamente più sfidanti di CoNLL-2003 per la complessità della struttura annidante.

Modelli specializzati per NER open-vocabulary

Il limite principale del NER supervisionato è la rigidità della tassonomia: il modello può riconoscere solo i tipi di entità presenti nel training set. Questa restrizione è incompatibile con molti scenari applicativi dove i tipi di entità variano tra domini, clienti o task. I modelli descritti in questa sezione risolvono il problema mantenendo architetture compatte e specializzate, a differenza degli approcci basati su LLM generativi trattati nella sezione successiva.

GLiNER [7], presentato a NAACL 2024, ha introdotto un approccio radicalmente diverso: un encoder bidirezionale compatto che accetta descrizioni testuali arbitrarie dei tipi di entità come input a tempo di inferenza, senza necessità di fine-tuning. Il modello confronta le rappresentazioni dei tipi di entità con gli span del testo, selezionando le corrispondenze migliori. GLiNER supera ChatGPT e modelli LLM fine-tuned su NER zero-shot, pur essendo ordini di grandezza più piccolo e capace di operare su CPU.

L'evoluzione successiva è particolarmente rilevante per applicazioni in produzione. GLiNER Bi-Encoder [14], pubblicato nel febbraio 2026 (preprint, non ancora peer-reviewed), ha disaccoppiato la codifica delle etichette dalla codifica del contesto, risolvendo il bottleneck di scalabilità fondamentale dell'approccio originale. Il risultato è un miglioramento di throughput fino a 130x con 1.024 etichette rispetto all'architettura uni-encoder, rendendo praticabile il NER con milioni di tipi di entità senza costo quadratico.

UniversalNER [8], presentato a ICLR 2024 da ricercatori USC e Microsoft Research, ha adottato una strategia complementare: distillare la capacità NER di ChatGPT in modelli open-source più piccoli (LLaMA 7B/13B) attraverso instruction tuning mirato. UniNER-7B raggiunge un F1 medio su 43 dataset in 9 domini che supera ChatGPT di 7-9 punti assoluti [8]. La dimostrazione che la distillazione mirata può superare il modello teacher su task strutturati è un risultato significativo.

NuNER [15], presentato a EMNLP 2024, ha esplorato una terza via: pre-training contrastivo di un encoder RoBERTa su dati annotati automaticamente da GPT-3.5. Il modello risultante supera GPT-3.5 e compete con GPT-4 in regime few-shot, dimostrando che etichette silver generate da LLM possono produrre encoder specializzati altamente efficaci.

NER tramite modelli generativi

L'applicazione diretta di LLM generativi al NER ha seguito due direttrici principali: il prompting in-context e il fine-tuning con istruzioni. A differenza dei modelli specializzati della sezione precedente, questi approcci utilizzano modelli generativi general-purpose, con implicazioni diverse in termini di costo, latenza e flessibilità.

GPT-NER [16], presentato a NAACL 2025 Findings, ha proposto di trattare il NER come un task di generazione testuale, convertendo le sequenze in un formato speciale con token marcatori per le entità. Il contributo chiave è l'introduzione di un meccanismo di self-verification che riduce le allucinazioni nella predizione delle entità, un problema critico quando si usa la generazione per un task che richiede precisione. GPT-NER è il primo approccio LLM-based a raggiungere performance comparabili con i modelli supervisionati su 5 dataset NER standard, con vantaggi significativi in scenari low-resource.

GoLLIE [17], presentato a ICLR 2024, ha dimostrato che codificare le linee guida di annotazione come schemi Python strutturati consente a modelli relativamente piccoli (Code-Llama) di superare LLM molto più grandi su information extraction zero-shot. L'intuizione è che il formato codice fornisce una specifica non ambigua del task, riducendo l'ambiguità inerente alle istruzioni in linguaggio naturale.

Tuttavia, i risultati su benchmark consolidati evidenziano un gap persistente. Su CoNLL-2003, GPT-4 in zero-shot raggiunge circa 70-80 F1, contro i 93+ dei modelli supervisionati [16]. Il divario si riduce significativamente in scenari few-shot e cross-domain, dove la capacità di generalizzazione dei LLM diventa un vantaggio concreto, ma per applicazioni che richiedono massima precisione su tassonomie note, il fine-tuning di encoder rimane superiore.

Benchmark e risultati sperimentali

Una nota metodologica è necessaria prima di esaminare i risultati. L'analisi CoNLL# [18], pubblicata a LREC-COLING 2024, ha dimostrato che il test set originale di CoNLL-2003 contiene errori di annotazione significativi. La correzione di questi errori produce un miglioramento medio di oltre 1 punto F1 su tutti i modelli valutati. Questo risultato mette in discussione la precisione dei ranking di leaderboard sopra ~93 F1 e suggerisce che il margine di miglioramento residuo su questo benchmark è in parte attribuibile a rumore nei dati, non a limitazioni dei modelli. I valori nella tabella seguente devono essere interpretati con questa consapevolezza.

Anno	Modello	F1 (CoNLL-2003)	Riferimento
2016	BiLSTM-CRF	90.94	Lample et al. [4]
2016	BiLSTM-CNN-CRF	91.21	Ma & Hovy [5]
2018	Flair (contextual string embeddings)	93.09	Akbik et al. [10]
2019	BERT-Large fine-tuned	92.4	Devlin et al. [6]
2022	W2NER	93.28	Li et al. [13]

Su OntoNotes 5.0, benchmark più complesso con 18 tipi di entità e testi multi-genere, i risultati sono significativamente inferiori: i migliori modelli basati su encoder raggiungono circa 90-92 F1. Il divario con CoNLL-2003 quantifica la difficoltà aggiuntiva introdotta da tassonomie più ricche e testi di genere eterogeneo.

Per il NER annidato, i benchmark ACE2005 e GENIA rimangono i riferimenti principali. I risultati migliori, 89.04 F1 su ACE2005 e 81.82 su GENIA (SSAM, 2025) [24], evidenziano che il problema delle entità annidate resta significativamente più difficile del NER piatto, con un margine di oltre 10 punti F1 rispetto ai risultati su CoNLL-2003.

Un aspetto assente dai benchmark tradizionali ma critico per applicazioni in produzione riguarda latenza e costo computazionale. A titolo indicativo: un encoder BERT-base processa un documento di 512 token in 5-10 ms su GPU, GLiNER opera su CPU con latenze nell'ordine delle decine di millisecondi, mentre l'estrazione via LLM generativo richiede 500-2000 ms per documento a seconda del modello e del provider. Il rapporto di costo tra un encoder locale e un'API LLM può superare i due ordini di grandezza per volumi elevati.

Problemi aperti

Entità annidate e discontinue

Il NER annidato, dove un'entità ne contiene un'altra, e il NER discontinuo, dove un'entità è composta da segmenti non contigui del testo, rimangono problemi parzialmente risolti. Uno studio presentato a EMNLP 2024 [19] ha mostrato che i LLM non superano i modelli BERT-based su nested NER, nonostante i vantaggi su task NER piatti in regime zero-shot. Gli approcci più efficaci restano architetture specializzate come W2NER [13] e SSAM [24], che formulano esplicitamente le relazioni strutturali tra span.

Lingue a basse risorse

Il NER in lingue con scarse risorse annotate presenta sfide specifiche: assenza di segnali di capitalizzazione in molte scritture (es. lingue indiche), polisemia contestuale elevata e catastrophic forgetting durante il transfer cross-linguale. Le strategie di mitigazione più promettenti includono metodi PEFT (LoRA, QLoRA) per adattamento efficiente, e il transfer da modelli multilingue come XLM-RoBERTa, che raggiunge F1 medio tra 65 e 80 su WikiANN NER a seconda della lingua [20]. Il workshop LoResLM 2025, dedicato specificamente a queste problematiche, ha accettato 35 contributi, segnalando un investimento crescente della comunità scientifica.

Adattamento di dominio

Il gap di performance tra NER in-domain e out-of-domain rimane ampio. Un modello addestrato su testo giornalistico e testato su testo biomedico subisce un degrado significativo. Le strategie di mitigazione includono il pre-training di dominio, PubMedBERT [21] per il biomedico raggiunge 93.33 F1 su BC5CDR-Chemical, superiore a BERT generico, l'instruction tuning con linee guida dominio-specifiche (approccio GoLLIE [17]) e la distillazione mirata (approccio UniversalNER [8]). La scelta tra queste strategie dipende dalla disponibilità di dati annotati, dal numero di tipi di entità e dai vincoli di latenza dell'applicazione target.

Calibrazione e confidenza

Per sistemi NER in produzione, la calibrazione dei punteggi di confidenza è un aspetto spesso trascurato ma critico per il processo decisionale downstream. I modelli basati su encoder transformer producono logit che possono essere calibrati tramite temperature scaling o Platt scaling, fornendo probabilità interpretabili. I modelli LLM generativi, al contrario, offrono log-probability dei token che non corrispondono direttamente alla confidenza sull'entità estratta. Questa asimmetria è particolarmente rilevante in pipeline dove la decisione di accettare o rifiutare un'entità dipende da una soglia di confidenza.

Ambiguità e entity linking

La polisemia (stessa forma superficiale, entità diverse: "Washington" come città, stato, persona o metonimia per il governo statunitense) e la metonimia restano problemi non risolti dal solo NER. La disambiguazione richiede il collegamento a una knowledge base (entity linking), un task accoppiato al NER ma distinto. Sistemi come BLINK [25] hanno dimostrato l'efficacia di approcci bi-encoder per entity linking su larga scala, e la ricerca recente punta a unificare riconoscimento e disambiguazione in un unico passaggio, sebbene il problema resti aperto specialmente per entità emergenti non presenti nelle knowledge base esistenti.

NER nelle pipeline LLM moderne

L'integrazione del NER in pipeline basate su LLM sta ridefinendo le architetture di produzione. A partire dal 2025-2026, i principali provider di LLM supportano output strutturato nativo via JSON Schema constraint. Il constrained decoding, descritto formalmente da Willard e Louf [26], compila lo schema JSON in una macchina a stati finiti, applicando logit masking ai token invalidi: la compliance allo schema è garantita matematicamente, non statisticamente.

Questo cambiamento infrastrutturale ha implicazioni dirette per il NER. Il pattern architetturale emergente prevede tre livelli complementari. Al primo livello, l'estrazione zero-shot via LLM con vincoli di output strutturato fornisce copertura ampia su categorie di entità arbitrarie. Al secondo livello, modelli specializzati come GLiNER o NuNER operano come moduli dedicati per scenari latency-sensitive o high-throughput, essendo capaci di operare su CPU con costi ordini di grandezza inferiori. Al terzo livello, meccanismi di self-verification e LLM-as-judge riducono le allucinazioni nella predizione delle entità. Questo pattern introduce complessità architetturale e richiede un meccanismo di arbitraggio quando i livelli producono risultati discordanti. In pratica, la scelta di attivare il secondo o terzo livello dipende dal budget computazionale, dai requisiti di precisione e dal volume di documenti da elaborare.

Per applicazioni che elaborano dati sensibili, e il NER per definizione estrae informazioni personali come nomi di persone, organizzazioni e luoghi, la scelta tra modelli locali ed API cloud ha implicazioni significative in termini di data residency e conformità normativa (GDPR). Framework NER come spaCy [27] e Flair [10] consentono il deploy completamente on-premise, eliminando il transito di dati verso servizi esterni.

PARSE [22], presentato all'EMNLP 2025 Industry Track da Amazon Science, ha dimostrato che gli schemi JSON progettati per sviluppatori umani sono subottimali per il consumo da parte di LLM, e che l'ottimizzazione automatica degli schemi produce miglioramenti fino al 64.7% nell'accuratezza di estrazione. SLOT [23], nello stesso venue, ha mostrato che un modello Mistral-7B fine-tuned raggiunge il 99.5% di conformità allo schema e il 94.0% di similarità nel contenuto, superando modelli significativamente più grandi su task di estrazione strutturata.

La scelta dell'approccio dipende dal contesto applicativo. Per tassonomie note e stabili con dati di training disponibili, il fine-tuning di encoder transformer rimane la scelta ottimale per precisione e costo computazionale. Per tassonomie variabili, nuove categorie di entità o scenari cross-domain, GLiNER e UniversalNER offrono il miglior compromesso tra flessibilità e performance. Per pipeline agentic dove il NER è un passaggio in un flusso più ampio, l'estrazione via LLM con structured output è la soluzione più naturale, a patto di gestire il costo computazionale e il rischio di hallucination.

Riferimenti

[1] J. Li, A. Sun, J. Han, C. Li, "A Survey on Deep Learning for Named Entity Recognition," IEEE TKDE, 2020. https://arxiv.org/abs/1812.09449

[2] E.F. Tjong Kim Sang, F. De Meulder, "Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition," in Proc. CoNLL, 2003. https://aclanthology.org/W03-0419/

[3] R. Weischedel et al., "OntoNotes Release 5.0," Linguistic Data Consortium, 2013. https://catalog.ldc.upenn.edu/LDC2013T19

[4] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami, C. Dyer, "Neural Architectures for Named Entity Recognition," in Proc. NAACL, 2016. https://arxiv.org/abs/1603.01360

[5] X. Ma, E. Hovy, "End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF," in Proc. ACL, 2016. https://arxiv.org/abs/1603.01354

[6] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," in Proc. NAACL, 2019. https://arxiv.org/abs/1810.04805

[7] U. Zaratiana, N. Tomeh, P. Holat, T. Charnois, "GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer," in Proc. NAACL, 2024. https://aclanthology.org/2024.naacl-long.300/

[8] W. Zhou, S. Zhang, Y. Gu, M. Chen, H. Poon, "UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition," in Proc. ICLR, 2024. https://arxiv.org/abs/2308.03279

[9] P. He, X. Liu, J. Gao, W. Chen, "DeBERTa: Decoding-enhanced BERT with Disentangled Attention," in Proc. ICLR, 2021. https://arxiv.org/abs/2006.03654

[10] A. Akbik, D. Blythe, R. Vollgraf, "Contextual String Embeddings for Sequence Labeling," in Proc. COLING, 2018. https://aclanthology.org/C18-1139/

[11] X. Li, J. Feng, Y. Meng, Q. Han, F. Wu, J. Li, "A Unified MRC Framework for Named Entity Recognition," in Proc. ACL, 2020. https://arxiv.org/abs/1910.11476

[12] J. Fu, X. Huang, P. Liu, "SpanNER: Named Entity Re-/Recognition as Span Prediction," in Proc. ACL, 2021. https://arxiv.org/abs/2106.00641

[13] J. Li et al., "Unified Named Entity Recognition as Word-Word Relation Classification," in Proc. AAAI, 2022. https://arxiv.org/abs/2112.10070

[14] U. Zaratiana et al., "GLiNER Bi-Encoder: The Million-Label NER: Breaking Scale Barriers," arXiv:2602.18487 (preprint), 2026. https://arxiv.org/abs/2602.18487

[15] S. Bogdanov, A. Constantin, T. Bernard, B. Crabbe, E. Bernard, "NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated Data," in Proc. EMNLP, 2024. https://aclanthology.org/2024.emnlp-main.660/

[16] S. Wang et al., "GPT-NER: Named Entity Recognition via Large Language Models," in Findings of NAACL, 2025. https://aclanthology.org/2025.findings-naacl.239/

[17] O. Sainz et al., "GoLLIE: Annotation Guidelines improve Zero-Shot Information Extraction," in Proc. ICLR, 2024. https://arxiv.org/abs/2310.03668

[18] S. Reiss, H. Lehner, M. Danner, A. Auer, M. Granitzer, "CoNLL#: Fine-grained Error Analysis and a Corrected Test Set for CoNLL-03 English," in Proc. LREC-COLING, 2024. https://arxiv.org/abs/2405.11865

[19] "Exploring Nested NER with Large Language Models," in Proc. EMNLP, 2024. https://aclanthology.org/2024.emnlp-main.492/

[20] J. Hu, S. Ruder et al., "XTREME: A Massively Multilingual Multi-task Benchmark," in Proc. ICML, 2020. https://arxiv.org/abs/2003.11080

[21] Y. Gu et al., "Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing," ACM Computing Surveys, 2022. https://arxiv.org/abs/2007.15779

[22] PARSE, "LLM Driven Schema Optimization for Reliable Entity Extraction," in Proc. EMNLP Industry Track, 2025. https://arxiv.org/abs/2510.08623

[23] SLOT, "Structured Output Fine-tuning for Entity Extraction," in Proc. EMNLP Industry Track, 2025. https://aclanthology.org/2025.emnlp-industry.32/

[24] SSAM, "Span Spatial Attention Model for Nested Named Entity Recognition," Nature Scientific Reports, 2025. https://www.nature.com/articles/s41598-025-87722-0

[25] L. Wu, F. Petroni, M. Josifoski, S. Riedel, L. Zettlemoyer, "Scalable Zero-shot Entity Linking with Dense Entity Retrieval," in Proc. EMNLP, 2020. https://arxiv.org/abs/1911.03814

[26] B. Willard, R. Louf, "Efficient Guided Generation for Large Language Models," arXiv:2307.09702, 2023. https://arxiv.org/abs/2307.09702

[27] Explosion AI, "spaCy: Industrial-Strength Natural Language Processing," 2024. https://spacy.io

Named Entity Recognition (NER)