Deltahedge

Executive summary

Quando un sistema di intelligenza artificiale deve rispondere a domande su argomenti specifici, rischia di fornire informazioni imprecise o inventate se si basa esclusivamente su quanto appreso durante la fase di addestramento. Per risolvere questo problema, la ricerca ha sviluppato un approccio che consente al sistema di cercare e consultare documenti pertinenti nel momento stesso in cui genera una risposta, in modo analogo a come un professionista consulta fonti aggiornate prima di formulare un parere. Questo articolo analizza l'evoluzione di tale approccio, dalle prime architetture proposte nel 2020 fino ai sistemi più recenti in grado di ragionare su documenti multipli, valutare criticamente le proprie fonti e adattare la strategia di ricerca alla complessità della domanda. L'analisi mostra che i sistemi più efficaci non si limitano a recuperare informazioni, ma integrano meccanismi di verifica, correzione e composizione che li rendono significativamente più affidabili rispetto sia ai modelli che operano solo sulla propria memoria interna, sia alle prime implementazioni con ricerca documentale semplice.

Background

Il problema centrale nell'impiego di modelli generativi per applicazioni di dominio è la natura statica della loro conoscenza: ogni informazione fattuale è codificata nei parametri della rete al momento dell'addestramento, non aggiornabile se non attraverso cicli di riaddestramento costosi e soggetta a degradazione temporale [1]. Questa limitazione strutturale produce il fenomeno noto come hallucination, in cui il modello genera affermazioni plausibili ma fattuali inesatte, un rischio particolarmente critico in contesti professionali dove l'accuratezza informativa è un requisito non negoziabile. La necessità di integrare fonti di conoscenza esterne, aggiornabili indipendentemente dal modello, ha motivato una linea di ricerca che unisce il recupero documentale alla generazione neurale, culminata nel paradigma oggi noto come Retrieval-Augmented Generation.

Il concetto di augmentare un modello generativo con meccanismi di retrieval ha radici anteriori all'architettura RAG. Il sistema REALM (Retrieval-Augmented Language Model Pre-Training), proposto da Guu et al. nel 2020, ha introdotto per primo l'idea di pre-addestrare un modello di linguaggio con un retriever latente, dimostrando che il segnale di masked language modeling è sufficiente per apprendere in modo non supervisionato quale documento recuperare da un corpus di milioni di voci [2]. Parallelamente, Karpukhin et al. hanno proposto Dense Passage Retrieval (DPR), un framework basato su un'architettura dual-encoder che apprende rappresentazioni dense per query e passaggi, superando il tradizionale BM25 con margini del 9-19% in termini di accuratezza di retrieval sui principali benchmark di open-domain question answering [3]. Questi due contributi hanno posto le basi concettuali e tecniche su cui Lewis et al. hanno costruito il paradigma RAG propriamente detto.

L'architettura transformer [4] ha reso possibile sia la componente di retrieval denso sia quella di generazione condizionata, fornendo il substrato computazionale per modelli che combinano memoria parametrica e non parametrica. La convergenza di questi sviluppi ha prodotto, a partire dal 2020, un'accelerazione nella ricerca su sistemi che accedono dinamicamente a basi di conoscenza esterne durante la fase di inferenza, dando origine a un paradigma oggi considerato una delle strategie principali per rendere i modelli generativi affidabili in contesti di dominio specifico.

Architettura e formulazione del paradigma RAG

Il framework originale

Il lavoro fondazionale di Lewis et al. [1] ha formalizzato il paradigma RAG come la combinazione di una memoria parametrica (un modello seq2seq pre-addestrato) e una memoria non parametrica (un indice vettoriale denso di un corpus documentale). Dato un input $x$, il sistema recupera un insieme di $k$ documenti $z$ dal corpus attraverso un retriever neurale e genera la risposta $y$ condizionando il generatore sia su $x$ sia sui documenti recuperati. La probabilità marginale della risposta assume la forma:

$$p(y|x) \approx \sum_{z \in \text{top-}k} p(z|x) \, p(y|z, x)$$

dove $p(z|x)$ è la distribuzione del retriever sui documenti e $p(y|z, x)$ è la distribuzione del generatore condizionato [1]. Questa formulazione consente di aggiornare la base di conoscenza sostituendo o arricchendo il corpus indicizzato, senza modificare i parametri del modello generativo.

RAG-Sequence e RAG-Token

Lewis et al. hanno proposto due varianti architetturali che differiscono nella granularità con cui i documenti recuperati influenzano la generazione [1]. Nel modello RAG-Sequence, l'insieme dei documenti recuperati resta fisso per l'intera sequenza generata: il modello seleziona i top-$k$ documenti una volta e genera l'intera risposta condizionandosi su ciascun documento separatamente, per poi marginalizzare. Nel modello RAG-Token, il retrieval può variare per ciascun token generato, consentendo al modello di attingere a documenti diversi in punti diversi della risposta. Questa seconda formulazione offre maggiore flessibilità ma introduce complessità computazionale aggiuntiva.

Nei risultati sperimentali riportati dagli autori, RAG-Sequence ha raggiunto un'accuratezza exact match del 44.5% su Natural Questions, superando sia le architetture extractive sia i modelli parametrici puri, mentre RAG-Token ha ottenuto risultati comparabili (44.0%) con vantaggi specifici in task di generazione più articolata [1]. Su TriviaQA, RAG-Sequence ha raggiunto il 56.5% di exact match, stabilendo un nuovo stato dell'arte per i modelli generativi su questo benchmark.

Componenti del sistema

Il retriever nell'architettura originale è basato su DPR [3], che utilizza due encoder BERT indipendenti per query e passaggi. La similarità tra una query $q$ e un passaggio $d$ è calcolata come il prodotto scalare delle rispettive rappresentazioni dense:

$$\text{sim}(q, d) = E_q(q)^\top E_d(d)$$

dove $E_q$ e $E_d$ sono gli encoder di query e documento rispettivamente. Questa formulazione consente il pre-calcolo degli embedding dei documenti e l'uso di indici MIPS (Maximum Inner Product Search) per il retrieval efficiente a scala.

Il generatore è basato su BART [1], un modello encoder-decoder pre-addestrato con obiettivo di denoising autoencoder. I documenti recuperati vengono concatenati all'input e processati dall'encoder, fornendo al decoder un contesto arricchito per la generazione. Izacard e Grave hanno successivamente proposto Fusion-in-Decoder (FiD), un'architettura che processa ciascun passaggio recuperato indipendentemente nell'encoder e fonde le rappresentazioni risultanti nel decoder, ottenendo miglioramenti significativi su Natural Questions e TriviaQA rispetto all'approccio di semplice concatenazione [5].

Strategie di retrieval: da BM25 al late interaction

Retrieval sparso e denso

La qualità del retrieval è determinante per le prestazioni dell'intero sistema RAG. Le strategie di retrieval si collocano lungo uno spettro che va dai metodi sparsi (lessicali) a quelli densi (semantici), con un crescente interesse verso approcci ibridi che combinano i vantaggi di entrambi [6].

I metodi sparsi, esemplificati da BM25, calcolano la rilevanza di un documento sulla base della frequenza dei termini e dell'inversa della frequenza documentale (TF-IDF), eccellendo nel matching lessicale esatto. Il loro principale limite è l'incapacità di catturare relazioni semantiche tra termini non co-occorrenti: una query contenente "automobile" non recupererà documenti che utilizzano esclusivamente "veicolo". I metodi densi, come DPR [3], proiettano query e documenti in uno spazio vettoriale condiviso dove la similarità semantica è catturata dalla vicinanza geometrica, superando il vocabulary mismatch ma introducendo costi computazionali superiori per l'indicizzazione e potenziali difficoltà nel matching di entità rare o terminologia altamente specifica.

Late interaction: il paradigma ColBERT

Un approccio che bilancia efficacia e efficienza computazionale è il late interaction, introdotto da Khattab e Zaharia con ColBERT [7]. A differenza dei modelli dual-encoder che producono un singolo vettore per query e documento, ColBERT genera una rappresentazione per ciascun token e calcola la similarità attraverso un operatore MaxSim:

$$S(q, d) = \sum_{i \in |q|} \max_{j \in |d|} E_q(q_i)^\top E_d(d_j)$$

Questa formulazione conserva l'informazione a livello di token, consentendo un matching più fine-grained rispetto alla singola rappresentazione aggregata, pur mantenendo la possibilità di pre-calcolare gli embedding dei documenti offline [7]. ColBERTv2 ha perfezionato questo approccio con un meccanismo di compressione residuale che riduce significativamente lo spazio di archiviazione degli indici e una strategia di supervisione denoised che migliora la qualità delle rappresentazioni apprese, ottenendo risultati competitivi con i migliori modelli cross-encoder su MS MARCO e BEIR con un costo computazionale notevolmente inferiore [8].

Retrieval ibrido

La ricerca recente ha consolidato l'evidenza che la combinazione di retrieval sparso e denso produce risultati superiori a ciascun metodo individualmente [6, 9]. In un sistema ibrido tipico, i punteggi di BM25 e di un retriever denso vengono combinati attraverso una fusione lineare pesata o un meccanismo di reciprocal rank fusion. Studi empirici indicano che il bilanciamento ottimale varia in funzione del tipo di query: le query fattuali beneficiano maggiormente della componente sparsa (matching lessicale preciso), mentre le query semanticamente complesse traggono vantaggio dalla componente densa [6, 9]. L'evoluzione più recente in questa direzione include framework di calibrazione dinamica dei pesi che utilizzano modelli di linguaggio per valutare l'efficacia dei risultati di ciascuna componente e adattare il bilanciamento per ogni singola query, superando le configurazioni con pesi statici in scenari eterogenei [9].

Un ulteriore livello di raffinamento è rappresentato dal reranking: dopo la fase iniziale di retrieval (ibrido o meno), un modello cross-encoder valuta la coppia (query, documento) con piena attenzione bidirezionale, riordinando i candidati in base a una stima di rilevanza più accurata ma computazionalmente più costosa. Questa architettura a due stadi (retrieval efficiente + reranking preciso) è divenuta uno standard de facto nelle implementazioni RAG in produzione [6].

Varianti architetturali avanzate

Self-RAG: generazione auto-riflessiva

Un limite fondamentale del paradigma RAG classico è il retrieval indiscriminato: il sistema recupera documenti per ogni query indipendentemente dalla necessità effettiva, introducendo rumore quando il modello possiede già conoscenza sufficiente nei propri parametri. Self-RAG, proposto da Asai et al. e presentato come oral a ICLR 2024, affronta questo problema addestrando il modello a decidere autonomamente quando attivare il retrieval e a valutare criticamente sia i documenti recuperati sia il proprio output [10].

Il meccanismo si basa su token speciali denominati reflection token, suddivisi in due categorie: retrieval token, che segnalano la necessità di recuperare informazione esterna, e critique token, che valutano la qualità e la pertinenza del contenuto generato [10]. Durante l'inferenza, il modello genera questi token come parte del flusso di generazione, rendendo il processo di retrieval e valutazione controllabile e adattivo. I risultati sperimentali mostrano che Self-RAG con 7B e 13B parametri supera significativamente ChatGPT e Llama2-chat con retrieval su task di open-domain QA, ragionamento e verifica fattuale, con miglioramenti particolarmente marcati in termini di accuratezza delle citazioni e fattualità nella generazione di testi lunghi [10].

CRAG: retrieval correttivo

Corrective Retrieval Augmented Generation (CRAG), proposto da Yan et al. [11], adotta una strategia complementare: invece di decidere a priori se recuperare, il sistema valuta a posteriori la qualità dei documenti recuperati e attiva azioni correttive quando il retrieval è insufficiente. Un valutatore leggero assegna un punteggio di confidenza ai documenti recuperati, classificandoli in tre categorie: corretti, ambigui o incorretti. Quando la confidenza è bassa, CRAG estende la ricerca al web attraverso query riformulate, ampliando il corpus disponibile oltre la collezione statica indicizzata.

Il secondo contributo architetturale di CRAG è l'algoritmo decompose-then-recompose, che scompone i documenti recuperati in unità informative elementari, filtra quelle irrilevanti e ricompone un contesto pulito per il generatore [11]. Questa strategia di raffinamento del contesto è particolarmente efficace quando i documenti recuperati contengono informazione parzialmente rilevante, un caso frequente nella pratica. CRAG è progettato come modulo plug-and-play integrabile in qualsiasi pipeline RAG esistente, e i risultati sperimentali su quattro dataset dimostrano miglioramenti consistenti sia in task di generazione breve sia lunga.

GraphRAG: retrieval strutturato su grafi di conoscenza

Una limitazione intrinseca delle architetture RAG basate su retrieval vettoriale è l'incapacità di rispondere a query globali che richiedono la sintesi di informazione distribuita nell'intero corpus. Edge et al. hanno proposto GraphRAG [12] per affrontare specificamente questo problema, introducendo un'architettura che costruisce un grafo di conoscenza a entità dal corpus documentale e genera sintesi pre-computate per comunità di entità correlate.

Il processo di indicizzazione avviene in due fasi: nella prima, un modello di linguaggio estrae entità e relazioni dai documenti sorgente, costruendo un grafo di conoscenza strutturato; nella seconda, algoritmi di community detection identificano gruppi di entità correlate, e per ciascuna comunità viene generata una sintesi testuale [12]. Data una query, il sistema genera risposte parziali da ciascuna sintesi di comunità rilevante e le consolida in una risposta finale attraverso un ulteriore passaggio di summarization. Su dataset nell'ordine del milione di token, GraphRAG ha dimostrato miglioramenti sostanziali rispetto al RAG convenzionale in termini di completezza e diversità delle risposte per query di sensemaking globale [12]. Questo approccio è particolarmente rilevante per applicazioni enterprise dove l'analisi tematica di grandi collezioni documentali è un requisito frequente.

RAG agentico e multi-hop reasoning

Oltre il retrieve-then-generate

L'evoluzione più recente del paradigma RAG è la transizione da pipeline lineari (recupera, poi genera) a sistemi agentici in cui il modello di linguaggio orchestra autonomamente strategie di retrieval multiple, ragionamento iterativo e utilizzo di strumenti esterni [13]. Questa evoluzione è motivata dalla constatazione che molte query reali richiedono ragionamento multi-step: la risposta a "Quali fattori hanno determinato il declino della quota di mercato dell'azienda X nel settore Y tra il 2022 e il 2025?" non è contenuta in nessun singolo documento, ma emerge dalla composizione di informazioni distribuite in fonti eterogenee.

Singh et al. [13] hanno proposto una tassonomia dei sistemi RAG agentici basata su quattro dimensioni: cardinalità degli agenti (singolo vs. multi-agente), struttura di controllo (sequenziale, parallela, gerarchica), livello di autonomia e rappresentazione della conoscenza. I sistemi single-agent estendono il RAG classico dotando il modello di linguaggio della capacità di pianificare la sequenza di retrieval, valutare i risultati intermedi e decidere se proseguire la ricerca o generare la risposta. I sistemi multi-agent distribuiscono la responsabilità tra agenti specializzati (ad esempio, un agente di retrieval, un agente di ragionamento e un agente di sintesi), coordinati attraverso protocolli di comunicazione espliciti [13].

Multi-hop retrieval

Il multi-hop RAG affronta query la cui risposta richiede il recupero e la composizione di informazioni da documenti multipli attraverso catene di ragionamento. A differenza del retrieval singolo, dove una query produce direttamente i documenti rilevanti, il multi-hop RAG decompone la query originale in sotto-domande, recupera documenti per ciascuna sotto-domanda e sintetizza le risposte intermedie in una risposta coerente [13, 6].

Le architetture per il multi-hop retrieval si distinguono per il meccanismo di decomposizione e concatenamento. Gli approcci iterativi formulano una sotto-domanda alla volta, utilizzando la risposta parziale per informare la sotto-domanda successiva. Gli approcci paralleli decompongono la query iniziale in sotto-domande indipendenti, recuperano documenti in parallelo e aggregano i risultati. Gli approcci ibridi combinano decomposizione parallela e raffinamento iterativo, adattando la strategia alla struttura della query [13]. La sfida principale rimane il mantenimento della coerenza attraverso i passaggi di ragionamento: errori nella decomposizione o nel retrieval intermedio si propagano e amplificano nelle fasi successive, un fenomeno analogo all'error compounding nei sistemi di pianificazione sequenziale.

Implicazioni architetturali

L'introduzione di componenti agentiche modifica sostanzialmente l'architettura dei sistemi RAG. Il sistema non è più una pipeline fissa ma un grafo computazionale dinamico in cui il flusso di esecuzione dipende dal contenuto della query e dai risultati intermedi. Questo richiede meccanismi di gestione della memoria per mantenere il contesto attraverso iterazioni multiple, strategie di terminazione per evitare cicli infiniti di retrieval e framework di valutazione che misurino non solo la qualità della risposta finale ma anche l'efficienza del processo di ragionamento [13]. Le sfide aperte identificate dalla letteratura includono la definizione di protocolli di coordinamento scalabili per sistemi multi-agente, l'ottimizzazione del costo computazionale delle iterazioni di retrieval e la governance dei sistemi autonomi in contesti dove l'affidabilità è critica.

RAG e fine-tuning: analisi comparativa dei trade-off

La scelta tra RAG e fine-tuning per adattare un modello di linguaggio a un dominio specifico è una decisione architetturale con implicazioni significative su prestazioni, costi e manutenibilità del sistema. Balaguer et al. [14] hanno condotto uno studio sistematico su questo trade-off utilizzando Llama2-13B, GPT-3.5 e GPT-4 in un caso applicativo nel dominio agricolo, evidenziando risultati che sfidano le semplificazioni comuni.

Il fine-tuning ha migliorato l'accuratezza di oltre 6 punti percentuali rispetto al modello base, incorporando conoscenza di dominio direttamente nei parametri del modello [14]. L'aggiunta di RAG ha prodotto un ulteriore miglioramento di 5 punti percentuali, e la combinazione di entrambe le strategie (fine-tuning + RAG) ha raggiunto le prestazioni migliori, indicando che i due approcci sono complementari piuttosto che mutuamente esclusivi. Un risultato particolarmente rilevante è il trasferimento cross-geografico di conoscenza osservato nei modelli fine-tuned: la similarità delle risposte per contesti geografici non visti durante il fine-tuning è passata dal 47% al 72%, suggerendo una generalizzazione della conoscenza di dominio oltre i dati di addestramento specifici [14].

I trade-off fondamentali si articolano lungo diverse dimensioni. In termini di aggiornabilità, RAG consente l'aggiornamento della base di conoscenza in tempo reale sostituendo o aggiungendo documenti all'indice, mentre il fine-tuning richiede un nuovo ciclo di addestramento per ogni aggiornamento. In termini di latenza, il fine-tuning produce un modello autonomo con latenza di inferenza costante, mentre RAG introduce il costo aggiuntivo del retrieval, tipicamente nell'ordine delle decine-centinaia di millisecondi a seconda dell'infrastruttura di indicizzazione. In termini di tracciabilità, RAG offre trasparenza intrinseca poiché ogni risposta può essere ricondotta ai documenti sorgente recuperati, mentre il fine-tuning incorpora la conoscenza in modo opaco nei parametri. In termini di costo, il fine-tuning richiede risorse computazionali significative per l'addestramento ma nessuna infrastruttura aggiuntiva a inferenza, mentre RAG richiede un'infrastruttura di indicizzazione e retrieval persistente ma evita i costi di riaddestramento [14, 6].

La raccomandazione emergente dalla letteratura è che la scelta non è binaria. Nei contesti in cui la conoscenza è stabile e il formato delle risposte deve essere altamente controllato, il fine-tuning è preferibile. Quando la conoscenza evolve frequentemente, la tracciabilità è un requisito e il costo di riaddestramento è proibitivo, RAG è la scelta più appropriata. Per le applicazioni che richiedono sia profondità di dominio sia accesso a conoscenza aggiornata, la combinazione dei due approcci rappresenta la soluzione più efficace [14].

Limiti, problemi aperti e direzioni future

Limiti attuali del paradigma RAG

Nonostante i progressi significativi, il paradigma RAG presenta limitazioni che la ricerca attuale sta attivamente affrontando. Il primo limite è la sensibilità alla qualità del retrieval: quando i documenti recuperati sono irrilevanti, parzialmente rilevanti o contraddittori, il generatore può produrre risposte degradate o confuse. CRAG [11] e Self-RAG [10] affrontano questo problema a livello di architettura, ma una soluzione generale rimane un problema aperto.

Il secondo limite riguarda la strategia di chunking, ovvero la segmentazione dei documenti in unità recuperabili. La granularità del chunking influenza direttamente la qualità del retrieval: chunk troppo piccoli perdono contesto, chunk troppo grandi diluiscono l'informazione rilevante. Merola e Singh [15] hanno condotto una valutazione sistematica delle strategie avanzate di chunking, confrontando il chunking contestuale (che preserva la coerenza semantica arricchendo ciascun frammento con il contesto del documento originale) con il late chunking (che genera embedding a livello di documento prima della segmentazione). I risultati indicano che il chunking contestuale produce retrieval più coerente ma richiede risorse computazionali significativamente maggiori, mentre il late chunking offre maggiore efficienza a costo di una riduzione nella completezza del recupero [15]. A livello pratico, la dimensione ottimale dei chunk varia in funzione del tipo di query (256-512 token per query fattuali, 1024+ token per query analitiche) e del dominio applicativo, rendendo necessaria una calibrazione empirica per ogni deployment.

Il terzo limite è la scalabilità del contesto. Anche con retrieval eccellente, la finestra di contesto del modello generativo impone un limite superiore alla quantità di informazione che può essere fornita come input. Tecniche come Fusion-in-Decoder [5] mitigano parzialmente questo vincolo processando i documenti indipendentemente nell'encoder, ma il problema diventa critico in scenari multi-hop dove il numero di documenti rilevanti è elevato.

Robustezza e affidabilità

La robustezza dei sistemi RAG in condizioni avverse è un'area di ricerca emergente [6]. I sistemi RAG possono essere vulnerabili a documenti avvelenati (poisoned documents) inseriti nel corpus, che inducono il generatore a produrre risposte manipolate. Inoltre, la gestione di informazioni contraddittorie tra documenti diversi o tra la conoscenza parametrica del modello e i documenti recuperati resta un problema largamente irrisolto. La valutazione sistematica di queste vulnerabilità richiede framework di benchmarking specifici che la comunità sta sviluppando [16].

Valutazione

La valutazione dei sistemi RAG è intrinsecamente più complessa rispetto a quella dei modelli generativi puri, poiché coinvolge la qualità del retrieval, la qualità della generazione e l'interazione tra le due componenti [16]. I framework di valutazione più recenti propongono metriche multi-dimensionali che misurano separatamente la fedeltà (il grado in cui la risposta è supportata dai documenti recuperati), la rilevanza (il grado in cui i documenti recuperati sono pertinenti alla query) e la completezza (il grado in cui la risposta copre tutti gli aspetti della query). La standardizzazione di queste metriche e la costruzione di benchmark rappresentativi per diversi domini applicativi rimangono direzioni di ricerca attive.

Direzioni future

Le traiettorie di ricerca più promettenti includono l'integrazione di RAG con ragionamento strutturato su grafi di conoscenza [12], lo sviluppo di sistemi multi-modali che recuperano e integrano informazione da testo, immagini e dati strutturati, e l'ottimizzazione congiunta end-to-end di retriever e generatore con segnali di supervisione più ricchi [6]. L'evoluzione verso sistemi agentici [13] apre la prospettiva di pipeline adattive che selezionano dinamicamente la strategia di retrieval e generazione in funzione della complessità della query, avvicinando i sistemi RAG a forme di ragionamento autonomo e contestuale.

Riferimenti

[1] P. Lewis et al., "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks," in Proc. NeurIPS, 2020. https://arxiv.org/abs/2005.11401

[2] K. Guu et al., "REALM: Retrieval-Augmented Language Model Pre-Training," in Proc. ICML, 2020. https://arxiv.org/abs/2002.08909

[3] V. Karpukhin et al., "Dense Passage Retrieval for Open-Domain Question Answering," in Proc. EMNLP, 2020. https://arxiv.org/abs/2004.04906

[4] A. Vaswani et al., "Attention Is All You Need," in Proc. NeurIPS, 2017. https://arxiv.org/abs/1706.03762

[5] G. Izacard, E. Grave, "Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering," in Proc. EACL, 2021. https://arxiv.org/abs/2007.01282

[6] Y. Gao et al., "Retrieval-Augmented Generation for Large Language Models: A Survey," arXiv:2312.10997, 2024. https://arxiv.org/abs/2312.10997

[7] O. Khattab, M. Zaharia, "ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT," in Proc. SIGIR, 2020. https://arxiv.org/abs/2004.12832

[8] K. Santhanam et al., "ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction," in Proc. NAACL, 2022. https://arxiv.org/abs/2112.01488

[9] H. Zhao et al., "A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions," arXiv:2410.12837, 2024. https://arxiv.org/abs/2410.12837

[10] A. Asai et al., "Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection," in Proc. ICLR, 2024. https://arxiv.org/abs/2310.11511

[11] S.-Q. Yan et al., "Corrective Retrieval Augmented Generation," arXiv:2401.15884, 2024. https://arxiv.org/abs/2401.15884

[12] D. Edge et al., "From Local to Global: A Graph RAG Approach to Query-Focused Summarization," arXiv:2404.16130, 2024. https://arxiv.org/abs/2404.16130

[13] A. Singh et al., "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG," arXiv:2501.09136, 2025. https://arxiv.org/abs/2501.09136

[14] A. Balaguer et al., "RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture," arXiv:2401.08406, 2024. https://arxiv.org/abs/2401.08406

[15] C. Merola, J. Singh, "Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation," arXiv:2504.19754, 2025. https://arxiv.org/abs/2504.19754

[16] Z. Wang et al., "Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey," arXiv:2504.14891, 2025. https://arxiv.org/abs/2504.14891

Retrieval-Augmented Generation (RAG)