Deltahedge

Executive summary

Ogni organizzazione che gestisce cataloghi, archivi o piattaforme digitali si trova ad affrontare lo stesso problema: aiutare chi cerca a trovare ciò che è rilevante, e suggerire ciò che è utile anche quando la domanda non è stata ancora formulata. I sistemi di ricerca e raccomandazione risolvono queste due esigenze complementari combinando tecniche statistiche, modelli matematici di rappresentazione e, più di recente, sistemi in grado di comprendere il significato del testo e le preferenze implicite degli utenti. Questo articolo analizza l'evoluzione di tali sistemi, dalle tecniche classiche di recupero documentale e filtraggio collaborativo fino alle architetture più recenti che integrano modelli di comprensione del linguaggio di ultima generazione per migliorare sia la precisione della ricerca sia la qualità dei suggerimenti. L'analisi evidenzia che i sistemi più efficaci adottano strategie ibride, combinando approcci diversi in catene di elaborazione a più stadi, e che l'integrazione di questi modelli di comprensione rappresenta un cambio di paradigma con implicazioni significative su accuratezza, scalabilità e costi di calcolo.

Background

La ricerca di informazioni rilevanti all'interno di collezioni documentali e la generazione di raccomandazioni personalizzate costituiscono due problemi fondamentali dell'informatica che, pur avendo storie accademiche distinte, convergono oggi in architetture integrate. L'information retrieval (IR) ha le proprie radici nei modelli probabilistici degli anni '70-'80, culminati nel framework di rilevanza probabilistica da cui è derivato l'algoritmo BM25, ancora oggi alla base di numerosi motori di ricerca [1]. I sistemi di raccomandazione, d'altra parte, hanno acquisito visibilità accademica e industriale con il Netflix Prize (2006-2009), la competizione che ha dimostrato la superiorità delle tecniche di fattorizzazione matriciale rispetto ai metodi nearest-neighbor classici per la previsione delle preferenze utente [2].

La convergenza tra questi due domini è stata accelerata dall'avvento delle architetture neurali, in particolare dal modello transformer [3], che ha fornito il substrato computazionale per rappresentazioni dense condivise tra query, documenti e profili utente. Il passaggio da rappresentazioni sparse (bag-of-words, TF-IDF) a embedding densi appresi da reti neurali profonde ha ridefinito il concetto stesso di similarità nei sistemi di ricerca e raccomandazione: la rilevanza non è più determinata esclusivamente dalla co-occorrenza lessicale, ma dalla prossimità nello spazio semantico. Questo cambiamento paradigmatico ha generato una nuova generazione di sistemi ibridi che combinano retrieval lessicale, retrieval denso, modelli di ranking neurale e, più recentemente, modelli di linguaggio di grandi dimensioni (LLM) per la comprensione e la generazione di contenuti.

L'articolo che segue esamina la domanda: quali sono le architetture, i trade-off e i problemi aperti nei sistemi di ricerca e raccomandazione moderni, dalla retrieval classica agli approcci LLM-augmented? L'analisi attraversa cinque aree: le fondamenta dell'information retrieval, i paradigmi di filtraggio collaborativo e content-based, le architetture embedding-based, i sistemi ibridi con learning-to-rank e l'integrazione dei modelli di linguaggio di grandi dimensioni.

Fondamenti dell'information retrieval

Dal modello probabilistico a BM25

Il framework di rilevanza probabilistica (Probabilistic Relevance Framework, PRF) ha costituito per decenni il fondamento teorico dei sistemi di ricerca testuale. Robertson e Zaragoza ne hanno fornito una trattazione sistematica che traccia l'evoluzione dal principio di ranking probabilistico (Probability Ranking Principle) fino alla famiglia di funzioni BM25 [1]. Il modello BM25 calcola il punteggio di rilevanza di un documento $d$ rispetto a una query $q$ come:

$$\text{BM25}(q, d) = \sum_{t \in q} \text{IDF}(t) \cdot \frac{f(t, d) \cdot (k_1 + 1)}{f(t, d) + k_1 \cdot \left(1 - b + b \cdot \frac{|d|}{\text{avgdl}}\right)}$$

dove $f(t, d)$ è la frequenza del termine $t$ nel documento $d$, $|d|$ è la lunghezza del documento, $\text{avgdl}$ è la lunghezza media dei documenti nella collezione, e $k_1$, $b$ sono parametri di saturazione e normalizzazione rispettivamente [1]. La componente IDF (Inverse Document Frequency) penalizza i termini comuni e amplifica quelli discriminativi. Nonostante la sua semplicità, BM25 rimane competitivo con modelli neurali in scenari a distribuzione uniforme e rappresenta il baseline standard in tutti i benchmark di information retrieval.

Il punto di forza strutturale di BM25 risiede nell'efficienza computazionale: l'uso di indici invertiti consente il retrieval in tempo sub-lineare rispetto alla dimensione del corpus, una proprietà che nessun metodo denso puro riesce a replicare senza strutture ausiliarie di indicizzazione approssimata. Il limite principale è la dipendenza dal matching lessicale esatto: una query contenente "automobile" non recupererà documenti che utilizzano esclusivamente "veicolo", un problema noto come vocabulary mismatch che ha motivato lo sviluppo dei metodi di retrieval denso.

Dense retrieval e il paradigma dual-encoder

Il passaggio al retrieval denso è stato formalizzato da Karpukhin et al. con Dense Passage Retrieval (DPR), un framework basato su un'architettura dual-encoder in cui due modelli BERT indipendenti producono rappresentazioni vettoriali per query e passaggi [4]. La similarità è calcolata come prodotto scalare nello spazio latente:

$$\text{sim}(q, d) = E_q(q)^\top E_d(d)$$

dove $E_q$ e $E_d$ sono gli encoder. Questa formulazione consente il pre-calcolo offline degli embedding documentali e l'utilizzo di indici ANN (Approximate Nearest Neighbor) per il retrieval efficiente. DPR ha superato BM25 con margini del 9-19% in termini di top-20 retrieval accuracy sui benchmark di open-domain question answering, dimostrando che le rappresentazioni dense apprese in modo supervisionato catturano relazioni semantiche inaccessibili ai metodi lessicali [4].

L'architettura dual-encoder presenta tuttavia limitazioni note. La compressione dell'intera semantica di un documento in un singolo vettore comporta una perdita informativa inevitabile, particolarmente critica per documenti lunghi o multi-tematici. La ricerca recente ha evidenziato anche limitazioni teoriche dei sistemi embedding-based: la proiezione in spazi di dimensione fissa introduce distorsioni topologiche che possono degradare la qualità del retrieval per query che richiedono ragionamento composizionale [5]. Queste osservazioni hanno motivato lo sviluppo di architetture a interazione più ricca, come il paradigma late interaction.

Late interaction e retrieval ibrido

ColBERT, proposto da Khattab e Zaharia, ha introdotto il paradigma late interaction come compromesso tra l'efficienza dei dual-encoder e l'efficacia dei modelli cross-encoder [6]. Invece di produrre un singolo vettore per query e documento, ColBERT genera una rappresentazione per ciascun token e calcola la similarità attraverso un operatore MaxSim:

$$S(q, d) = \sum_{i \in |q|} \max_{j \in |d|} E_q(q_i)^\top E_d(d_j)$$

Questa formulazione preserva l'informazione a livello di token, consentendo un matching più granulare senza rinunciare alla possibilità di pre-calcolo degli embedding documentali. ColBERTv2 [19] ha perfezionato l'approccio con compressione residuale e supervisione denoised, ottenendo risultati competitivi con i cross-encoder su MS MARCO e BEIR a costi computazionali significativamente inferiori.

La ricerca contemporanea ha consolidato l'evidenza che la combinazione di retrieval sparso e denso (hybrid retrieval) produce risultati superiori a ciascun metodo singolarmente. In un sistema ibrido, i punteggi di BM25 e di un retriever denso vengono fusi attraverso meccanismi come la Reciprocal Rank Fusion (RRF), che combina le ranked list senza richiedere la calibrazione dei punteggi [7]. Elasticsearch, il motore di ricerca open-source più diffuso, ha integrato nativamente la ricerca ibrida a partire dalla versione 8.x, combinando il retrieval lessicale BM25F con la ricerca vettoriale kNN basata su algoritmi HNSW e, nelle versioni più recenti, con supporto per quantizzazione BBQ e l'algoritmo ACORN per il filtered vector search [7]. L'adozione industriale di queste architetture ibride conferma che la complementarità tra matching lessicale e semantico non è un artefatto accademico, ma una proprietà sfruttabile in produzione.

Paradigmi di raccomandazione: collaborative, content-based e ibrido

Collaborative filtering

Il collaborative filtering (CF) si fonda sull'assunzione che utenti con comportamenti simili in passato avranno preferenze simili in futuro. Le tecniche CF si dividono in due famiglie: memory-based e model-based. I metodi memory-based calcolano direttamente similarità tra utenti (user-based) o tra item (item-based) dalla matrice di interazione, ma soffrono di problemi di scalabilità con matrici sparse di grandi dimensioni. I metodi model-based apprendono rappresentazioni latenti dalla matrice di interazione, e la fattorizzazione matriciale ne rappresenta l'istanza più influente.

Koren et al. hanno formalizzato l'approccio nel contesto del Netflix Prize, dimostrando che la decomposizione della matrice utente-item $R \approx P^\top Q$, dove $P \in \mathbb{R}^{k \times m}$ e $Q \in \mathbb{R}^{k \times n}$ sono matrici di fattori latenti per $m$ utenti e $n$ item rispettivamente, cattura pattern di preferenza non osservabili direttamente [2]. Il modello SVD++ ha esteso questo framework integrando feedback implicito (visualizzazioni, click, tempo di permanenza) oltre alle valutazioni esplicite, riconoscendo che il comportamento non intenzionale dell'utente è spesso più informativo delle valutazioni dichiarate [2].

Rendle et al. hanno affrontato il caso specifico della raccomandazione da feedback implicito con BPR (Bayesian Personalized Ranking), un criterio di ottimizzazione basato su un ordinamento pairwise derivato da un'analisi bayesiana del problema [8]. A differenza degli approcci pointwise che predicono un punteggio assoluto per ciascuna coppia utente-item, BPR ottimizza direttamente l'ordinamento relativo: dato un utente $u$, un item positivo $i$ (con cui l'utente ha interagito) e un item negativo $j$ (senza interazione), il criterio massimizza:

$$\text{BPR-Opt} = \sum_{(u, i, j)} \ln \sigma(\hat{x}{u,i} - \hat{x}) - \lambda |\Theta|^2$$

dove $\hat{x}_{u,i}$ è il punteggio predetto e $\sigma$ è la funzione sigmoide. Questa formulazione si è dimostrata superiore alle loss function pointwise per il task di raccomandazione, dove l'obiettivo è ordinare correttamente gli item piuttosto che predirne il rating assoluto [8].

Il deep learning ha esteso significativamente le capacità del collaborative filtering. La survey di Zhang et al. documenta l'evoluzione dai modelli lineari alle architetture neurali profonde, evidenziando come autoencoder, reti ricorrenti e graph neural network abbiano progressivamente ampliato la capacità di modellare relazioni non lineari e dipendenze sequenziali nelle interazioni utente-item [9]. Un risultato recente particolarmente rilevante è l'analisi critica di Rendle et al. (2020), che ha dimostrato come un modello di fattorizzazione matriciale con dot-product, correttamente ottimizzato e regolarizzato, possa superare le architetture di Neural Collaborative Filtering (NCF) proposte da He et al., mettendo in discussione l'assunzione che la complessità architettonica neurale sia necessariamente superiore ai modelli lineari ben calibrati [10].

Content-based filtering

I sistemi content-based raccomandano item le cui caratteristiche sono simili a quelle degli item con cui l'utente ha interagito in passato. Il vantaggio fondamentale rispetto al CF è l'indipendenza dalla matrice di interazione: un sistema content-based può raccomandare un nuovo item non appena ne sono note le feature, eliminando il cold-start problem lato item. Il limite speculare è l'incapacità di catturare serendipità: il sistema tende a raccomandare item simili a quelli già noti, producendo una filter bubble che riduce la diversità delle raccomandazioni.

La rappresentazione degli item in sistemi content-based è evoluta dai feature vector manuali (metadati, tag, categorie) agli embedding appresi da modelli neurali [9]. In ambito testuale, l'uso di rappresentazioni contestuali da modelli transformer ha trasformato la qualità del matching content-based: le rappresentazioni dense catturano sfumature semantiche inaccessibili ai metodi bag-of-words, consentendo di identificare similarità tra item con descrizioni lessicalmente diverse ma semanticamente affini. In ambito multimodale, le architetture di apprendimento contrastivo vision-language consentono di rappresentare item attraverso feature visive e testuali nello stesso spazio latente, abilitando raccomandazioni cross-modali che combinano informazioni eterogenee in una rappresentazione unificata.

Sistemi ibridi

La complementarità tra CF e content-based ha motivato lo sviluppo di sistemi ibridi che combinano i due paradigmi per mitigare i limiti di ciascuno [9]. La letteratura identifica molteplici strategie di ibridazione, tra cui: weighted (combinazione lineare dei punteggi), switching (selezione del metodo in base al contesto), mixed (presentazione simultanea dei risultati), feature combination (uso delle feature content-based come input al CF), cascade (filtraggio sequenziale), feature augmentation (output di un metodo usato come feature dell'altro) e meta-level (modello appreso da un metodo usato come input dell'altro) [9].

L'architettura Wide & Deep proposta da Cheng et al. per il sistema di raccomandazione di Google Play ha formalizzato l'ibridazione nel contesto del deep learning [11]. La componente wide è un modello lineare generalizzato che opera su feature cross-product sparse, catturando memorizzazione di pattern frequenti. La componente deep è una rete neurale feedforward che apprende embedding densi delle feature categoriche, catturando generalizzazione a combinazioni non viste. L'addestramento congiunto delle due componenti bilancia memorizzazione e generalizzazione, ottenendo un incremento del 3.9% nelle acquisizioni di app rispetto ai modelli solo-wide e del 1% rispetto ai modelli solo-deep, in un esperimento online su oltre un miliardo di utenti attivi [11].

Architetture embedding-based e deep learning per la raccomandazione

Two-tower model e retrieval a scala

L'architettura two-tower (dual-encoder) è divenuta il paradigma dominante per il retrieval di candidati nei sistemi di raccomandazione industriali. Covington et al. hanno descritto il sistema di raccomandazione di YouTube come una pipeline a due stadi: un modello di candidate generation che riduce milioni di video a centinaia di candidati, seguito da un modello di ranking che riordina i candidati per la presentazione finale [12]. Il modello di candidate generation opera come una rete di classificazione softmax su scala estrema, dove l'embedding dell'utente (derivato dalla concatenazione di feature di watch history, search history e feature demografiche) è confrontato con gli embedding dei video attraverso prodotto scalare. Durante l'inferenza, il nearest neighbor search nello spazio degli embedding sostituisce la classificazione esplicita, consentendo il retrieval in tempo reale su un corpus di milioni di item [12].

Questa architettura ha stabilito un pattern replicato in numerosi sistemi industriali: una torre per l'utente, una torre per l'item, embedding condivisi e retrieval ANN per la selezione dei candidati. La formazione degli embedding avviene tipicamente con loss contrastive, dove le coppie positive sono derivate dalle interazioni osservate e i negativi sono campionati dal corpus o generati attraverso strategie di hard negative mining. Studi recenti hanno dimostrato che la scelta della strategia di negative sampling e della funzione di loss ha un impatto significativo sulla qualità del retrieval: obiettivi di training robusti come self-supervised multitask learning (SSMTL) migliorano le prestazioni su task downstream multipli rispetto alle loss contrastive standard [13].

Embedding compression e scalabilità

La scalabilità dei sistemi embedding-based in produzione è vincolata dalle risorse di memoria e computazione necessarie per mantenere e interrogare indici di embedding ad alta dimensionalità. La survey di Liu et al. sull'embedding compression nei sistemi di raccomandazione identifica tre famiglie principali di approcci: low-precision (quantizzazione degli embedding a rappresentazioni a bit ridotti), mixed-dimension (assegnazione di dimensionalità variabile agli embedding in base alla frequenza o importanza dell'item), e weight-sharing (condivisione di parametri tra embedding attraverso tecniche di hashing o codebook) [14].

La quantizzazione è particolarmente rilevante per i sistemi di ricerca vettoriale. Elasticsearch ha introdotto nella versione 9.1 la quantizzazione BBQ (Better Binary Quantization) come default per i nuovi indici vettoriali, riducendo lo spazio di archiviazione degli embedding fino a 32x rispetto alla rappresentazione float32, con degradazione minima della qualità di ricerca [7]. Questa compressione aggressiva consente di mantenere indici di miliardi di vettori in memoria, rendendo praticabile il retrieval denso a scala industriale senza infrastrutture dedicate per il vector search.

Sequenzialità e contesto temporale

I modelli di raccomandazione convenzionali trattano le interazioni utente-item come un insieme non ordinato, ignorando la dimensione temporale del comportamento. I modelli sequenziali, basati su architetture RNN, CNN e più recentemente transformer, modellano esplicitamente la sequenza di interazioni come un processo dinamico da cui inferire le preferenze correnti e le intenzioni a breve termine dell'utente. Il framework SASRec (Self-Attentive Sequential Recommendation) [20] ha dimostrato che un modello basato su self-attention unidirezionale applicato alla sequenza di interazioni supera sia i modelli basati su Markov chain sia le architetture RNN, con vantaggi particolarmente marcati su sequenze lunghe dove le dipendenze a lungo raggio sono determinanti.

L'integrazione del contesto temporale solleva tuttavia problemi di distribution shift: le preferenze degli utenti evolvono nel tempo, e un modello addestrato su dati storici può degradare rapidamente se non aggiornato. La letteratura recente propone strategie di continual learning e fine-tuning incrementale per mantenere la freschezza delle raccomandazioni senza il costo di un riaddestramento completo.

Learning-to-rank: dal retrieval al ranking

Formulazione del problema

Il learning-to-rank (LTR) è il framework che formalizza il problema di ordinare un insieme di candidati in base alla loro rilevanza rispetto a una query o a un contesto utente. A differenza della classificazione binaria (rilevante/non rilevante), il LTR ottimizza direttamente l'ordinamento, riconoscendo che la posizione relativa degli item è più importante del punteggio assoluto. Gli approcci LTR si classificano in tre famiglie: pointwise (il ranking è ridotto a regressione o classificazione su singoli item), pairwise (l'ottimizzazione avviene su coppie di item, minimizzando il numero di inversioni nell'ordinamento) e listwise (l'ottimizzazione opera sull'intera lista, utilizzando metriche come NDCG o MAP come obiettivo diretto o surrogato) [15].

La survey di Zhao et al. sull'evoluzione dei modelli di reranking documenta la transizione dai metodi euristici (TF-IDF weighting, BM25 tuning) ai modelli neurali, evidenziando come l'architettura transformer abbia ridefinito lo stato dell'arte nel passage reranking [15]. Nogueira e Cho hanno dimostrato per primi che un modello BERT fine-tuned come reranker pointwise raggiunge risultati superiori a tutti i metodi precedenti su MS MARCO, con un miglioramento del 27% relativo in MRR@10 rispetto allo stato dell'arte precedente [16]. L'approccio è concettualmente semplice: la coppia (query, passaggio) è fornita come input al modello, che produce un punteggio di rilevanza dalla rappresentazione del token [CLS]. La potenza del metodo risiede nella cross-attention bidirezionale tra query e documento, che consente al modello di catturare interazioni fine-grained inaccessibili ai modelli bi-encoder.

Pipeline multi-stadio

La tensione tra efficacia e efficienza computazionale ha consolidato le pipeline multi-stadio come architettura dominante nei sistemi di ricerca e raccomandazione in produzione. Una pipeline tipica include tre fasi: (1) candidate retrieval, dove un metodo efficiente (BM25, bi-encoder, o ibrido) seleziona centinaia-migliaia di candidati dal corpus completo; (2) reranking, dove un modello cross-encoder riordina le decine-centinaia di candidati migliori con maggiore accuratezza; (3) business logic e diversificazione, dove vincoli applicativi (freshness, diversity, fairness) vengono applicati all'ordinamento finale.

Questa architettura a cascata è esplicitamente adottata da Elasticsearch, che supporta pipeline di retrieval multi-stadio combinando BM25F per il retrieval lessicale iniziale, ricerca vettoriale kNN per il retrieval semantico, fusione dei risultati tramite RRF o combinazione lineare, e reranking tramite modelli esterni integrati [7]. La modularità di questa architettura consente di sostituire o aggiornare ciascun componente indipendentemente, facilitando l'evoluzione incrementale del sistema.

Il costo computazionale del reranking neurale impone un vincolo pratico sulla dimensione dell'insieme di candidati processabili. Un modello cross-encoder BERT processa una coppia (query, documento) in circa 10-100 ms su GPU, rendendo impraticabile il reranking di più di qualche centinaio di candidati per query in tempo reale. La ricerca su efficient reranking esplora strategie di early exit, distillazione di modelli cross-encoder in bi-encoder, e cascate adattive che modulano la profondità del reranking in base alla confidenza del retriever iniziale.

LLM-augmented search e raccomandazione

Tassonomia dell'integrazione LLM

L'integrazione dei modelli di linguaggio di grandi dimensioni nei sistemi di ricerca e raccomandazione rappresenta il fronte più attivo della ricerca corrente. La survey di Wu et al. propone una tassonomia che classifica gli approcci LLM-enhanced per sistemi di raccomandazione in tre categorie: knowledge enhancement (il LLM arricchisce le rappresentazioni degli item o degli utenti con conoscenza esterna), interaction enhancement (il LLM media o trasforma l'interazione tra utente e sistema) e model enhancement (il LLM è utilizzato come componente del modello di raccomandazione stesso o come suo sostituto) [17].

Una seconda survey, focalizzata sugli agenti LLM per ricerca e raccomandazione, identifica un cambio di paradigma dalla tradizionale pipeline retrieve-then-rank a sistemi agentici in cui il LLM orchestra autonomamente le fasi di comprensione della query, pianificazione della strategia di ricerca, retrieval multi-sorgente, valutazione dei risultati e generazione della risposta [18]. Questo paradigma agentifico estende le capacità dei sistemi convenzionali in almeno tre direzioni: query understanding (il LLM disambigua, espande e riformula la query in modo contestuale), retrieval planning (il LLM decide quali sorgenti interrogare e in quale ordine), e result synthesis (il LLM integra e sintetizza i risultati provenienti da retriever eterogenei).

LLM come reranker

L'uso di LLM come modelli di reranking rappresenta un'applicazione diretta che ha prodotto risultati competitivi senza richiedere fine-tuning specifico. Il LLM riceve come prompt la query e un insieme di candidati, e produce un ordinamento o un punteggio di rilevanza per ciascuno. I risultati sperimentali indicano che i modelli GPT-4 e Claude, utilizzati in modalità zero-shot come reranker, raggiungono prestazioni competitive con i cross-encoder supervisionati su benchmark come TREC-DL e BEIR, con il vantaggio di non richiedere dati di addestramento specifici per il dominio [15, 18].

Tuttavia, il costo computazionale e la latenza dei LLM in produzione pongono vincoli significativi. Un singolo forward pass di un modello con centinaia di miliardi di parametri richiede ordini di grandezza più tempo e risorse rispetto a un cross-encoder BERT. Le strategie di mitigazione includono: distillazione dei giudizi di rilevanza del LLM in modelli più piccoli, sliding window approaches per gestire liste lunghe di candidati, e caching dei risultati per query ricorrenti. La ricerca recente esplora inoltre modelli di dimensione intermedia (7-13B parametri) fine-tuned specificamente per il reranking, che offrono un compromesso tra la qualità dei LLM di grandi dimensioni e l'efficienza dei cross-encoder specializzati.

LLM per la rappresentazione e l'arricchimento

Un'applicazione meno visibile ma potenzialmente più trasformativa è l'uso dei LLM per generare o arricchire le rappresentazioni degli item e delle query. I LLM possono produrre descrizioni strutturate, tag semantici e riassunti degli item a partire da informazioni grezze o incomplete, migliorando la qualità delle feature disponibili per i modelli di raccomandazione downstream. Questo approccio è particolarmente efficace per il cold-start problem: un nuovo item con informazioni minime può essere arricchito con descrizioni generate dal LLM, consentendo ai sistemi content-based e ibridi di produrre raccomandazioni immediate.

L'integrazione di embedding prodotti da LLM nei sistemi di raccomandazione ha mostrato risultati promettenti. La survey di Wu et al. documenta come gli embedding estratti dai livelli intermedi di modelli come LLaMA e GPT, utilizzati come feature aggiuntive nei modelli di raccomandazione, migliorino le prestazioni su dataset standard, con benefici particolarmente marcati in scenari con dati di interazione sparsi [17]. La sfida principale rimane la dimensionalità e il costo computazionale di questi embedding: un embedding LLM tipico ha dimensionalità 4096-8192, significativamente superiore ai 64-256 dimensioni degli embedding specializzati, richiedendo strategie di proiezione o compressione per l'integrazione efficiente.

Conversational search e raccomandazione

L'emergere di interfacce conversazionali basate su LLM ha aperto un nuovo paradigma in cui la ricerca e la raccomandazione avvengono attraverso un dialogo iterativo. A differenza dei sistemi tradizionali basati su query singole, la conversational search consente il raffinamento progressivo dell'intento informativo attraverso turni multipli, la disambiguazione interattiva e la personalizzazione contestuale. I sistemi agentici descritti nella survey di Fan et al. [18] implementano questo paradigma orchestrando cicli di retrieval-reasoning-generation in cui il LLM mantiene lo stato della conversazione, identifica lacune informative e attiva retrieval mirato per colmare i gap.

Le implicazioni per i sistemi di raccomandazione sono significative: la raccomandazione conversazionale trasforma il processo da una previsione passiva delle preferenze a una negoziazione attiva tra sistema e utente, in cui il sistema può esplorare lo spazio delle preferenze attraverso domande mirate, spiegare le proprie raccomandazioni e incorporare feedback esplicito in tempo reale. Tuttavia, la valutazione di questi sistemi rimane un problema aperto: le metriche tradizionali (precision, recall, NDCG) non catturano la qualità dell'interazione conversazionale, e la definizione di benchmark adeguati è oggetto di ricerca attiva.

Limiti, trade-off e problemi aperti

Scalabilità vs. accuratezza

Il trade-off fondamentale nei sistemi di ricerca e raccomandazione rimane quello tra costo computazionale e qualità dei risultati [15]. I modelli cross-encoder offrono la massima accuratezza ma scalano quadraticamente con il numero di candidati; i bi-encoder scalano linearmente ma sacrificano la capacità di interazione query-documento; BM25 è il più efficiente ma il meno espressivo semanticamente [1, 4, 6]. Le pipeline multi-stadio mitigano ma non eliminano questo trade-off: ogni stadio aggiuntivo introduce latenza e complessità infrastrutturale. L'introduzione dei LLM come componenti di ranking esacerba ulteriormente il problema, con costi per query che possono essere 100-1000x superiori rispetto ai modelli tradizionali [18]. La compressione degli embedding [14] e la quantizzazione vettoriale [7] affrontano il problema dal lato della memoria, ma il costo computazionale dell'inferenza neurale rimane il vincolo dominante per i sistemi ad alta frequenza di query.

Cold-start e data sparsity

Il cold-start problem, l'impossibilità di generare raccomandazioni accurate per nuovi utenti o nuovi item privi di storico interattivo, rimane una sfida strutturale riconosciuta dalla letteratura come uno dei limiti più persistenti del collaborative filtering [2, 9]. I metodi content-based lo mitigano lato item, il cross-domain transfer learning lo affronta lato utente, e i LLM offrono una nuova strategia attraverso l'arricchimento delle rappresentazioni [17]. Tuttavia, nessun approccio lo risolve completamente: la qualità delle raccomandazioni per utenti con poche interazioni rimane sistematicamente inferiore rispetto agli utenti con profili ricchi, un divario che si riflette in equity gap nelle prestazioni del sistema. La data sparsity amplifica il problema: nelle applicazioni reali, la matrice di interazione è tipicamente popolata per meno dell'1%, rendendo i segnali di preferenza estremamente rumorosi e le stime di similarità instabili.

Fairness, diversità e filter bubble

I sistemi di raccomandazione ottimizzati per accuracy tendono a produrre feedback loop: gli item raccomandati generano interazioni che rafforzano il modello nel raccomandare item simili, riducendo progressivamente la diversità e creando filter bubble [9]. Questo fenomeno ha implicazioni sia per la qualità del servizio (l'utente non viene esposto a contenuti potenzialmente rilevanti ma fuori dal suo profilo storico) sia per l'equità (item di nicchia o di creatori meno popolari ricevono sistematicamente meno visibilità). La survey di Zhang et al. documenta come la tensione tra accuracy e diversity sia un tema centrale nella ricerca contemporanea sui sistemi di raccomandazione [9]. La letteratura propone metriche di diversità (intra-list diversity, coverage, novelty) e vincoli di fairness nell'ottimizzazione del ranking, ma l'integrazione di questi criteri con l'accuratezza rimane un problema di ottimizzazione multi-obiettivo senza soluzioni universali, in quanto miglioramenti su una dimensione tendono a degradare le prestazioni sulle altre.

Valutazione e riproducibilità

La valutazione dei sistemi di ricerca e raccomandazione presenta sfide metodologiche significative. Le metriche offline (NDCG, MAP, recall@k, hit rate) misurano la qualità dell'ordinamento su dati storici, ma la correlazione con le prestazioni online (click-through rate, conversion, engagement) è spesso debole e dominio-specifica. I test A/B online sono il gold standard ma richiedono traffico significativo e sono costosi da eseguire. La riproducibilità è ulteriormente compromessa dalla dipendenza da dati proprietari, dalla sensibilità agli iperparametri e dalla variabilità introdotta dalle strategie di negative sampling [10, 13]. La comunità ha risposto con benchmark standardizzati (MS MARCO, BEIR, Amazon Reviews), ma la generalizzabilità dei risultati accademici ai contesti industriali rimane una questione aperta.

Integrazione LLM: opportunità e rischi

L'integrazione dei LLM nei sistemi di ricerca e raccomandazione offre capacità senza precedenti, comprensione profonda delle query, generazione di rappresentazioni ricche, reasoning multi-hop, ma introduce rischi specifici [17, 18]. L'hallucination del LLM può generare raccomandazioni plausibili ma fattuali inesatte; la dipendenza da modelli proprietari crea vendor lock-in e rischi di continuità operativa; il costo computazionale può rendere economicamente insostenibili architetture che sono tecnicamente superiori. La survey di Fan et al. evidenzia come i sistemi agentici LLM-based, pur dimostrando capacità superiori in scenari sperimentali, presentino sfide significative di robustezza, controllabilità e costo quando trasferiti in contesti produttivi [18]. La ricerca sulla distillazione dei LLM in modelli specializzati più piccoli e sull'ottimizzazione delle pipeline ibride LLM-augmented rappresenta una direzione prioritaria per rendere queste capacità accessibili in contesti con vincoli reali di latenza e budget.

Riferimenti

[1] S. Robertson e H. Zaragoza, "The Probabilistic Relevance Framework: BM25 and Beyond," Foundations and Trends in Information Retrieval, vol. 3, no. 4, pp. 333-389, 2009. https://dl.acm.org/doi/abs/10.1561/1500000019

[2] Y. Koren, R. Bell e C. Volinsky, "Matrix Factorization Techniques for Recommender Systems," IEEE Computer, vol. 42, no. 8, pp. 30-37, 2009. https://ieeexplore.ieee.org/document/5197422

[3] A. Vaswani et al., "Attention Is All You Need," in Proc. NeurIPS, 2017. https://arxiv.org/abs/1706.03762

[4] V. Karpukhin et al., "Dense Passage Retrieval for Open-Domain Question Answering," in Proc. EMNLP, pp. 6769-6781, 2020. https://arxiv.org/abs/2004.04906

[5] N. Reimers e I. Gurevych, "The Curse of Dense Low-Dimensional Information Retrieval for Large Index Sizes," in Proc. ACL, 2021. https://arxiv.org/abs/2012.14210

[6] O. Khattab e M. Zaharia, "ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT," in Proc. SIGIR, 2020. https://arxiv.org/abs/2004.12832

[7] Elastic, "Elasticsearch Hybrid Search Documentation," 2025. https://www.elastic.co/elasticsearch/hybrid-search

[8] S. Rendle et al., "BPR: Bayesian Personalized Ranking from Implicit Feedback," in Proc. UAI, pp. 452-461, 2009. https://arxiv.org/abs/1205.2618

[9] S. Zhang et al., "Deep Learning based Recommender System: A Survey and New Perspectives," ACM Computing Surveys, vol. 52, no. 1, 2019. https://arxiv.org/abs/1707.07435

[10] S. Rendle et al., "Neural Collaborative Filtering vs. Matrix Factorization Revisited," in Proc. ACM RecSys, pp. 240-248, 2020. https://dl.acm.org/doi/10.1145/3383313.3412488

[11] H.-T. Cheng et al., "Wide & Deep Learning for Recommender Systems," in Proc. 1st Workshop on Deep Learning for Recommender Systems (DLRS), pp. 7-10, 2016. https://arxiv.org/abs/1606.07792

[12] P. Covington, J. Adams e E. Sargin, "Deep Neural Networks for YouTube Recommendations," in Proc. ACM RecSys, pp. 191-198, 2016. https://dl.acm.org/doi/10.1145/2959100.2959190

[13] A. Gupta et al., "Robust Training Objectives Improve Embedding-based Retrieval in Industrial Recommendation Systems," arXiv:2409.14682, 2024. https://arxiv.org/abs/2409.14682

[14] Y. Liu et al., "Embedding Compression in Recommender Systems: A Survey," arXiv:2408.02304, 2024. https://arxiv.org/abs/2408.02304

[15] X. Zhao et al., "The Evolution of Reranking Models in Information Retrieval: From Heuristic Methods to Large Language Models," arXiv:2512.16236, 2025. https://arxiv.org/abs/2512.16236

[16] R. Nogueira e K. Cho, "Passage Re-ranking with BERT," arXiv:1901.04085, 2019. https://arxiv.org/abs/1901.04085

[17] J. Wu et al., "Large Language Model Enhanced Recommender Systems: A Survey," arXiv:2412.13432, 2024. https://arxiv.org/abs/2412.13432

[18] W. Fan et al., "A Survey of Large Language Model Empowered Agents for Recommendation and Search: Towards Next-Generation Information Retrieval," arXiv:2503.05659, 2025. https://arxiv.org/abs/2503.05659

[19] K. Santhanam, O. Khattab, J. Saad-Falcon, C. Potts, M. Zaharia, "ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction," in Proc. NAACL, 2022. https://arxiv.org/abs/2112.01488

[20] W.-C. Kang, J. McAuley, "Self-Attentive Sequential Recommendation," in Proc. ICDM, 2018. https://arxiv.org/abs/1808.09781

Search & Recommendation Systems