Executive summary
Ogni sistema informativo aziendale registra, spesso senza che se ne sfrutti il potenziale, una traccia dettagliata delle operazioni svolte: chi ha fatto cosa, quando e in quale ordine. Esiste una disciplina che trasforma queste tracce in modelli comprensibili del funzionamento reale dei processi, rendendo visibili rallentamenti, deviazioni dalle procedure previste e inefficienze nascoste. Questa analisi ripercorre i fondamenti formali di tale disciplina, confronta i principali algoritmi di scoperta automatica dei processi e ne valuta i limiti, evidenziando come la ricerca si stia spostando verso la gestione di processi che coinvolgono simultaneamente più oggetti interconnessi. L'elemento centrale che emerge è che la distanza tra il processo così come è stato progettato e il processo così come viene effettivamente eseguito è quasi sempre maggiore di quanto si assuma, e le tecniche qui esaminate offrono gli strumenti formali per quantificarla.
Background
Il process mining si colloca all'intersezione tra data mining e business process management (BPM), con l'obiettivo di estrarre conoscenza operativa dai log di eventi generati dai sistemi informativi. La disciplina è stata formalizzata nei primi anni 2000, con il lavoro seminale di van der Aalst, Weijters e Mărușter [1] che ha introdotto il problema della workflow mining: dato un log di eventi che registra l'esecuzione di un processo, è possibile ricostruire automaticamente un modello che ne descriva il comportamento? La risposta affermativa, dimostrata attraverso l'algoritmo Alpha, ha aperto un campo di ricerca che in due decenni ha prodotto centinaia di contributi scientifici e un'industria commerciale multimiliardaria.
Il Process Mining Manifesto [2], redatto nel 2012 da oltre 75 ricercatori e professionisti sotto l'egida della IEEE Task Force on Process Mining, ha sistematizzato la disciplina identificando tre forme fondamentali di process mining. La process discovery costruisce un modello a partire da un log di eventi, senza alcuna informazione a priori sul processo. Il conformance checking confronta un modello esistente (normativo o scoperto) con il comportamento osservato nel log, quantificando le deviazioni. Il process enhancement arricchisce un modello esistente con informazioni estratte dal log, tipicamente dati temporali, di performance o organizzativi, per produrre una rappresentazione più completa del processo reale.
Il presupposto tecnico è che il sistema informativo generi un event log strutturato, dove ogni evento è associato almeno a un identificatore di caso (case ID), un'attività e un timestamp [3]. Questa terna minimale consente di ricostruire la sequenza di attività eseguite per ciascun caso, la traccia, e da un insieme di tracce è possibile inferire le relazioni causali tra attività. Lo standard IEEE XES (eXtensible Event Stream), adottato nel 2016 come IEEE 1849 [4], ha formalizzato il formato di interscambio per i log di eventi, definendo un linguaggio basato su XML con estensioni semantiche per attributi temporali, organizzativi e di costo. La disponibilità di log conformi a XES ha reso possibile la comparazione sistematica degli algoritmi su dataset condivisi.
La formalizzazione matematica del process mining si basa in modo pervasivo sulla teoria delle reti di Petri, un formalismo introdotto da Carl Adam Petri nel 1962 e successivamente adattato alla modellazione dei processi aziendali. La scelta non è casuale: le reti di Petri offrono una semantica formale precisa per concorrenza, sincronizzazione e scelta, proprietà che i processi aziendali reali esibiscono regolarmente. Il collegamento tra reti di Petri e process mining è stato consolidato da van der Aalst attraverso il concetto di workflow net [1, 3], una sottoclasse di reti di Petri con proprietà strutturali specifiche per la modellazione dei processi.
Formalizzazione: event log, reti di Petri e workflow net
Struttura formale dell'event log
Un event log $L$ è definito come un multiset di tracce su un insieme finito di attività $A$. Formalmente, una traccia $\sigma = \langle a_1, a_2, \ldots, a_n \rangle$ è una sequenza finita di attività $a_i \in A$, e il log $L \in \mathcal{B}(A^)$ è un multiset di tracce, dove $\mathcal{B}(A^)$ denota l'insieme dei multiset su sequenze finite di $A$ [3]. L'uso di un multiset anziché di un insieme cattura il fatto che la stessa sequenza di attività può essere osservata in casi diversi con frequenze diverse, informazione cruciale per distinguere il comportamento prevalente da quello eccezionale.
Ogni evento in un log reale trasporta attributi aggiuntivi oltre alla terna minimale (case ID, attività, timestamp). L'attributo organizzativo identifica la risorsa che ha eseguito l'attività. Gli attributi di costo e durata consentono analisi di performance. Il formato XES [4] standardizza queste estensioni attraverso un meccanismo di extension dichiarativo, dove ogni attributo è tipizzato e associato a una semantica nota. L'estensione concept:name identifica l'attività, time:timestamp il momento di esecuzione, org:resource la risorsa, una convenzione che ha reso interoperabili decine di strumenti di process mining.
Reti di Petri e workflow net
Una rete di Petri è una tripla $N = (P, T, F)$ dove $P$ è un insieme finito di posti (places), $T$ è un insieme finito di transizioni (transitions) con $P \cap T = \emptyset$, e $F \subseteq (P \times T) \cup (T \times P)$ è una relazione di flusso. Lo stato di una rete di Petri è descritto da una marcatura (marking) $M : P \rightarrow \mathbb{N}_0$, che assegna a ciascun posto un numero non negativo di token. Una transizione $t \in T$ è abilitata in una marcatura $M$ se ogni posto di input contiene almeno un token: $\forall p \in {}^{\bullet}t : M(p) \geq 1$, dove ${}^{\bullet}t = {p \in P \mid (p, t) \in F}$ denota il pre-set di $t$. Lo scatto (firing) di una transizione abilitata rimuove un token da ciascun posto di input e aggiunge un token a ciascun posto di output [3].
Una workflow net (WF-net) è una rete di Petri con vincoli strutturali specifici per la modellazione dei processi [1, 3]. Formalmente, una rete di Petri $N = (P, T, F)$ è una WF-net se e solo se: (i) esiste un unico posto sorgente $i \in P$ tale che ${}^{\bullet}i = \emptyset$; (ii) esiste un unico posto pozzo $o \in P$ tale che $o^{\bullet} = \emptyset$; (iii) ogni nodo $n \in P \cup T$ si trova su un cammino da $i$ a $o$. La marcatura iniziale $[i]$ colloca un singolo token nel posto sorgente, e la marcatura finale $[o]$ corrisponde al completamento del caso. Una WF-net è sound se e solo se: da ogni marcatura raggiungibile dalla marcatura iniziale è possibile raggiungere la marcatura finale, e quando la marcatura finale è raggiunta non ci sono token residui in altri posti [3]. La soundness garantisce l'assenza di deadlock, livelock e garbage, proprietà essenziali per un modello di processo corretto.
Il diagramma seguente illustra una WF-net minimale con scelta esclusiva e parallelismo, evidenziando la struttura sorgente-pozzo e la semantica dei token.
graph LR
i((i)) --> t1[A]
t1 --> p1((p1))
t1 --> p2((p2))
p1 --> t2[B]
p1 --> t3[C]
t2 --> p3((p3))
t3 --> p3
p2 --> t4[D]
t4 --> p4((p4))
p3 --> t5[E]
p4 --> t5
t5 --> o((o))
Figura 1, WF-net con scelta esclusiva (B/C su p1) e sincronizzazione (E richiede token da p3 e p4). Il posto sorgente i e il posto pozzo o soddisfano i vincoli strutturali della definizione. La soundness è verificabile: da qualsiasi marcatura raggiungibile da [i], la marcatura [o] è raggiungibile senza token residui.
La rilevanza delle WF-net per il process mining risiede nel fatto che l'output dell'algoritmo Alpha e di molti algoritmi successivi è espresso come WF-net. Questo consente di applicare l'intero apparato di analisi delle reti di Petri, raggiungibilità, invarianti, proprietà strutturali, ai modelli scoperti, fornendo garanzie formali sulla correttezza del modello risultante.
Algoritmi di process discovery
L'algoritmo Alpha
L'algoritmo Alpha ($\alpha$-algorithm), introdotto da van der Aalst, Weijters e Mărușter nel 2004 [1], è stato il primo algoritmo di process discovery in grado di scoprire modelli con concorrenza a partire da log di eventi incompleti, fornendo al contempo garanzie formali sul risultato. Il suo contributo fondamentale non è tanto l'applicabilità pratica, che, come si vedrà, è limitata, quanto la dimostrazione che il problema della discovery è formalmente trattabile e la definizione del framework concettuale su cui si basano gli algoritmi successivi.
L'algoritmo opera in due fasi. Nella prima fase, costruisce una matrice delle relazioni (footprint matrix) analizzando le relazioni binarie tra coppie di attività osservate nel log. Date due attività $a, b \in A$, si definiscono quattro relazioni fondamentali basate sulla directly-follows relation: $a >_L b$ (l'attività $a$ è direttamente seguita da $b$ in almeno una traccia del log). Da questa relazione primitiva si derivano: la relazione causale $a \rightarrow_L b$ (se $a >_L b$ e $\neg(b >_L a)$), il parallelismo $a |_L b$ (se $a >_L b$ e $b >_L a$), la scelta esclusiva $a #_L b$ (se $\neg(a >_L b)$ e $\neg(b >_L a)$) [1, 3].
Nella seconda fase, l'algoritmo costruisce una WF-net a partire dalla matrice delle relazioni. Si identificano coppie di insiemi di attività $(A_i, B_i)$ tali che tutte le attività in $A_i$ abbiano una relazione causale con tutte le attività in $B_i$, tutte le attività all'interno di $A_i$ siano mutuamente in relazione di scelta, e analogamente per $B_i$. Ciascuna coppia massimale $(A_i, B_i)$ genera un posto nella WF-net risultante, con archi dalle transizioni corrispondenti ad $A_i$ al posto e dal posto alle transizioni corrispondenti a $B_i$ [1].
Le assunzioni dell'algoritmo Alpha ne delimitano rigorosamente l'applicabilità. L'algoritmo assume che il log sia completo rispetto alla directly-follows relation, ogni coppia di attività che possono seguirsi direttamente nel processo è effettivamente osservata nel log almeno una volta. Inoltre, l'algoritmo non gestisce loop di lunghezza 1 e 2 (un'attività che può ripetersi immediatamente o due attività che si alternano), non gestisce le transizioni silenti (attività invisibili nel log), e non è robusto rispetto al rumore, una singola traccia anomala può alterare la matrice delle relazioni e produrre un modello errato [1, 3]. Queste limitazioni hanno motivato lo sviluppo di una genealogia di algoritmi successivi.
Heuristics Miner
L'Heuristics Miner, proposto da Weijters, van der Aalst e Alves de Medeiros nel 2006 [5], affronta la principale debolezza dell'algoritmo Alpha: la sensibilità al rumore. L'intuizione chiave è sostituire le relazioni binarie booleane con misure basate sulla frequenza. Anziché determinare se $a \rightarrow_L b$ in modo assoluto, l'Heuristics Miner calcola un dependency measure $d(a, b)$ che quantifica la forza della relazione causale:
$$d(a, b) = \frac{|a >_L b| - |b >_L a|}{|a >_L b| + |b >_L a| + 1}$$
dove $|a >_L b|$ è il numero di occorrenze della directly-follows relation nel log [5]. Il valore di $d(a, b)$ è compreso nell'intervallo $(-1, 1)$: valori prossimi a 1 indicano una forte relazione causale da $a$ a $b$, valori prossimi a -1 una relazione inversa, valori prossimi a 0 assenza di relazione o parallelismo. La soglia di accettazione è un parametro configurabile che consente di filtrare il rumore: relazioni con $d(a, b)$ inferiore alla soglia vengono scartate.
Questo approccio introduce un trade-off esplicito tra sensitività e specificità che l'algoritmo Alpha non offre. Soglie basse producono modelli più complessi ma potenzialmente più fedeli al log; soglie alte producono modelli semplificati che catturano solo i percorsi principali del processo. L'Heuristics Miner gestisce inoltre loop di lunghezza 1 e 2 attraverso metriche dedicate e produce un causal net (C-net) anziché una WF-net, un formalismo che esplicita le dipendenze causali ma non ha la stessa ricchezza semantica delle reti di Petri [5].
Inductive Miner
L'Inductive Miner, introdotto da Leemans, Fahland e van der Aalst nel 2013 [6], rappresenta un cambio di paradigma nella process discovery. A differenza degli algoritmi precedenti, che costruiscono il modello direttamente dalle relazioni tra attività, l'Inductive Miner adotta una strategia divide-and-conquer che garantisce per costruzione la produzione di modelli sound.
L'algoritmo opera su process tree, un formalismo gerarchico dove i nodi interni rappresentano operatori di composizione e le foglie rappresentano attività o passi silenti ($\tau$). Gli operatori disponibili sono: sequenza ($\rightarrow$), scelta esclusiva ($\times$), esecuzione parallela ($\wedge$) e loop strutturato ($\circlearrowleft$). Un process tree è convertibile in una WF-net sound, il che implica che qualsiasi modello prodotto dall'Inductive Miner è privo di deadlock per costruzione, una proprietà che né l'algoritmo Alpha né l'Heuristics Miner possono garantire [6].
Il funzionamento dell'algoritmo procede ricorsivamente. Dato un log $L$, si costruisce il directly-follows graph (DFG), un grafo diretto pesato dove i nodi sono attività e gli archi rappresentano relazioni di directly-follows con il relativo conteggio. L'algoritmo cerca un taglio (cut) nel DFG che corrisponda a uno degli operatori del process tree: un taglio sequenziale identifica un punto dove il log può essere partizionato in una fase "prima" e una fase "dopo"; un taglio parallelo identifica gruppi di attività che si intrecciano senza un ordine fisso; un taglio di scelta identifica gruppi di attività mutuamente esclusivi. Se nessun taglio è trovato, si applica un fall-through: il log viene convertito in un modello "fiore" che accetta qualsiasi comportamento [6].
L'Inductive Miner Infrequent (IMi) [7] estende l'algoritmo base filtrando gli archi infrequenti dal DFG prima della ricerca del taglio. Questo produce un "modello all'80%" che cattura i percorsi principali del processo, escludendo il comportamento raro. L'approccio è particolarmente efficace su log reali dove il rumore e le eccezioni possono dominare le relazioni strutturali nel DFG.
Il limite strutturale dell'Inductive Miner è la restrizione ai modelli block-structured. Processi con comportamenti non block-structured, come i loop non strutturati o le dipendenze a lungo raggio tra attività distanti nella sequenza, non possono essere rappresentati fedelmente in un process tree. Questo introduce una tensione tra la garanzia di soundness e la capacità espressiva del modello.
Split Miner
Lo Split Miner, proposto da Augusto, Conforti, Dumas e La Rosa nel 2019 [8], affronta direttamente la tensione tra qualità del modello e scalabilità che affligge gli algoritmi precedenti. L'osservazione di partenza è che gli algoritmi di discovery tendono a produrre modelli con sbilanciamento tra fitness e precision, o modelli che riproducono fedelmente il log ma sono eccessivamente complessi (spaghetti model), o modelli semplici che generalizzano eccessivamente il comportamento osservato.
L'approccio si basa sulla costruzione di un DFG filtrato e sulla successiva trasformazione in un modello BPMN con gateway di split e join. Il contributo tecnico chiave è un algoritmo per la risoluzione dei conflitti nei punti di diramazione (split) che determina se un insieme di archi uscenti da un'attività rappresenta una scelta esclusiva, un parallelismo, o una combinazione dei due. Lo Split Miner è il primo algoritmo di discovery a garantire modelli privi di deadlock senza la restrizione alla struttura a blocchi dell'Inductive Miner [8].
La valutazione sperimentale su 12 log reali ha mostrato che lo Split Miner produce modelli con fitness e precision consistentemente bilanciate, con tempi di esecuzione da 2 a 6 volte inferiori rispetto agli algoritmi concorrenti [8]. L'output in formato BPMN, anziché rete di Petri o process tree, ne facilita l'adozione in contesti aziendali dove la notazione BPMN è lo standard de facto per la documentazione dei processi.
Conformance checking
Il conformance checking quantifica la discrepanza tra il comportamento osservato (registrato nel log) e il comportamento atteso (descritto da un modello). Si tratta del complemento analitico della process discovery: mentre la discovery costruisce un modello dai dati, il conformance checking valuta la coerenza tra modello e dati. Le applicazioni includono l'audit di conformità normativa, l'identificazione di deviazioni sistematiche nelle procedure operative e la validazione dei modelli scoperti [2, 3].
Token replay
La tecnica originale di conformance checking è il token replay [3]. Dato un modello espresso come WF-net e una traccia dal log, si simula l'esecuzione della traccia sulla rete: per ogni evento nella traccia, si cerca di scattare la transizione corrispondente. Se una transizione non è abilitata (mancano token nei posti di input), si generano i token mancanti (missing tokens) e si registra una deviazione. Al termine della traccia, i token rimasti in posti diversi dal posto pozzo (remaining tokens) indicano ulteriori deviazioni. La fitness viene calcolata come:
$$fitness = \frac{1}{2}\left(1 - \frac{m}{c}\right) + \frac{1}{2}\left(1 - \frac{r}{p}\right)$$
dove $m$ è il numero di token mancanti, $c$ il numero di token consumati, $r$ il numero di token rimasti e $p$ il numero di token prodotti [3]. Un valore di fitness pari a 1 indica riproduzione perfetta; valori inferiori quantificano il grado di deviazione.
Il token replay è computazionalmente efficiente, lineare nel numero di eventi, ma presenta limitazioni significative. La tecnica non è deterministica: quando più transizioni sono abilitate simultaneamente, la scelta influenza il conteggio dei token mancanti. Inoltre, il token replay non produce una spiegazione ottimale delle deviazioni: non distingue tra la deviazione "il modello non prevede questa attività" e "il modello prevede un'attività diversa" [9].
Alignment-based conformance checking
L'approccio basato su allineamenti (alignments), formalizzato da Adriansyah, van Dongen e van der Aalst [9], supera i limiti del token replay fornendo una spiegazione ottimale delle deviazioni tra traccia e modello. Un allineamento è una sequenza di coppie $(\sigma_L, \sigma_M)$ dove $\sigma_L$ è un evento del log (o $\gg$ se assente) e $\sigma_M$ è un'attività del modello (o $\gg$ se assente). Le coppie dove entrambi gli elementi sono presenti e concordi rappresentano mosse sincrone; le coppie con $\gg$ nel modello rappresentano mosse nel log (il log contiene un'attività non prevista dal modello); le coppie con $\gg$ nel log rappresentano mosse nel modello (il modello prevede un'attività non osservata nel log).
Il problema di trovare l'allineamento ottimale, quello che minimizza il costo totale delle deviazioni, è formulato come un problema di cammino minimo sul prodotto sincronizzato tra la traccia e il grafo di raggiungibilità della WF-net, ed è risolvibile con l'algoritmo A* [9]. Ogni deviazione è esplicitamente localizzata e classificata, consentendo analisi diagnostiche precise. Il costo computazionale, tuttavia, è significativamente superiore al token replay: la costruzione dello spazio degli stati è esponenziale nel caso peggiore, e per modelli complessi o tracce lunghe il calcolo può diventare intrattabile [9, 10].
Le tecniche di decomposizione propongono di partizionare il modello in sotto-componenti, calcolare gli allineamenti localmente e aggregare i risultati [10]. Questo approccio migliora la scalabilità ma può introdurre approssimazioni, poiché le deviazioni che coinvolgono attività in componenti diverse possono non essere catturate correttamente. La ricerca recente ha esplorato euristiche e tecniche di approssimazione per ridurre il costo computazionale mantenendo garanzie di qualità accettabili.
Dimensioni di qualità dei modelli scoperti
La valutazione di un modello di processo scoperto non può ridursi a una singola metrica. Buijs, van Dongen e van der Aalst [11] hanno formalizzato quattro dimensioni di qualità ortogonali che ogni algoritmo di discovery deve bilanciare: fitness, precision, generalization e simplicity.
La fitness (o replay fitness) misura la capacità del modello di riprodurre il comportamento osservato nel log. Un modello con fitness perfetta consente di eseguire (replay) ogni traccia del log senza deviazioni. La fitness è la dimensione prioritaria: un modello che non riproduce il comportamento osservato è fondamentalmente inadeguato, e ha senso valutare le altre dimensioni solo se la fitness è accettabile [11].
La precision misura il grado in cui il modello limita il comportamento al solo comportamento osservato. Un modello che ammette qualsiasi sequenza di attività (il cosiddetto "modello fiore") ha fitness perfetta ma precision minima, perché consente infiniti comportamenti mai osservati. La precision si quantifica contando gli escaping edges, punti nel modello dove è possibile una decisione che non è mai stata osservata nel log durante il replay [11].
La generalization misura la capacità del modello di descrivere comportamento futuro non ancora osservato. Un modello che accetta solo le tracce esattamente presenti nel log ha precision perfetta ma generalization minima, non è in grado di descrivere varianti plausibili del processo. La tensione tra precision e generalization è analoga al trade-off bias-varianza nel machine learning: un modello troppo specifico (overfit) non generalizza, un modello troppo generico (underfit) non è informativo [11].
La simplicity misura la complessità strutturale del modello. A parità delle altre dimensioni, un modello più semplice è preferibile perché più comprensibile e verificabile. La simplicity è tipicamente misurata comparando la dimensione del modello (numero di nodi, archi, elementi) con il numero di attività distinte nel log [11].
L'Evolutionary Tree Miner (ETM), introdotto nello stesso lavoro, è il primo algoritmo a consentire all'utente di specificare pesi relativi per le quattro dimensioni, guidando la ricerca verso il punto di equilibrio desiderato nello spazio delle soluzioni. L'approccio utilizza un algoritmo evolutivo che muta e ricombina process tree, valutando ciascun candidato rispetto alle quattro metriche. Questo framework ha reso esplicito un principio fondamentale: non esiste un "modello migliore" in senso assoluto, esiste un modello che bilancia le dimensioni di qualità in modo appropriato per lo scopo specifico dell'analisi [11].
Strumenti e adozione industriale
ProM
ProM è la piattaforma open-source di riferimento per la ricerca in process mining [3, 12]. Sviluppata presso la Technische Universiteit Eindhoven sotto la direzione di van der Aalst e colleghi, ProM adotta un'architettura a plugin che consente ai ricercatori di implementare e distribuire nuovi algoritmi senza modificare il framework. La piattaforma implementa la maggior parte degli algoritmi pubblicati nella letteratura, Alpha miner, Heuristics Miner, Inductive Miner, tecniche di conformance checking basate su allineamenti, e supporta nativamente il formato XES. ProM è stato il veicolo attraverso cui la ricerca accademica in process mining è stata resa accessibile alla comunità, e molti dei risultati sperimentali nella letteratura sono stati prodotti utilizzando questa piattaforma.
PM4Py
PM4Py [12] è una libreria open-source Python per il process mining, sviluppata inizialmente presso il Fraunhofer Institute for Applied Information Technology (FIT) e attualmente mantenuta da Process Intelligence Solutions GmbH. A differenza di ProM, che è un'applicazione desktop con interfaccia grafica, PM4Py è progettata per l'integrazione in pipeline di data science, offrendo API programmatiche per discovery, conformance checking e analisi di performance. La libreria supporta i formati XES e CSV, implementa gli algoritmi principali (Alpha miner, Inductive Miner, Heuristics Miner, conformance checking basato su allineamenti) e si integra con l'ecosistema Python (pandas, scikit-learn, Jupyter). L'integrazione recente con NVIDIA RAPIDS consente l'accelerazione su GPU di operazioni computazionalmente intensive su log di grandi dimensioni [12].
Adozione industriale
Il passaggio dal laboratorio all'industria è stato catalizzato da piattaforme commerciali, tra cui Celonis è la più consolidata. Fondata nel 2011 come spin-off della TU München, con van der Aalst come chief scientist, Celonis ha costruito una piattaforma di process intelligence che integra process mining, analisi predittiva e automazione delle azioni correttive. Gartner ha posizionato Celonis come Leader nel Magic Quadrant for Process Mining Platforms per tre anni consecutivi (2023-2025) [13], confermandone la posizione dominante. L'adozione industriale si concentra in settori con processi altamente strutturati e ad alto volume transazionale: order-to-cash, procure-to-pay, gestione dei sinistri assicurativi, supply chain management. In questi contesti, la capacità di identificare automaticamente deviazioni, colli di bottiglia e varianti non conformi del processo produce un ritorno misurabile in termini di riduzione dei tempi di ciclo e dei costi operativi.
Limiti e direzioni future
Dall'assunzione del caso singolo al process mining object-centric
La limitazione più fondamentale del process mining classico è l'assunzione che ogni evento appartenga a un singolo caso. Nella realtà, i processi aziendali coinvolgono simultaneamente più oggetti interconnessi: un ordine contiene più articoli, ciascuno prodotto in un lotto, consegnato con una spedizione, fatturato a un cliente. L'appiattimento di questa struttura multi-oggetto in un singolo case ID produce artefatti nel modello scoperto, duplicazione di attività, relazioni causali spurie, impossibilità di rappresentare la sincronizzazione tra oggetti [14].
Il process mining object-centric (OCPM), formalizzato da van der Aalst [14] e supportato dallo standard OCEL 2.0 [15], rimuove l'assunzione del caso singolo. In un event log object-centric, ogni evento può essere associato a più oggetti di tipi diversi, e le relazioni tra oggetti (object-to-object, O2O) sono esplicitate nel log stesso. OCEL 2.0, pubblicato nel 2023, supera i limiti della prima versione introducendo attributi dinamici degli oggetti (che possono cambiare nel tempo) e relazioni qualificate tra oggetti ed eventi [15]. La discovery object-centric produce modelli che rappresentano esplicitamente l'interazione tra tipi di oggetto, un salto qualitativo nella fedeltà della rappresentazione, al costo di una complessità significativamente superiore sia negli algoritmi sia nella visualizzazione.
Scalabilità computazionale
Il conformance checking basato su allineamenti, pur essendo teoricamente superiore al token replay, ha una complessità computazionale che ne limita l'applicabilità a processi con un numero elevato di attività o tracce lunghe. Lo spazio degli stati del prodotto sincronizzato cresce esponenzialmente, e anche con le ottimizzazioni A* il calcolo può richiedere ore su log industriali con milioni di eventi [9, 10]. Le tecniche di decomposizione [10] e gli approcci approssimati mitigano il problema ma introducono compromessi sulla qualità del risultato. La ricerca in questa area si sta muovendo verso soluzioni che combinano garanzie teoriche con vincoli di tempo di calcolo compatibili con l'analisi interattiva.
Rumore, concept drift e completezza del log
I log reali sono invariabilmente affetti da rumore (eventi errati o mancanti), incompletezza (non tutte le varianti del processo sono osservate) e concept drift (il processo cambia nel tempo). L'algoritmo Alpha, per costruzione, non tollera nessuna di queste condizioni. L'Heuristics Miner e l'Inductive Miner Infrequent gestiscono il rumore attraverso soglie di frequenza, ma il concept drift, un cambiamento nella struttura stessa del processo, richiede tecniche specifiche di rilevamento e segmentazione temporale del log [3]. La sfida è distinguere il rumore (deviazioni casuali) dalla variabilità strutturale (il processo ammette multiple varianti legittime) dall'evoluzione (il processo è cambiato in modo permanente). Questa distinzione richiede informazione contestuale che il solo log di eventi spesso non fornisce.
Integrazione con machine learning e predictive monitoring
La convergenza tra process mining e machine learning predittivo ha aperto il filone del predictive process monitoring: dato un caso in corso (una traccia parziale), prevedere il tempo di completamento, la prossima attività, o la probabilità di una violazione. Van der Aalst [3] ha inquadrato questo problema come una delle tre forme di operational support del process mining. Le architetture recenti combinano le rappresentazioni strutturali dei processi (grafi, reti di Petri) con modelli sequenziali (LSTM, transformer) per produrre previsioni che sono al contempo accurate e interpretabili attraverso il modello di processo. L'integrazione non è banale: i modelli di processo formalizzano il comportamento normativo, i modelli predittivi apprendono il comportamento effettivo, e la tensione tra i due riflette la tensione più generale tra spiegabilità e accuratezza.
Process mining e process intelligence
Il process mining si sta evolvendo da disciplina analitica a componente di sistemi di process intelligence che integrano scoperta, monitoraggio continuo e azione automatica. Il concetto di digital twin of an organization (DTO), proposto da van der Aalst [14], prevede una replica digitale in tempo reale dei processi operativi, alimentata continuamente da event stream e capace di simulare scenari what-if. La realizzazione di questo concetto richiede la convergenza di process mining, stream processing, simulazione e sistemi di raccomandazione, un'integrazione che è oggetto di ricerca attiva e che le piattaforme commerciali stanno iniziando a implementare in forma parziale.
Riferimenti
[1] W. van der Aalst, T. Weijters, L. Mărușter, "Workflow Mining: Discovering Process Models from Event Logs," IEEE Transactions on Knowledge and Data Engineering, vol. 16, no. 9, pp. 1128-1142, 2004. https://doi.org/10.1109/TKDE.2004.47
[2] W. van der Aalst et al., "Process Mining Manifesto," in Proc. BPM 2011 Workshops, LNBIP 99, Springer, pp. 169-194, 2012. https://link.springer.com/chapter/10.1007/978-3-642-28108-2_19
[3] W. van der Aalst, Process Mining: Data Science in Action, 2nd ed., Springer, 2016. https://link.springer.com/book/10.1007/978-3-662-49851-4
[4] IEEE Task Force on Process Mining, "IEEE Standard for eXtensible Event Stream (XES) for Achieving Interoperability in Event Logs and Event Streams," IEEE Std 1849-2016, 2016. https://www.tf-pm.org/resources/xes-standard
[5] A. Weijters, W. van der Aalst, A. Alves de Medeiros, "Process Mining with the HeuristicsMiner Algorithm," BETA Working Paper Series WP 166, Technische Universiteit Eindhoven, 2006. https://research.tue.nl/en/publications/process-mining-with-the-heuristicsminer-algorithm
[6] S. Leemans, D. Fahland, W. van der Aalst, "Discovering Block-Structured Process Models from Event Logs - A Constructive Approach," in Proc. International Conference on Application and Theory of Petri Nets and Concurrency (Petri Nets 2013), LNCS 7927, Springer, pp. 311-329, 2013. https://doi.org/10.1007/978-3-642-38697-8_17
[7] S. Leemans, D. Fahland, W. van der Aalst, "Discovering Block-Structured Process Models from Event Logs Containing Infrequent Behaviour," in Proc. BPM 2013 Workshops, LNBIP 171, Springer, pp. 66-78, 2014. https://doi.org/10.1007/978-3-319-06257-0_6
[8] A. Augusto, R. Conforti, M. Dumas, M. La Rosa, "Split Miner: Automated Discovery of Accurate and Simple Business Process Models from Event Logs," Knowledge and Information Systems, vol. 59, pp. 251-284, 2019. https://doi.org/10.1007/s10115-018-1214-x
[9] A. Adriansyah, Aligning Observed and Modeled Behavior, PhD Thesis, Technische Universiteit Eindhoven, 2014. https://research.tue.nl/en/publications/aligning-observed-and-modeled-behavior
[10] W. van der Aalst, "Distributed Process Discovery and Conformance Checking," in Proc. FASE 2012, LNCS 7212, Springer, pp. 1-25, 2012. https://www.vdaalst.com/publications/p667.pdf
[11] J. Buijs, B. van Dongen, W. van der Aalst, "Quality Dimensions in Process Discovery: The Importance of Fitness, Precision, Generalization and Simplicity," International Journal of Cooperative Information Systems, vol. 23, no. 1, 2014. https://doi.org/10.1142/S0218843014400012
[12] A. Berti, S. van Zelst, W. van der Aalst, "Process Mining for Python (PM4Py): Bridging the Gap Between Process- and Data Science," in Proc. ICPM Demo Track (CEUR 2374), 2019. https://arxiv.org/abs/1905.06169
[13] Gartner, "Magic Quadrant for Process Mining Platforms," 2025. https://www.celonis.com/analyst-reports/gartner-magic-quadrant-2024/
[14] W. van der Aalst, "Object-Centric Process Mining: An Introduction," in Proc. Process Mining Handbook, LNBIP 448, Springer, pp. 1-29, 2022. https://www.vdaalst.rwth-aachen.de/publications/p1398.pdf
[15] W. van der Aalst et al., "OCEL 2.0: Enabling Object-Centric Process Mining," 2023. https://www.vdaalst.com/publications/p1435.pdf