Il framework sviluppato a Losanna documenta dati, codice e valutazioni per rendere più ispezionabile l’uso dei modelli linguistici nella sanità

La sanità è uno dei campi in cui l’adozione dell’intelligenza artificiale e dei big data procede con maggiore cautela, non per mancanza di interesse, ma perché l’errore ha conseguenze dirette sulle persone. I grandi modelli linguistici sono già utilizzati, o sperimentati, per sostenere il lavoro dei medici: possono aiutare a orientare una diagnosi, sintetizzare documentazione clinica, suggerire priorità o assistere nelle decisioni in pronto soccorso. Il punto critico, però, resta la verificabilità. Se un sistema produce una raccomandazione senza rendere accessibili dati, metodi e criteri di addestramento, il controllo indipendente diventa fragile.
È su questo nodo che interviene MeditronFO, annunciato dall’École Polytechnique Fédérale de Lausanne. Secondo l’ateneo vodese, si tratta del primo framework completamente aperto per costruire large language model medici. L’accento non è posto soltanto sulla disponibilità del modello finale, ma sull’intera catena di sviluppo: dati, codice, procedure di addestramento, documentazione e valutazioni. In un settore regolato, sensibile e basato sulla responsabilità professionale, questa differenza non è marginale.
Il progetto nasce nel Laboratory for Intelligent Global Health and Humanitarian Response Technologies, noto come LiGHT, all’interno della School of Computer and Communication Sciences di EPFL. La base tecnica è quella già aperta da Meditron, rilasciato nel 2023, ma l’evoluzione presentata ora punta a rendere più completa la trasparenza dell’intero metodo di costruzione. L’obiettivo dichiarato è permettere la “medicalizzazione” di modelli aperti di base, cioè il loro adattamento al dominio sanitario attraverso conoscenza clinica, dataset documentati e procedure di validazione specifiche.
Perché l’apertura pesa più del solo rilascio del modello
Nel linguaggio dell’AI, la parola “open” viene usata spesso in modo disomogeneo. Un modello può rendere disponibili i pesi, ma mantenere opachi i dataset, le fasi di filtraggio, le scelte di addestramento o i protocolli di valutazione. Per l’uso clinico questa apertura parziale crea un problema di audit: ospedali, ricercatori, autorità e comunità mediche possono vedere il risultato, ma non sempre ricostruire come sia stato ottenuto.
MeditronFO prova a colmare questa distanza. Il framework è stato applicato a modelli di base completamente aperti, fra cui OLMo, EuroLLM e Apertus, modello svizzero sviluppato da EPFL ed ETH Zurich nell’ambito della Swiss AI Initiative. Il passaggio è rilevante perché sposta l’attenzione dalla prestazione isolata alla tracciabilità dello sviluppo. In medicina, conoscere il percorso con cui un sistema arriva a una risposta può essere importante quanto misurare l’accuratezza della risposta stessa.
Xavier Theimer-Lienhard, dottorando che guida Meditron presso LiGHT, sintetizza il principio con un paragone diretto tra formazione clinica e formazione dei modelli.
“Non ci fideremmo mai di un medico la cui formazione non possa essere verificata: lo stesso standard dovrebbe valere per l’AI in sanità”.
La dichiarazione chiarisce un aspetto spesso trascurato nel dibattito sui sistemi generativi: l’affidabilità non coincide con la disponibilità di un’interfaccia efficace. Richiede invece documentazione, riproducibilità e possibilità di controllo. Il tema riguarda anche la sicurezza e privacy, perché i modelli sanitari trattano conoscenze e dati che possono avvicinarsi a informazioni sensibili, anche quando non includono direttamente cartelle cliniche identificabili.
La componente aperta non elimina da sola i rischi di bias, errori o usi impropri. Riduce però una delle principali barriere all’analisi indipendente. In altre parole, non garantisce automaticamente la sicurezza clinica, ma rende più concreto il lavoro di verifica, confronto e miglioramento.

Clinici coinvolti nella costruzione, non solo nella prova finale
Un elemento distintivo del progetto è il coinvolgimento dei professionisti sanitari fin dalle prime fasi. Secondo EPFL, MeditronFO è stato costruito con clinici chiamati a contribuire alla selezione dei dati, alla validazione degli output e all’identificazione di possibili criticità. Questo approccio riduce il rischio di sviluppare strumenti formalmente sofisticati ma poco aderenti alla pratica quotidiana.
La validazione passa anche da MOOVE, acronimo di Massive Open Online Validation and Evaluations, ambiente attraverso cui i clinici partecipano alla valutazione e al miglioramento continuo dei modelli. Per una tecnologia destinata a dialogare con la medicina reale, il punto è essenziale: il problema non è soltanto rispondere correttamente a un quesito, ma farlo in condizioni simili a quelle in cui un medico lavora, con limiti di tempo, informazioni incomplete e responsabilità operative.
Il framework combina dataset medici pubblici con dati sintetici revisionati da clinici, derivati da esami medici, linee guida e casi paziente realistici. La fonte EPFL indica inoltre l’uso di un insieme di dataset clinici curati da esperti e tratti da oltre 46.000 linee guida di pratica clinica. È un dato importante perché mostra la scala della base documentale usata per specializzare i modelli, ma va letto insieme alla questione della qualità: in sanità, la quantità di conoscenza incorporata non basta se non è accompagnata da selezione, revisione e contestualizzazione.
Mary-Anne Hartley, medico e direttrice di ,LiGHT collega la competitività dei modelli al ruolo attivo di clinici e comunità.
“I nostri risultati mostrano che modelli medici competitivi possono essere costruiti con il coinvolgimento attivo di clinici e comunità”.
Questo passaggio ha un’implicazione organizzativa. L’AI medica non viene presentata come uno strumento calato dall’esterno sul sistema sanitario, ma come un’architettura software da sviluppare con chi conosce procedure, errori ricorrenti, vincoli istituzionali e differenze tra contesti. Per imprese healthtech, centri universitari e ospedali, la lezione è chiara: il trasferimento dal centro di ricerca e sviluppo alla pratica clinica richiede governance, non solo potenza computazionale.

Risultati tecnici e ruolo della grande capacità di calcolo elvetica
Sul piano delle prestazioni, EPFL riferisce che ogni modello MeditronFO ha superato il rispettivo modello di base. Il risultato migliore indicato nel comunicato riguarda Apertus-70B-MeditronFO, che ha migliorato le performance su esami medici di 6,6 punti percentuali rispetto al modello sottostante. Il dato va interpretato con prudenza: i benchmark sono utili per confrontare configurazioni tecniche, ma non sostituiscono valutazioni cliniche in ambienti reali.
La rilevanza industriale del caso sta anche nell’infrastruttura che lo sostiene. Lo sviluppo di MeditronFO è stato supportato dalla Swiss AI Initiative, collaborazione tra EPFL, ETH Zurich e CSCS, il Centro Svizzero di Calcolo Scientifico. Secondo il sito dell’iniziativa, il programma è stato avviato nel dicembre 2023 con oltre 10 milioni di ore GPU su Alps, il supercomputer gestito da CSCS, e con un finanziamento di 20 milioni di franchi svizzeri da parte del Dominio dei Politecnici Federali.
Questi numeri mostrano perché la competizione sull’AI sanitaria non riguarda solo algoritmi e dataset. Servono capacità di calcolo, competenze distribuite, infrastrutture di valutazione e una massa critica di ricerca. La stessa Swiss AI Initiative dichiara di beneficiare del contributo di oltre 800 ricercatori, inclusi 70 professori focalizzati sull’AI, da più di dieci istituzioni accademiche in Svizzera. In questo quadro, il supercomputer non è un semplice acceleratore tecnico, ma una componente della sovranità scientifica.
Anche il legame con Apertus rafforza questa lettura. Il sito del progetto lo descrive come foundation model pienamente aperto per l’AI sovrana, sviluppato dalla Swiss AI Initiative con EPFL, ETH Zurich e CSCS. Apertus dichiara apertura di pesi, dati, codice, metodi e principi di allineamento. MeditronFO usa questa base come uno dei modelli da specializzare in ambito medico, mostrando come una scelta di apertura a monte possa generare applicazioni verticali più controllabili.

Dalla sperimentazione ai reparti, il banco di prova in Tanzania
Il passaggio successivo non sarà soltanto un nuovo confronto tra modelli. Secondo EPFL, il team sta preparando studi clinici in più siti, dalla Svizzera alla Tanzania, per valutare come i medici utilizzano l’AI in contesti sanitari reali. Le sperimentazioni osserveranno se i clinici seguono o respingono le raccomandazioni generate e in che modo queste decisioni incidono sull’assistenza ai pazienti.
Il progetto pluriennale citato da EPFL, denominato MED.USE, punta anche a capire se l’AI possa contribuire a migliorare la qualità delle cure riducendo trattamenti e interventi non necessari. È un terreno delicato: un sistema di supporto decisionale può essere utile se aumenta la qualità dell’informazione disponibile, ma può diventare problematico se introduce automatismi o incentiva un eccesso di fiducia nella raccomandazione algoritmica.
Hartley richiama proprio la necessità di misurare l’effetto nei percorsi di cura, non soltanto nei test tecnici.
“È importante ottenere feedback dal mondo reale basati sugli esiti dei pazienti”.
L’AI clinica sarà più credibile quando potrà essere ispezionata
Per il settore sanitario, MeditronFO suggerisce una direzione precisa: l’AI clinica sarà più credibile quando potrà essere ispezionata, adattata e valutata da comunità indipendenti. Per le imprese, significa che i modelli proprietari dovranno confrontarsi con aspettative crescenti di trasparenza. Per le istituzioni, il tema riguarda la capacità di definire regole che distinguano tra apertura formale e apertura effettiva.
Non è realistico pensare che tutti i sistemi medici basati su machine learning e deep learning diventino completamente aperti. È però plausibile che la sanità chieda standard più elevati di documentazione, auditabilità e responsabilità, soprattutto quando l’AI entra in aree decisionali. In questo senso, MeditronFO non va letto solo come un nuovo modello, ma come un esperimento di governance tecnica: rende visibile ciò che spesso resta nascosto dietro una risposta generata.
La domanda decisiva non riguarda quindi la promessa astratta di un’AI più potente. Riguarda il tipo di infrastruttura che sistemi sanitari, università e regolatori intendono accettare. Se i modelli diventeranno parte della pratica clinica, la fiducia dovrà poggiare su elementi verificabili: provenienza dei dati, controlli indipendenti, prestazioni misurate in modo trasparente e responsabilità umane riconoscibili. MeditronFO mette questi elementi al centro del discorso, lasciando alla sperimentazione clinica il compito di valutarne la tenuta operativa.
Meditron “open source”: flussi operativi di AI verificabili per LLM clinici
Ecco tre approfondimenti che potrebbero interessarti:
Dall’EPFL un nuovo modello multimodale per un’AI più flessibile
È Apertus la “open AI” svizzera per un futuro più trasparente
A Ginevra un hub sanitario all’avanguardia tutto basato sull’AI







