La quantità di dati è in crescita. richiamando i 300 Petabyte, mediamente quanto tempo gli algoritmi di verifica dei dati (per teorie, classificazioni, ...) hanno bisogno? Vorrei chiedere ancora un altro piccolo dettaglio, si conoscono molti algoritmi in matematica discreta che sono inclusi in NP, ne esistono anche qua, con magari qualche approssimazione per renderlo polinomiale? Cristian
I dati sono l’elemento chiave per la fisica. Essi sono una serie di eventi. L’evento di interesse fisico è definito da una sequenza di segnali nei rivelatori in un dato intervallo di tempo. I dati selezionati e registrati su cartelle temporanee sono verificati in tempo quasi reale dalle persone in turno di presa dati con gli strumenti di Data Quality Monitoring (DQM). La presa dati è organizzata in intervalli di tempo, detti run, in cui le condizioni sperimentali non sono modificate. Dopo un intervallo di tempo fissato (ad esempio, 15 minuti) di presa dati in un run e poi periodicamente (ad esempio, ogni ora), i grafici online della DQM sono confrontati con quelli di riferimento attesi. In questo modo si individuano eventuali problemi ai rivelatori, all’elettronica di lettura, alle condizioni sperimentali (fasci di particelle, il vuoto nella camera di reazione, la struttura del bersaglio, …) e si prendono, di conseguenza, decisioni sugli eventuali interventi. In fisica delle alte energie, un evento di interesse impiega qualche secondo per essere ricostruito e appare su un event display in qualche minuto. Ad ogni run corrisponde un file, o una serie di file, scritti dal sistema di acquisizione dati, il cui nome di norma include data-ora (timestamp) e un codice identificativo alfanumerico. Ogni file presenta una struttura di testa (header), gli eventi di fisica e una sequenza di corretta chiusura; la sua dimensione dipende dalla dimensione del singolo evento (quante informazioni occorre conservare per ogni evento) e dal cosiddetto rate di acquisizione di eventi selezionati dal trigger, ovvero dal numero di eventi contenuti nel run. Le risorse di calcolo necessarie per l’analisi dell’enorme mole di eventi prodotta da esperimenti scientifici richiedono spesso migliaia di computer che siano in rete e in grado di eseguire programmi come se fossero un unico calcolatore.
L’idea vincente è l’uso di più computer in parallelo. Alcuni fra i più importanti centri di ricerca hanno oramai unito le proprie risorse di calcolo per realizzare, grazie alla tecnologia GRID computing, un mega calcolatore distribuito della potenza di svariati teraflops, ovvero in grado di svolgere 1012 calcoli tra variabili (operazioni in virgola mobile) al secondo. La collaborazione scientifica a livello informatico diventa così un’organizzazione virtuale; ciascun membro è dotato di un certificato personale, cioè un documento informatico che ne garantisce l’identità. I membri accedono ai dati e svolgono le analisi con le risorse di calcolo distribuito attraverso la GRID. La potenza di calcolo è disponibile in svariati centri sparsi nel mondo: l’utente sceglie lui stesso, ma più spesso avvalendosi di servizi automatici, i siti maggiormente disponibili e affidabili ove inviare i programmi di lavoro, detti job, della sua analisi. Passano diversi mesi (o anche alcuni anni) dal momento in cui il rilevatore dell’esperimento ha raccolto i segnali degli eventi oggetto dello studio di fisica da pubblicare. Decine, centinaia o migliaia di persone hanno contribuito al risultato finale, secondo le proprie competenze scientifiche o tecnologiche. Gli scienziati scrivono programmi per l’analisi dei dati dove si usano approssimazioni polinomiali, convoluzioni di curve, fit di andamenti; la matematica e la statistica sono punti cardine delle analisi dati.
PER SAPERNE DI PIU’
Percorso divulgativo Un viaggio dalla collisione alla pubblicazione scientifica
Andrea Gozzelino, fisico
ultimo aggiornamento giugno 2019