L'immagine mostra alcuni dei rack presenti nella sala server del datacenter ReCaS. Una parte delle risorse di calcolo e storage del centro sono messe a disposizione di ricercatori di diverse comunità scientifiche attraverso servizi cloud di diverso tipo (Infrastructure as a Service, Platform as a Service e Software as a Service).

L’Istituto Nazionale di Fisica Nucleare (INFN) ha una lunga tradizione di supporto, sviluppo ed utilizzo di infrastrutture di calcolo e storage distribuito.

Negli ultimi anni, ci sono state varie iniziative volte ad integrare l’esistente infrastruttura di calcolo distribuito, basata su Grid e da lungo tempo in produzione, con l’emergente paradigma del Cloud Computing, riconoscendo in queste tecnologie interessanti opportunità per creare un modello di gestione delle risorse sostenibile nel tempo e le capacità di fornire metodi semplificati di accesso alle risorse e ai servizi che favoriscano la condivisione anche con ricercatori di discipline scientifiche diverse dalla fisica delle alte energie.

La Sezione di Bari ha fornito contributi importanti sia a livello nazionale tramite i PON 2007-2013 (per esempio PRISMA) sia a livello internazionale partecipando ai progetti di ricerca nel campo ICT del programma H2020.

Per citarne alcuni: INDIGO DataCloud (2015-2017) che si proponeva di realizzare una PaaS (Platform-as-a-Service) che permetta agli utenti finali di accedere in modo trasparente ed efficiente alle risorse di calcolo e storage rese disponibili da infrastrutture eterogenee e geograficamente distribuite; DEEP-Hybrid DataCloud (2017-2019) che ha esteso le soluzioni sviluppate in INDIGO ponendo particolare attenzione all’orchestrazione di deployment multi sito e all’uso di hardware specializzato, indispensabili per l’esecuzione di algoritmi di deep e machine learning; eXtreme-DataCloud (2017-2019) che ha studiato e sviluppato soluzioni di storage a livello exabyte, di sistemi di cache intelligenti e di accesso ottimizzato a risorse di storage distribuite; etc.

Grazie all’esperienza e al know-how acquisito durante questi progetti e all’interno delle iniziative cloud della CCR, la Sezione di Bari è coinvolta fin dall’inizio nel progetto INFN Cloud volto alla realizzazione di una cloud nazionale e di servizi di alto livello per le varie comunità di ricercatori dell’INFN.

Dal punto di vista architetturale, INFN Cloud implementa uno dei modelli più promettenti per la gestione di grandi quantità di dati (che è una delle sfide attuali e lo sarà anche nel prossimo futuro), ovvero il modello del "data lake", che prevede un consolidamento dei dati in pochi centri, con CPU potenzialmente distribuite anche in centri satelliti, sia pubblici sia privati.

Basandosi su questo modello, INFN Cloud è costituita da

  • un backbone che comprende i due centri principali di calcolo e dati dell’INFN (CNAF e RECAS Bari) e che viene usato per ospitare i core services di INFN Cloud;
  • un set di cloud federate distribuite sul territorio nazionale che mettono a disposizione risorse di calcolo. Potenzialmente, in futuro potrebbero essere federate anche infrastrutture cloud esterne di interesse dell’ente.

L'immagine mostra il modello "data-lake" per la gestione di grandi quantità di dati. Su questo modello che prevede un consolidamento dei dati in pochi centri, con CPU potenzialmente distribuite anche in centri satelliti, si basa l'architetura di INFN Cloud

La federazione tra il backbone e le altre cloud è realizzata attraverso la PaaS di INDIGO, che consente di orchestrare le risorse distribuite sui vari siti cloud in modo trasparente.

I servizi offerti da INFN Cloud comprendono tutti i livelli del paradigma cloud (IaaS, PaaS e SaaS) e sono descritti in un linguaggio standard (TOSCA) che consente di implementare facilmente un meccanismo di composizione dei servizi che rende il portfolio facilmente estendibile.

L'immagine mostra un diagramma dell'architettura di alto livello della PaaS di INDIGO, il sistema di orchestrazione e federazione di ambienti cloud eterogenei che consente di eseguire il deployment automatico di servizi e applicazioni (anche complessi) su cloud private o pubbliche o l'esecuzione di container su cluster Kubernetes/Mesos o la sottomissione di job su siti HPC.

La sezione di Bari contribuisce attivamente alle attività del progetto sia sulla parte infrastrutturale e di monitoring, sia su quella di sviluppo e manutenzione dei servizi core e di alto livello, supportando gli use-case delle comunità scientifiche dell’ente che stanno facendo richieste di utilizzo delle risorse e porting delle loro applicazioni e workflow scientifici in cloud.

La parola d’ordine è automazione per cui i servizi implementati sono utilizzabili “chiavi in mano” dagli utenti finali ai quali non sono richieste skill avanzate in ambito IT. Per far questo ci si avvale di soluzioni open-source consolidate (come ansible) e delle tecnologie basate sui container (docker in particolare).

Attraverso l’approccio basato sulla composizione di servizi, è possibile creare anche cluster complessi (per esempio un batch system come HTCondor, o un cluster Kubernetes) che possono essere customizzati a seconda delle esigenze della comunità/esperimento.

L'immagine mostra il portfolio dei servizi di INFN Cloud disponibile attraverso la Dashboard della PaaS.

Il contributo orale fornirà dettagli su applicazioni concrete che sono state adottate da esperimenti come CYGNO ed HERD e nell’ambito del progetto ML_INFN e che possono essere riutilizzate ed estese potenzialmente per attività di interesse della Sezione.     

Infine, un’attività molto importante che vede coinvolta la nostra sede è quella di formazione, sia tecnica per diffondere il know-how relativo alle tecnologie utilizzate, sia di base come la sicurezza informatica.

 

Relatore: Marica Antonacci

Data: 04/02/2022