La rapida e variegata evoluzione delle tecnologie hardware e software a supporto del calcolo parallelo sta portando ad una diffusione dei siti HPC. Sempre più gruppi di ricerca si avvicinano a queste tecnologie, bisognosi di quantità progressivamente maggiori di storage e potenza di calcolo. Il data center ReCaS-Bari offre già da tempo soluzioni per il calcolo parallelo, un sistema di memorizzazione distribuito e personale specializzato nel supporto agli utenti.
La progettazione di una applicazione da eseguire su una infrastruttura parallela richiede una conoscenza adeguata. L’implementazione del calcolo distribuito ne è solo il primo passo. La gestione degli errori dei processi distribuiti e l’utilizzo efficiente delle risorse assegnate, sono requisiti necessari e allo stesso tempo ambiziosi. Il supporto di gruppi di ricerca e aziende che forniscono librerie e applicazioni gia' ottimizzate per il calcolo parallelo, minimizzano gli sforzi necessari allo sviluppo di applicazioni distribuite.
Le schede grafiche (Graphical Processing Unit, GPU) hanno permesso di raggiungere un livello superiore di prestazioni rispetto ai processori (Control Processing Unit, CPU), a scapito di un aumento della complessita'. L'enorme quantità di core presenti e il massiccio parallelismo offerto, rendono le GPU nettamente superiori alle CPU nelle applicazioni altamente ripetitive e parallele. Applicazioni scientifiche che utilizzano elaborazioni video, modelli climatologici e fluidodinamica e algoritmi di intelligenza artificiale non possono più esimersi dall'impiego delle GPU.
La maggior potenza di calcolo a disposizione ha permesso di mostrare l'enorme potere esplicativo e predittivo di molti modelli matematici elaborati da diversi decenni. Un esempio è fornito dagli algoritmi di Deep Learning che hanno dimostrato la propria utilità in un'ampia gamma di settori e applicazioni.
L'istituto Nazionale di Fisica Nucleare (INFN) e l'Università di Bari hanno investito in questo ambito costruendo nel data center ReCaS-Bari un cluster HPC, configurato e ottimizzato in particolar modo per applicazioni che utilizzano GPU. Il servizio mette a disposizione 1755 core, 13.7 TB di RAM, 55 TB di disco e 38 GPU ad alte prestazioni (18 Nvidia A100 e 20 V100) e l'accesso allo storage basato su GPFS di ReCaS-Bari, con circa 3800 TB complessivi. Il cluster GPU è gestito utilizzando Apache Mesos, un gestore di risorse altamente scalabile, affidabile e flessibile, e Docker container, che aggiunge sicurezza e facilita' nell'utilizzo e nella configurazione della propria applicazione.
Al momento i servizi offerti sono rappresentati dagli IDE interattivi da remoto (Jupyter Notebook e RStudio) e dalla possibilità di sottomettere workflow descrivibili attraverso Directed Acyclic Graphs (DAG), ovvero strumenti indispensabili per lo sviluppo e l’avvio in produzione di applicazioni parallele e basate su GPU.
Verranno, inoltre, mostrate tutte le attività di R&D attualmente in corso atte a sviluppare ulteriormente le tecnologie cloud compute e storage aventi come obiettivo quello di supportare gli algoritmi di AI per gli use case scientifici.
Relatore: Vino Gioacchino