Questo rapporto tecnico analizza l'ottimizzazione e la scalabilità dei modelli di deep learning mediante l'implementazione delle tecniche avanzate offerte dalla libreria DeepSpeed1. Attraverso un caso pratico basato su minGPT2, un'implementazione semplificata dei modelli Transformer3, vengono illustrate strategie per affrontare le sfide legate alla crescente complessità dei modelli e all'incremento del fabbisogno di risorse computazionali. In particolare, vengono esplorati metodi per ottimizzare l'uso della memoria durante l'addestramento, accelerare i calcoli e ridurre l'overhead computazionale, migliorando l'efficienza dell'addestramento distribuito su infrastrutture multi-GPU.

Ottimizzazione e Scalabilità dei Modelli con DeepSpeed: Implementazione di Vision Transformers su minGPT

Francesco Gargiulo
;
Antonio Francesco Gentile;Emilio Greco
2025

Abstract

Questo rapporto tecnico analizza l'ottimizzazione e la scalabilità dei modelli di deep learning mediante l'implementazione delle tecniche avanzate offerte dalla libreria DeepSpeed1. Attraverso un caso pratico basato su minGPT2, un'implementazione semplificata dei modelli Transformer3, vengono illustrate strategie per affrontare le sfide legate alla crescente complessità dei modelli e all'incremento del fabbisogno di risorse computazionali. In particolare, vengono esplorati metodi per ottimizzare l'uso della memoria durante l'addestramento, accelerare i calcoli e ridurre l'overhead computazionale, migliorando l'efficienza dell'addestramento distribuito su infrastrutture multi-GPU.
2025
Istituto di Calcolo e Reti ad Alte Prestazioni - ICAR
Rapporto intermedio di progetto
DeepSpeed, minGPT, Transformer
File in questo prodotto:
File Dimensione Formato  
RT-ICAR-NA-2025-02.pdf

accesso aperto

Licenza: Dominio pubblico
Dimensione 1.19 MB
Formato Adobe PDF
1.19 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/565406
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact