Mastodon
Connect with us

Generative AI

Η NVIDIA Κατακτά Όλα τα Σημεία Αναφοράς στο MLPerf Training v5.1

Η NVIDIA κυριαρχεί στο MLPerf Training v5.1, κατακτώντας όλα τα σημεία αναφοράς με την αρχιτεκτονική Blackwell Ultra και την ακρίβεια NVFP4.

Published

on

Η NVIDIA Κατακτά Όλα τα Σημεία Αναφοράς στο MLPerf Training v5.1

Η σημασία της εκπαίδευσης στην εποχή της AI

Στην εποχή που η τεχνητή νοημοσύνη (AI) καθορίζει το μέλλον, η εκπαίδευση πιο έξυπνων και ικανών μοντέλων αποτελεί κρίσιμο παράγοντα για την κλιμάκωση της νοημοσύνης. Για να ανταποκριθούμε σε αυτή τη νέα εποχή, απαιτούνται τεχνολογικές επαναστάσεις και καινοτομίες σε τομείς όπως οι επεξεργαστές γραφικών (GPUs), οι κεντρικές μονάδες επεξεργασίας (CPUs), τα δίκτυα (NICs), καθώς και στις αρχιτεκτονικές συστημάτων και σε ένα πλήθος λογισμικών και αλγορίθμων.

Η κυριαρχία της NVIDIA στο MLPerf Training v5.1

Στο πλαίσιο του MLPerf Training v5.1 — της πιο πρόσφατης σειράς δοκιμών που αποτελούν σημείο αναφοράς για την απόδοση της εκπαίδευσης AI — η NVIDIA κατέκτησε όλες τις δοκιμές, καταφέρνοντας τον ταχύτερο χρόνο εκπαίδευσης σε μεγάλες γλωσσικές μοντέλα (LLMs), δημιουργία εικόνων, συστήματα σύστασης, υπολογιστική όραση και γραφηματικά νευρωνικά δίκτυα.

Η ευελιξία της πλατφόρμας της NVIDIA

Η NVIDIA ήταν η μόνη πλατφόρμα που υπέβαλε αποτελέσματα για κάθε δοκιμή, κάτι που υπογραμμίζει την πλούσια προγραμματισιμότητα των NVIDIA GPUs και την ωριμότητα και ευελιξία της στοίβας λογισμικού CUDA.

Η αρχιτεκτονική Blackwell Ultra της NVIDIA

Το σύστημα GB300 NVL72 σε κλίμακα ραφιού, με την αρχιτεκτονική Blackwell Ultra GPU της NVIDIA, έκανε το ντεμπούτο του σε αυτή τη δοκιμαστική σειρά MLPerf Training, ακολουθώντας μια εντυπωσιακή εμφάνιση στον πιο πρόσφατο γύρο MLPerf Inference.

Σημαντικές βελτιώσεις απόδοσης

Σε σύγκριση με την προηγούμενη γενιά αρχιτεκτονικής Hopper, το σύστημα GB300 NVL72 με βάση την αρχιτεκτονική Blackwell Ultra προσέφερε πάνω από 4 φορές την απόδοση στην προεκπαίδευση του Llama 3.1 405B και σχεδόν 5 φορές την απόδοση στην εκπαίδευση Llama 2 70B LoRA, χρησιμοποιώντας τον ίδιο αριθμό GPUs.

Η τεχνολογία πίσω από τις βελτιώσεις

Αυτές οι αυξήσεις στην απόδοση οφείλονται στις αρχιτεκτονικές βελτιώσεις της Blackwell Ultra — περιλαμβάνοντας νέους Tensor Cores που προσφέρουν 15 πεταφλόπς υπολογιστικής ισχύος NVFP4 AI, διπλάσια υπολογιστική ισχύς στα επίπεδα προσοχής και 279GB μνήμης HBM3e — καθώς και σε νέες μεθόδους εκπαίδευσης που αξιοποίησαν την τεράστια υπολογιστική απόδοση NVFP4 της αρχιτεκτονικής.

Η επανάσταση του NVFP4 στην εκπαίδευση LLM

Κλειδί για τα εξαιρετικά αποτελέσματα αυτής της σειράς ήταν η χρήση υπολογισμών με ακρίβεια NVFP4 — μια πρωτιά στην ιστορία του MLPerf Training.

Η σημασία της ακρίβειας NVFP4

Ένας τρόπος για να αυξηθεί η υπολογιστική απόδοση είναι να δημιουργηθεί μια αρχιτεκτονική ικανή να εκτελεί υπολογισμούς σε δεδομένα με λιγότερα bits, και να εκτελούνται αυτοί οι υπολογισμοί με ταχύτερο ρυθμό. Ωστόσο, η χαμηλότερη ακρίβεια σημαίνει λιγότερες διαθέσιμες πληροφορίες σε κάθε υπολογισμό. Αυτό απαιτεί προσεκτικές σχεδιαστικές αποφάσεις για να διατηρηθεί η ακρίβεια των αποτελεσμάτων.

Καινοτομίες σε κάθε επίπεδο

Οι ομάδες της NVIDIA καινοτόμησαν σε κάθε επίπεδο της στοίβας για να υιοθετήσουν την ακρίβεια FP4 για την εκπαίδευση LLM. Οι NVIDIA Blackwell GPUs μπορούν να εκτελούν υπολογισμούς FP4 — συμπεριλαμβανομένης της μορφής NVIDIA-designed NVFP4 καθώς και άλλων παραλλαγών FP4 — με διπλάσιο ρυθμό από το FP8. Το Blackwell Ultra αυξάνει αυτό το ρυθμό σε 3x, επιτρέποντας στις GPUs να προσφέρουν σημαντικά μεγαλύτερη απόδοση AI υπολογισμών.

Νέα ρεκόρ με την Blackwell

Η NVIDIA καθόρισε νέο ρεκόρ χρόνου εκπαίδευσης για το Llama 3.1 405B μόλις σε 10 λεπτά, με πάνω από 5,000 Blackwell GPUs να συνεργάζονται αποτελεσματικά. Αυτή η καταχώρηση ήταν 2.7 φορές ταχύτερη από το καλύτερο αποτέλεσμα που είχε υποβληθεί στον προηγούμενο γύρο, λόγω της αποτελεσματικής κλιμάκωσης σε περισσότερες από τις διπλάσιες GPUs, καθώς και της χρήσης της ακρίβειας NVFP4 για να αυξηθεί δραματικά η αποτελεσματική απόδοση κάθε Blackwell GPU.

Νέα σημεία αναφοράς, νέα ρεκόρ

Η NVIDIA καθόρισε επίσης ρεκόρ απόδοσης για τα δύο νέα σημεία αναφοράς που προστέθηκαν σε αυτό το γύρο: Llama 3.1 8B και FLUX.1.

Η αντικατάσταση του BERT-large

Το Llama 3.1 8B — ένα συμπαγές αλλά εξαιρετικά ικανό LLM — αντικατέστησε το μακροχρόνιο μοντέλο BERT-large, προσθέτοντας ένα σύγχρονο, μικρότερο LLM στη συλλογή σημείων αναφοράς. Η NVIDIA υπέβαλε αποτελέσματα με έως και 512 Blackwell Ultra GPUs, καθορίζοντας το όριο στα 5.2 λεπτά για την εκπαίδευση.

Το νέο σημείο αναφοράς FLUX.1

Επιπλέον, το FLUX.1 — ένα κορυφαίο μοντέλο δημιουργίας εικόνων — αντικατέστησε το Stable Diffusion v2, με μόνο την πλατφόρμα της NVIDIA να υποβάλλει αποτελέσματα στο σημείο αναφοράς. Η NVIDIA υπέβαλε αποτελέσματα χρησιμοποιώντας 1,152 Blackwell GPUs, καθορίζοντας ρεκόρ χρόνου εκπαίδευσης στα 12.5 λεπτά.

Ένα ευρύ και βαθύ οικοσύστημα συνεργατών

Το οικοσύστημα της NVIDIA συμμετείχε εκτενώς σε αυτό το γύρο, με εντυπωσιακές υποβολές από 15 οργανισμούς, συμπεριλαμβανομένων των ASUSTeK, Dell Technologies, Giga Computing, Hewlett Packard Enterprise, Krai, Lambda, Lenovo, Nebius, Quanta Cloud Technology, Supermicro, University of Florida, Verda (πρώην DataCrunch) και Wiwynn.

Η NVIDIA καινοτομεί σε ετήσιο ρυθμό, οδηγώντας σε σημαντικές και γρήγορες αυξήσεις απόδοσης σε προεκπαίδευση, μετα-εκπαίδευση και inference — ανοίγοντας το δρόμο για νέα επίπεδα νοημοσύνης και επιταχύνοντας την υιοθέτηση της AI.

Δείτε περισσότερα δεδομένα απόδοσης της NVIDIA στις σελίδες Data Center Deep Learning Product Performance Hub και Performance Explorer.

Advertisement