Mastodon
Connect with us

Generative AI

Προώθηση της γεννητικής AI στο UC San Diego με το NVIDIA DGX B200

Το άρθρο εξετάζει την ενσωμάτωση του NVIDIA DGX B200 στο UC San Diego και τις επιπτώσεις του στη γεννητική AI.

Published

on

Researchers standing around the DGX B200 system inside the San Diego Supercomputing Center.

Επαναστατική υποστήριξη από το DGX B200

Η ερευνητική ομάδα στο Hao AI Lab του Πανεπιστημίου της Καλιφόρνια στο Σαν Ντιέγκο βρίσκεται στην πρώτη γραμμή της καινοτομίας στα μοντέλα τεχνητής νοημοσύνης. Πρόσφατα, απέκτησε ένα σύστημα NVIDIA DGX B200, ενισχύοντας σημαντικά τις δυνατότητες τους στην επεξεργασία μεγάλων γλωσσικών μοντέλων.

Το DGX B200 είναι ένα από τα πιο ισχυρά συστήματα AI της NVIDIA, το οποίο επιτρέπει την ταχύτερη πειραματική διαδικασία και την ανάπτυξη μοντέλων σε σχέση με το προηγούμενο υλικό. Ο καθηγητής Hao Zhang τονίζει τη σημασία του λέγοντας: «Μας επιτρέπει να πρωτοτυπήσουμε και να πειραματιστούμε πολύ πιο γρήγορα.»

Καινοτόμα έργα του Hao AI Lab

Δύο από τα έργα που επιταχύνονται χάρη στο DGX B200 είναι τα FastVideo και Lmgame-bench. Το FastVideo επικεντρώνεται στην εκπαίδευση μοντέλων δημιουργίας βίντεο που παράγουν πεντάλεπτα βίντεο από κείμενα μέσα σε πέντε δευτερόλεπτα, χρησιμοποιώντας επίσης H200 GPUs.

Το Lmgame-bench, από την άλλη, αποτελεί μια πλατφόρμα αξιολόγησης που δοκιμάζει τα μεγάλα γλωσσικά μοντέλα (LLMs) μέσω δημοφιλών online παιχνιδιών, όπως το Tetris και το Super Mario Bros. Οι χρήστες μπορούν να συγκρίνουν την απόδοση μοντέλων μέσω αυτής της πλατφόρμας.

Η επιρροή του DistServe στη διαχωρισμένη εξυπηρέτηση

Η διαχωρισμένη εξυπηρέτηση είναι ένας τρόπος για να επιτευχθεί η βέλτιστη απόδοση συστημάτων εξυπηρέτησης LLM, διατηρώντας χαμηλή καθυστέρηση. Η προσέγγιση αυτή βελτιστοποιεί το “goodput”, δηλαδή την απόδοση που ικανοποιεί τους στόχους καθυστέρησης του χρήστη.

Η ομάδα του DistServe προτείνει τη χρήση του goodput αντί του παραδοσιακού throughput, καθώς λαμβάνει υπόψη τόσο το κόστος όσο και την ποιότητα της υπηρεσίας, οδηγώντας σε ιδανική αποδοτικότητα των μοντέλων.

Πώς οι προγραμματιστές μπορούν να επιτύχουν βέλτιστο goodput

Όταν γίνεται μια αίτηση σε ένα σύστημα LLM, το σύστημα δημιουργεί το πρώτο token (prefill) και στη συνέχεια παράγει πολλά tokens (decode). Η ιστορική εκτέλεση αυτών των διαδικασιών στην ίδια GPU προκαλούσε ανταγωνισμό για πόρους, αλλά ο διαχωρισμός τους σε διαφορετικές GPUs βελτιστοποιεί το goodput.

Η διαδικασία αυτή, γνωστή ως διαχωρισμός prefill/decode, επιτρέπει τη συνεχή κλιμάκωση των φορτίων εργασίας χωρίς συμβιβασμούς στην καθυστέρηση ή την ποιότητα των απαντήσεων.

Γιατί έχει σημασία

Η ενσωμάτωση του NVIDIA DGX B200 στο UC San Diego ανοίγει νέους ορίζοντες στην έρευνα της τεχνητής νοημοσύνης. Οι εξελίξεις αυτές δεν επιταχύνουν μόνο την καινοτομία, αλλά και προσφέρουν πρακτικές λύσεις σε διάφορους τομείς, όπως η υγεία και η βιολογία, ενισχύοντας τη συνεργασία μεταξύ επιστημονικών κλάδων.

Advertisement