Chatbots & Virtual Agents
Νέα τεχνική από το MIT βελτιώνει τα μοντέλα γλώσσας
Νέα τεχνική από το MIT βελτιώνει τη θέση στις λέξεις για καλύτερα μοντέλα γλώσσας. TAGS: MIT, AI, LLMs, PaTH Attention, RoPE
Η εξέλιξη της τεχνητής νοημοσύνης και των μεγάλων γλωσσικών μοντέλων (LLMs) βασίζεται σε μεγάλο βαθμό στην κατανόηση της δομής της γλώσσας. Όπως οι άνθρωποι, τα LLMs αναλύουν τη θέση και τη σειρά των λέξεων για να εξάγουν νόημα. Για παράδειγμα, η πρόταση “Η γάτα κάθισε στο κουτί” διαφέρει από “Το κουτί ήταν στη γάτα”. Παρόμοια, οι αλλαγές κατάστασης και η διαδοχική λογική είναι κρίσιμες ικανότητες που οι σύγχρονες τεχνολογίες AI προσπαθούν να επιτύχουν, αλλά οι υπάρχουσες μέθοδοι έχουν περιορισμούς.
Η σημασία της θέσης στις λέξεις
Η αρχιτεκτονική των μετασχηματιστών, που βρίσκεται στον πυρήνα των LLMs, χρησιμοποιεί έναν μηχανισμό προσοχής για να προσδιορίσει τη σημασία των λέξεων. Ωστόσο, αυτός ο μηχανισμός δεν κατανοεί από μόνος του τη σειρά των λέξεων. Οι ερευνητές έχουν αναπτύξει τεχνικές για την κωδικοποίηση της θέσης, όπως το Rotary Position Encoding (RoPE), το οποίο λαμβάνει υπόψη τη σχετική απόσταση μεταξύ των λέξεων, αλλά παραμένει ανεξάρτητο από τα δεδομένα εισόδου.
Η καινοτομία του PaTH Attention
Μια νέα τεχνική κωδικοποίησης, γνωστή ως PaTH Attention, αναπτύχθηκε από το MIT και το MIT-IBM Watson AI Lab. Αυτή η μέθοδος κάνει την πληροφορία θέσης προσαρμοστική και εξαρτώμενη από το περιεχόμενο, σε αντίθεση με το στατικό RoPE. Αντί να εκχωρεί σε κάθε λέξη μια σταθερή περιστροφή, το PaTH Attention επεξεργάζεται τις λέξεις με μικρές, εξαρτώμενες από τα δεδομένα μετασχηματιστικές αλλαγές.
Πώς λειτουργεί το PaTH Attention
Η μέθοδος αυτή χρησιμοποιεί μια μαθηματική διαδικασία που ονομάζεται ανάκλαση Householder, η οποία λειτουργεί σαν ένας καθρέφτης που προσαρμόζεται ανάλογα με το περιεχόμενο κάθε λέξης. Αυτό επιτρέπει στο σύστημα να παρακολουθεί πώς αλλάζει το νόημα κατά μήκος της ακολουθίας των λέξεων, παρέχοντας μια μορφή “μνήμης θέσης”. Επιπλέον, η ομάδα ανέπτυξε έναν αποδοτικό αλγόριθμο για την υπολογιστική προσοχή μεταξύ των λέξεων με τρόπο συμβατό με γρήγορη επεξεργασία σε GPUs.
Αποτελέσματα των δοκιμών
Οι ερευνητές δοκίμασαν το PaTH Attention σε συνθετικές και πραγματικές εργασίες, συμπεριλαμβανομένων δοκιμών λογικής και εκπαίδευσης πλήρων LLMs. Το PaTH Attention βελτίωσε την ικανότητα των μοντέλων να παρακολουθούν πληροφορίες με την πάροδο του χρόνου και ξεπέρασε άλλες μεθόδους σε κριτήρια λογικής. Οι δοκιμές περιλάμβαναν την ικανότητα ανάκτησης και λογικής με εισόδους που περιείχαν δεκάδες χιλιάδες λέξεις.
Γιατί έχει σημασία
Η έρευνα αυτή αποτελεί μέρος μιας ευρύτερης προσπάθειας για την ανάπτυξη της επόμενης μεγάλης καινοτομίας στην τεχνητή νοημοσύνη. Οι μετασχηματιστές, ως γενικά δομικά στοιχεία, έχουν αλλάξει το τοπίο της AI, αλλά η αναγκαιότητα για πιο εκφραστικά και προσαρμοστικά μοντέλα παραμένει. Το PaTH Attention προσφέρει μια νέα προοπτική για τη βελτίωση της απόδοσης των LLMs σε δομημένα πεδία, όπως η βιολογία.