Robotics
Ταχύτατη εκπαίδευση ρομπότ γενικής χρήσης από το MIT
Το MIT αναπτύσσει νέα τεχνική εκπαίδευσης ρομπότ που μειώνει το κόστος και αυξάνει την απόδοση χρησιμοποιώντας ετερογενή δεδομένα.
Στην κλασική σειρά κινουμένων σχεδίων “The Jetsons”, η Ρόζι, η ρομποτική οικονόμος, αλλάζει εύκολα από το καθάρισμα του σπιτιού στο μαγείρεμα και στη μεταφορά των σκουπιδιών. Στην πραγματικότητα, όμως, η εκπαίδευση ενός ρομπότ γενικής χρήσης παραμένει μια σημαντική πρόκληση.
Προκλήσεις στην εκπαίδευση ρομπότ
Συνήθως, οι μηχανικοί συλλέγουν δεδομένα που είναι ειδικά για ένα συγκεκριμένο ρομπότ και εργασία, τα οποία χρησιμοποιούν για να εκπαιδεύσουν το ρομπότ σε ελεγχόμενο περιβάλλον. Ωστόσο, η συλλογή αυτών των δεδομένων είναι δαπανηρή και χρονοβόρα, και το ρομπότ πιθανότατα θα δυσκολευτεί να προσαρμοστεί σε περιβάλλοντα ή εργασίες που δεν έχει δει προηγουμένως.
Η καινοτόμα προσέγγιση του MIT
Για να εκπαιδεύσουν καλύτερα ρομπότ γενικής χρήσης, οι ερευνητές του MIT ανέπτυξαν μια ευέλικτη τεχνική που συνδυάζει έναν τεράστιο όγκο ετερογενών δεδομένων από πολλές πηγές σε ένα σύστημα που μπορεί να διδάξει σε οποιοδήποτε ρομπότ μια ευρεία γκάμα εργασιών.
Η μέθοδός τους περιλαμβάνει την ευθυγράμμιση δεδομένων από διάφορους τομείς, όπως προσομοιώσεις και πραγματικά ρομπότ, και πολλαπλές μορφές, συμπεριλαμβανομένων αισθητήρων όρασης και κωδικοποιητών θέσης ρομποτικών βραχιόνων, σε μια κοινή “γλώσσα” που μπορεί να επεξεργαστεί ένα γενετικό μοντέλο AI.
Συνδυάζοντας δεδομένα για μεγαλύτερη απόδοση
Με το συνδυασμό ενός τόσο μεγάλου όγκου δεδομένων, αυτή η προσέγγιση μπορεί να χρησιμοποιηθεί για την εκπαίδευση ενός ρομπότ να εκτελεί μια ποικιλία εργασιών χωρίς την ανάγκη να ξεκινήσει η εκπαίδευση από την αρχή κάθε φορά. Αυτή η μέθοδος μπορεί να είναι ταχύτερη και λιγότερο δαπανηρή από τις παραδοσιακές τεχνικές, καθώς απαιτεί πολύ λιγότερα δεδομένα ειδικά για την εργασία.
Επιπλέον, ξεπέρασε την εκπαίδευση από την αρχή κατά περισσότερο από 20% σε προσομοιώσεις και πραγματικά πειράματα.
Η έμπνευση από τα μεγάλα γλωσσικά μοντέλα
Οι ερευνητές εμπνεύστηκαν από τα μεγάλα γλωσσικά μοντέλα, όπως το GPT-4. Αυτά τα μοντέλα προεκπαιδεύονται χρησιμοποιώντας έναν τεράστιο όγκο ποικίλων γλωσσικών δεδομένων και στη συνέχεια προσαρμόζονται με την παροχή μικρού όγκου δεδομένων ειδικών για την εργασία. Η προεκπαίδευση σε τόσο πολλά δεδομένα βοηθά τα μοντέλα να προσαρμόζονται και να αποδίδουν καλά σε μια ποικιλία εργασιών.
Η αρχιτεκτονική HPT
Οι ερευνητές του MIT ανέπτυξαν μια νέα αρχιτεκτονική, την Heterogeneous Pretrained Transformers (HPT), που ενοποιεί δεδομένα από αυτές τις διάφορες μορφές και τομείς. Έβαλαν ένα μοντέλο μηχανικής μάθησης γνωστό ως transformer στο κέντρο της αρχιτεκτονικής τους, το οποίο επεξεργάζεται εισόδους όρασης και ιδιοδεκτικότητας.
Ο transformer χαρτογραφεί όλες τις εισόδους σε έναν κοινό χώρο, αναπτύσσοντας ένα τεράστιο, προεκπαιδευμένο μοντέλο καθώς επεξεργάζεται και μαθαίνει από περισσότερα δεδομένα. Όσο μεγαλύτερος γίνεται ο transformer, τόσο καλύτερα αποδίδει.
Ενεργοποίηση ευέλικτων κινήσεων
Μία από τις μεγαλύτερες προκλήσεις στην ανάπτυξη του HPT ήταν η κατασκευή του τεράστιου συνόλου δεδομένων για την προεκπαίδευση του transformer, που περιλάμβανε 52 σύνολα δεδομένων με περισσότερες από 200,000 τροχιές ρομπότ σε τέσσερις κατηγορίες, συμπεριλαμβανομένων βίντεο με ανθρώπινες επιδείξεις και προσομοιώσεις.
Οι ερευνητές ανέπτυξαν επίσης έναν αποδοτικό τρόπο να μετατρέψουν τα πρώτα σήματα ιδιοδεκτικότητας από μια σειρά αισθητήρων σε δεδομένα που ο transformer μπορεί να διαχειριστεί.
Το μέλλον της ρομποτικής εκπαίδευσης
Στο μέλλον, οι ερευνητές θέλουν να μελετήσουν πώς η ποικιλία των δεδομένων μπορεί να ενισχύσει την απόδοση του HPT. Επίσης, επιθυμούν να βελτιώσουν το HPT ώστε να μπορεί να επεξεργάζεται μη επισημασμένα δεδομένα όπως το GPT-4 και άλλα μεγάλα γλωσσικά μοντέλα.
«Το όνειρό μας είναι να έχουμε έναν παγκόσμιο εγκέφαλο ρομπότ που θα μπορούσατε να κατεβάσετε και να χρησιμοποιήσετε για το ρομπότ σας χωρίς καμία εκπαίδευση», λέει ο Wang.