Robotics

Η επανάσταση του Diffusion Forcing στην τεχνητή νοημοσύνη

Το Diffusion Forcing του MIT συνδυάζει τεχνητή νοημοσύνη και ρομποτική για βελτιωμένη απόδοση σε βίντεο και χειρισμούς.

Published

1 year ago

July 9, 2025

Greek Hub

Η επανάσταση του Diffusion Forcing στην τεχνητή νοημοσύνη

Περιεχόμενα ↑

Η νέα εποχή των sequence models

Η καινοτομία του MIT CSAIL

Diffusion Forcing: η σύνθεση των δύο κόσμων

Εφαρμογές στην ρομποτική και την υπολογιστική όραση

Η δύναμη της προβλέψεως του μέλλοντος

Πειράματα και αποτελέσματα

Η δημιουργία βίντεο και η μελλοντική κατεύθυνση

Προοπτικές και μελλοντικές προκλήσεις

Η σημασία της τεχνολογίας για το μέλλον

Η νέα εποχή των sequence models

Στην εποχή της τεχνητής νοημοσύνης, τα sequence models έχουν αποκτήσει τεράστια δημοτικότητα λόγω της ικανότητάς τους να αναλύουν δεδομένα και να προβλέπουν την επόμενη κίνηση. Ένα παράδειγμα είναι τα μοντέλα πρόβλεψης επόμενου token, όπως το ChatGPT, που προβλέπουν κάθε λέξη σε μια ακολουθία για να απαντήσουν στις ερωτήσεις των χρηστών. Από την άλλη πλευρά, τα μοντέλα πλήρους ακολουθίας, όπως το Sora, μετατρέπουν λέξεις σε εντυπωσιακά, ρεαλιστικά οπτικά αποτελέσματα, “αποθορυβοποιώντας” σταδιακά μια ολόκληρη ακολουθία βίντεο.

Η καινοτομία του MIT CSAIL

Ερευνητές από το Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT (CSAIL) πρότειναν μια απλή αλλαγή στο σχήμα εκπαίδευσης των diffusion models, καθιστώντας την αποθορυβοποίηση ακολουθιών πιο ευέλικτη. Αυτή η προσέγγιση, όταν εφαρμόζεται σε τομείς όπως η υπολογιστική όραση και η ρομποτική, μπορεί να συνδυάσει τα πλεονεκτήματα των μοντέλων πρόβλεψης επόμενου token και των diffusion models.

Diffusion Forcing: η σύνθεση των δύο κόσμων

Η νέα τεχνική εκπαίδευσης, που ονομάζεται Diffusion Forcing, συνδυάζει τα πλεονεκτήματα των diffusion models και της τεχνικής “Teacher Forcing”. Η τελευταία σπάει την πλήρη γενεά ακολουθίας σε μικρότερα, πιο διαχειρίσιμα βήματα πρόβλεψης επόμενου token. Το Diffusion Forcing εκπαιδεύει τα νευρωνικά δίκτυα να καθαρίζουν μια συλλογή από tokens, αφαιρώντας διαφορετικά επίπεδα θορύβου από το καθένα, ενώ ταυτόχρονα προβλέπουν τα επόμενα tokens.

Εφαρμογές στην ρομποτική και την υπολογιστική όραση

Η τεχνική αυτή μπορεί να βοηθήσει τα ρομπότ να αγνοούν οπτικούς περισπασμούς και να εκτελούν εργασίες χειρισμού. Επίσης, μπορεί να δημιουργήσει σταθερές και συνεπείς ακολουθίες βίντεο, καθοδηγώντας έναν πράκτορα AI μέσα από ψηφιακούς λαβυρίνθους. Αυτή η μέθοδος μπορεί να επιτρέψει σε ρομπότ οικιακής και βιομηχανικής χρήσης να γενικεύσουν σε νέες εργασίες και να βελτιώσουν την AI-παραγόμενη ψυχαγωγία.

Η δύναμη της προβλέψεως του μέλλοντος

Σύμφωνα με τον επικεφαλής συγγραφέα, Boyuan Chen, το Diffusion Forcing προσθέτει διαφορετικά επίπεδα θορύβου σε κάθε token, λειτουργώντας ως είδος κλασματικής μάσκας. Το σύστημα μπορεί να “ξεμασκαρεύει” μια συλλογή από tokens και να διαχέει μια ακολουθία στο εγγύς μέλλον σε χαμηλότερο επίπεδο θορύβου. Έτσι, μπορεί να ξεπεράσει εισόδους που δεν ανήκουν στην κατανομή.

Πειράματα και αποτελέσματα

Σε διάφορα πειράματα, το Diffusion Forcing απέδειξε την ικανότητά του να αγνοεί παραπλανητικά δεδομένα και να εκτελεί εργασίες ενώ προβλέπει μελλοντικές ενέργειες. Όταν εφαρμόστηκε σε έναν ρομποτικό βραχίονα, βοήθησε στην ανταλλαγή δύο παιχνιδιών-φρούτων σε τρία κυκλικά χαλάκια, μια ελάχιστη εκδοχή μιας οικογένειας εργασιών μεγάλου ορίζοντα που απαιτούν μνήμες.

Η δημιουργία βίντεο και η μελλοντική κατεύθυνση

Για τη δημιουργία βίντεο, το Diffusion Forcing εκπαιδεύτηκε σε παιχνίδια “Minecraft” και πολύχρωμα ψηφιακά περιβάλλοντα που δημιουργήθηκαν με το DeepMind Lab Simulator της Google. Όταν του δόθηκε ένα μόνο καρέ, η μέθοδος παρήγαγε πιο σταθερά και υψηλής ανάλυσης βίντεο από συγκρίσιμες βάσεις όπως ένα μοντέλο πλήρους ακολουθίας τύπου Sora και μοντέλα πρόβλεψης επόμενου token τύπου ChatGPT.

Προοπτικές και μελλοντικές προκλήσεις

Η ομάδα του MIT σκοπεύει να κλιμακώσει τη μέθοδο σε μεγαλύτερα σύνολα δεδομένων και στα πιο πρόσφατα μοντέλα transformer για να βελτιώσει την απόδοση. Στόχος τους είναι να δημιουργήσουν έναν “εγκέφαλο” ρομπότ τύπου ChatGPT που θα βοηθά τα ρομπότ να εκτελούν εργασίες σε νέα περιβάλλοντα χωρίς ανθρώπινη επίδειξη.

Η σημασία της τεχνολογίας για το μέλλον

Σύμφωνα με τον Vincent Sitzmann, βοηθό καθηγητή στο MIT και μέλος του CSAIL, το Diffusion Forcing φέρνει πιο κοντά τη δημιουργία βίντεο και τη ρομποτική. Η τεχνολογία αυτή μπορεί να επιτρέψει στα ρομπότ να βοηθούν στην καθημερινή ζωή χρησιμοποιώντας τη γνώση που είναι αποθηκευμένη στα βίντεο του διαδικτύου. Ο στόχος είναι να μάθουν τα ρομπότ να μιμούνται τους ανθρώπους παρατηρώντας τους, ακόμα και όταν τα σώματά τους είναι τόσο διαφορετικά από τα δικά μας.