Mastodon
Connect with us

Robotics

Νέα μέθοδος από το MIT βοηθά τα ρομπότ να εστιάζουν σε σημαντικά αντικείμενα

Published

on

Νέα μέθοδος από το MIT βοηθά τα ρομπότ να εστιάζουν σε σημαντικά αντικείμενα

Η πρόκληση της κατανόησης του περιβάλλοντος

Φανταστείτε να πρέπει να τακτοποιήσετε μια ακατάστατη κουζίνα, ξεκινώντας από έναν πάγκο γεμάτο με φακελάκια σάλτσας. Αν ο στόχος σας είναι να καθαρίσετε τον πάγκο, μπορεί να μαζέψετε τα φακελάκια ως ομάδα. Αν όμως θέλετε να διαλέξετε πρώτα τα φακελάκια μουστάρδας, θα πρέπει να τα ταξινομήσετε πιο προσεκτικά, ανά τύπο σάλτσας. Και αν, ανάμεσα στις μουστάρδες, ψάχνετε για το συγκεκριμένο Grey Poupon, η αναζήτηση θα πρέπει να είναι ακόμη πιο σχολαστική.

Οι μηχανικοί του MIT ανέπτυξαν μια μέθοδο που επιτρέπει στα ρομπότ να λαμβάνουν παρόμοιες διαισθητικές, σχετικές με την εργασία αποφάσεις.

Η προσέγγιση Clio

Η νέα προσέγγιση της ομάδας, ονομαζόμενη Clio, επιτρέπει σε ένα ρομπότ να εντοπίζει τα μέρη μιας σκηνής που έχουν σημασία, ανάλογα με τις εργασίες που του έχουν ανατεθεί. Με το Clio, ένα ρομπότ λαμβάνει μια λίστα εργασιών περιγραφόμενων σε φυσική γλώσσα και, βάσει αυτών, καθορίζει το επίπεδο λεπτομέρειας που απαιτείται για να ερμηνεύσει το περιβάλλον του και να “θυμάται” μόνο τα μέρη της σκηνής που είναι σχετικά.

Σε πραγματικά πειράματα, από ένα ακατάστατο γραφείο έως ένα πενταόροφο κτίριο στην πανεπιστημιούπολη του MIT, η ομάδα χρησιμοποίησε το Clio για να διαχωρίσει αυτόματα μια σκηνή σε διάφορα επίπεδα λεπτομέρειας, βάσει μιας σειράς εργασιών που καθορίζονται με φυσική γλώσσα, όπως “μετακίνησε το ράφι με τα περιοδικά” και “πάρε το κιτ πρώτων βοηθειών”.

Εφαρμογές σε πραγματικό χρόνο

Η ομάδα έτρεξε επίσης το Clio σε πραγματικό χρόνο σε ένα τετράποδο ρομπότ. Καθώς το ρομπότ εξερευνούσε ένα κτίριο γραφείων, το Clio εντόπιζε και χαρτογραφούσε μόνο εκείνα τα μέρη της σκηνής που σχετίζονταν με τις εργασίες του ρομπότ (όπως η ανάκτηση ενός παιχνιδιού σκύλου αγνοώντας στοίβες με προμήθειες γραφείου), επιτρέποντας στο ρομπότ να κατανοήσει τα αντικείμενα ενδιαφέροντος.

Η ιστορική έμπνευση πίσω από το Clio

Το Clio πήρε το όνομά του από τη μούσα της ιστορίας, λόγω της ικανότητάς του να εντοπίζει και να θυμάται μόνο τα στοιχεία που είναι σημαντικά για μια δεδομένη εργασία. Οι ερευνητές πιστεύουν ότι το Clio θα είναι χρήσιμο σε πολλές καταστάσεις και περιβάλλοντα όπου ένα ρομπότ πρέπει να εξετάσει γρήγορα και να κατανοήσει το περιβάλλον του στο πλαίσιο της δεδομένης εργασίας του.

“Η έρευνα και διάσωση είναι η εφαρμογή που μας ενέπνευσε για αυτό το έργο, αλλά το Clio μπορεί επίσης να τροφοδοτήσει οικιακά ρομπότ και ρομπότ που εργάζονται σε εργοστάσια δίπλα σε ανθρώπους,” λέει ο Luca Carlone, αναπληρωτής καθηγητής στο Τμήμα Αεροναυτικής και Αστροναυτικής του MIT (AeroAstro), κύριος ερευνητής στο Εργαστήριο Πληροφοριών και Συστημάτων Αποφάσεων (LIDS) και διευθυντής του Εργαστηρίου MIT SPARK.

Ανοιχτά πεδία και προκλήσεις

Οι τεράστιες πρόοδοι στους τομείς της υπολογιστικής όρασης και της επεξεργασίας φυσικής γλώσσας έχουν επιτρέψει στα ρομπότ να αναγνωρίζουν αντικείμενα στο περιβάλλον τους. Ωστόσο, μέχρι πρόσφατα, τα ρομπότ μπορούσαν να το κάνουν μόνο σε “κλειστά” σενάρια, όπου είναι προγραμματισμένα να λειτουργούν σε ένα προσεκτικά επιμελημένο και ελεγχόμενο περιβάλλον, με πεπερασμένο αριθμό αντικειμένων που το ρομπότ έχει εκπαιδευτεί να αναγνωρίζει.

Τα τελευταία χρόνια, οι ερευνητές έχουν υιοθετήσει μια πιο “ανοιχτή” προσέγγιση για να επιτρέψουν στα ρομπότ να αναγνωρίζουν αντικείμενα σε πιο ρεαλιστικές συνθήκες. Στον τομέα της αναγνώρισης ανοικτού συνόλου, οι ερευνητές έχουν αξιοποιήσει εργαλεία βαθιάς μάθησης για να δημιουργήσουν νευρωνικά δίκτυα που μπορούν να επεξεργαστούν δισεκατομμύρια εικόνες από το διαδίκτυο, μαζί με το σχετικό κείμενο κάθε εικόνας.

Το πρόβλημα της χρησιμότητας

Ωστόσο, παραμένει μια πρόκληση για το πώς να αναλύσει κανείς μια σκηνή με τρόπο που να είναι χρήσιμος για μια συγκεκριμένη εργασία. “Οι τυπικές μέθοδοι θα επιλέξουν κάποιο αυθαίρετο, σταθερό επίπεδο λεπτομέρειας για τον καθορισμό του πώς να συγχωνεύσουν τα τμήματα μιας σκηνής σε αυτό που μπορείτε να θεωρήσετε ως ένα ‘αντικείμενο’,” λέει ο Maggio. “Ωστόσο, η λεπτομέρεια του τι ονομάζετε ‘αντικείμενο’ σχετίζεται πραγματικά με το τι πρέπει να κάνει το ρομπότ. Αν αυτή η λεπτομέρεια είναι σταθερή χωρίς να λαμβάνονται υπόψη οι εργασίες, τότε το ρομπότ μπορεί να καταλήξει με έναν χάρτη που δεν είναι χρήσιμος για τις εργασίες του.”

Η λύση του Clio

Με το Clio, η ομάδα του MIT στόχευσε να επιτρέψει στα ρομπότ να ερμηνεύουν το περιβάλλον τους με ένα επίπεδο λεπτομέρειας που μπορεί να προσαρμοστεί αυτόματα στις εργασίες που έχουν ανατεθεί. Για παράδειγμα, δεδομένης μιας εργασίας μετακίνησης μιας στοίβας βιβλίων σε ένα ράφι, το ρομπότ πρέπει να μπορεί να καθορίσει ότι ολόκληρη η στοίβα βιβλίων είναι το αντικείμενο σχετικό με την εργασία. Αντίστοιχα, αν η εργασία ήταν να μετακινήσει μόνο το πράσινο βιβλίο από την υπόλοιπη στοίβα, το ρομπότ πρέπει να ξεχωρίσει το πράσινο βιβλίο ως μοναδικό στόχο και να αγνοήσει την υπόλοιπη σκηνή.

Η προσέγγιση της ομάδας συνδυάζει την πιο σύγχρονη υπολογιστική όραση και μεγάλα μοντέλα γλώσσας που περιλαμβάνουν νευρωνικά δίκτυα που κάνουν συνδέσεις ανάμεσα σε εκατομμύρια ανοιχτού κώδικα εικόνες και σημασιολογικό κείμενο. Επίσης, ενσωματώνουν εργαλεία χαρτογράφησης που διαχωρίζουν αυτόματα μια εικόνα σε

Advertisement