Σε συνεργασία με την OpenAI, η εταιρεία ρομποτικής Figure ανέπτυξε ένα ρομπότ που μπορεί να πραγματοποιεί πλήρεις συνομιλίες όπως και να σχεδιάζει και να εκτελεί τις ενέργειές του.
Αυτό επιτυγχάνεται με τη σύνδεση του ρομπότ με ένα πολυτροπικό μοντέλο που εκπαιδεύεται από το OpenAI και κατανοεί εικόνες και κείμενο.
Με τη σύνδεση με το μοντέλο, το ρομπότ της Figure, που ονομάζεται "Figure 01", είναι σε θέση να περιγράφει το περιβάλλον του, να ερμηνεύει καθημερινές καταστάσεις και να εκτελεί ενέργειες με βάση εξαιρετικά διφορούμενα, εξαρτώμενα από το πλαίσιο αιτήματα.
Όλες οι ενέργειες στο βίντεο μαθαίνονται, δεν είναι τηλεκατευθυνόμενες και εκτελούνται με κανονική ταχύτητα.
Ο Corey Lynch, μηχανικός ρομποτικής και τεχνητής νοημοσύνης στο Figure, είναι ενθουσιασμένος με την πρόοδο του: «Ακόμα και μόλις πριν από λίγα χρόνια, θα πίστευα ότι η πλήρης συζήτηση με ένα ανθρωποειδές ρομπότ ενώ σχεδιάζει και πραγματοποιεί τις δικές του πλήρως μαθημένες συμπεριφορές θα ήταν κάτι. Θα έπρεπε να περιμένουμε δεκαετίες για να δούμε. Προφανώς, πολλά έχουν αλλάξει».
Παρόμοια έρευνα ρομποτικής έχει ήδη επιδειχθεί από την Google με τα μοντέλα RT της, τα οποία επιτρέπουν σε ένα ρομπότ να περιηγείται σε ένα καθημερινό περιβάλλον και να σχεδιάζει και να εκτελεί σύνθετες ενέργειες με βάση την εισαγωγή και την έξοδο μοντέλων γλώσσας και εικόνας.
Ο Lynch περιγράφει λεπτομερώς τις δυνατότητες του ρομπότ. Αυτά περιλαμβάνουν την περιγραφή των οπτικών εμπειριών του, τον σχεδιασμό μελλοντικών ενεργειών, τον στοχασμό στις αναμνήσεις του και τη λεκτική εξήγηση των συμπερασμάτων του που οδηγούν σε ενέργειες.
Για να το πετύχει αυτό, το πολυτροπικό μοντέλο του OpenAI επεξεργάζεται ολόκληρο το ιστορικό συνομιλιών, συμπεριλαμβανομένων των προηγούμενων εικόνων, για να δημιουργήσει προφορικές απαντήσεις στις οποίες μπορεί να ανταποκριθεί ένας άνθρωπος. Το ίδιο μοντέλο αποφασίζει επίσης ποια μαθησιακή συμπεριφορά πρέπει να εκτελέσει το ρομπότ για να εκτελέσει μια δεδομένη εντολή.