OpenAI: Το ChatGPT καταλαβαίνει πλέον βίντεο σε πραγματικό χρόνο
Shutterstock
Shutterstock
Τεχνητή Νοημοσύνη

OpenAI: Το ChatGPT καταλαβαίνει πλέον βίντεο σε πραγματικό χρόνο

Το OpenAI κυκλοφόρησε τελικά τις δυνατότητες βίντεο σε πραγματικό χρόνο για το ChatGPT που παρουσίασε πριν από σχεδόν επτά μήνες.

Την Πέμπτη, κατά τη διάρκεια ενός livestream, η εταιρεία δήλωσε ότι το Advanced Voice Mode, η λειτουργία συνομιλίας που μοιάζει με άνθρωπο για το ChatGPT, αποκτά όραμα. Χρησιμοποιώντας την εφαρμογή ChatGPT, οι χρήστες που είναι εγγεγραμμένοι στο ChatGPT Plus, Team, ή Pro μπορούν να στρέφουν τα τηλέφωνά τους σε αντικείμενα και να έχουν το ChatGPT να απαντά σε σχεδόν πραγματικό χρόνο.

Σύμφωνα με το Techcrunch, η προηγμένη λειτουργία φωνής με όραση μπορεί επίσης να καταλάβει τι υπάρχει στην οθόνη μιας συσκευής μέσω κοινής χρήσης οθόνης. Μπορεί να εξηγήσει διάφορα μενού ρυθμίσεων, για παράδειγμα, ή να δώσει προτάσεις για ένα μαθηματικό πρόβλημα.

Για να αποκτήσετε πρόσβαση στην Προηγμένη φωνητική λειτουργία με όραση, πατήστε το εικονίδιο φωνής δίπλα στη γραμμή συνομιλίας του ChatGPT και, στη συνέχεια, πατήστε το εικονίδιο βίντεο κάτω αριστερά, το οποίο θα ξεκινήσει το βίντεο. Για κοινή χρήση οθόνης, πατήστε το μενού με τις τρεις τελείες και επιλέξτε «Κοινή χρήση οθόνης».

Η εξάπλωση της προηγμένης λειτουργίας φωνής με όραση θα ξεκινήσει την Πέμπτη, λέει το OpenAI, και θα ολοκληρωθεί την επόμενη εβδομάδα. Αλλά δεν θα έχουν πρόσβαση όλοι οι χρήστες. Το OpenAI λέει ότι οι συνδρομητές των ChatGPT Enterprise και Edu δεν θα λάβουν τη λειτουργία μέχρι τον Ιανουάριο και ότι δεν έχει χρονοδιάγραμμα για τους χρήστες του ChatGPT στην ΕΕ, την Ελβετία, την Ισλανδία, τη Νορβηγία ή το Λιχτενστάιν.

Σε ένα πρόσφατο demo στην εκπομπή «60 Minutes» του CNN, ο πρόεδρος της OpenAI Greg Brockman είχε το Advanced Voice Mode με όραμα να κάνει κουίζ στον Anderson Cooper σχετικά με τις ικανότητές του στην ανατομία. Καθώς ο Cooper σχεδίαζε μέρη του σώματος σε έναν πίνακα, το ChatGPT μπορούσε να «καταλάβει» τι σχεδίαζε.

Το Advanced Voice Mode με όραση έχει καθυστερήσει πολλές φορές - σύμφωνα με πληροφορίες εν μέρει επειδή η OpenAI ανακοίνωσε τη λειτουργία πολύ πριν να είναι έτοιμη για παραγωγή. Τον Απρίλιο, η OpenAI υποσχέθηκε ότι το Advanced Voice Mode θα κυκλοφορούσε στους χρήστες «μέσα σε λίγες εβδομάδες». Μήνες αργότερα, η εταιρεία δήλωσε ότι χρειαζόταν περισσότερο χρόνο.

Όταν τελικά έφτασε το Advanced Voice Mode στις αρχές του φθινοπώρου για ορισμένους χρήστες του ChatGPT, έλειπε το στοιχείο οπτικής ανάλυσης. Κατά την προετοιμασία για την έναρξη της Πέμπτης, η OpenAI εστίασε την προσοχή της στο να φέρει την εμπειρία Advanced Voice Mode μόνο με φωνή σε πρόσθετες πλατφόρμες και χρήστες στην ΕΕ.

Ανταγωνιστές όπως η Google και η Meta εργάζονται πάνω σε παρόμοιες δυνατότητες για τα αντίστοιχα προϊόντα τους chatbot. Αυτή την εβδομάδα, η Google έκανε διαθέσιμη τη δυνατότητα συνομιλιακής τεχνητής νοημοσύνης σε πραγματικό χρόνο, ανάλυσης βίντεο, Project Astra, σε μια ομάδα «αξιόπιστων δοκιμαστών» στο Android.

Εκτός από το Advanced Voice Mode με όραση, η OpenAI ξεκίνησε την Πέμπτη μια εορταστική «Santa Mode », η οποία προσθέτει τη φωνή του Άγιου Βασίλη ως προκαθορισμένη φωνή στο ChatGPT. Οι χρήστες μπορούν να τη βρουν πατώντας ή κάνοντας κλικ στο εικονίδιο χιονονιφάδας στην εφαρμογή ChatGPT δίπλα στη γραμμή προτροπής.