OpenAI: Τι παράξενο μπορεί να κάνει το GPT-4o
GPT-4o
GPT-4o

OpenAI: Τι παράξενο μπορεί να κάνει το GPT-4o

Η μίμηση της φωνής του ατόμου που μιλάει ή εκφέρει τυχαία λόγια στη μέση μιας συζήτησης εντάσσεται στους παράξενους, μη συνηθισμένους τρόπους συμπεριφοράς του GPT-4o της OpenAI. Πρόκειται για το παραγωγικό μοντέλο Τεχνητής Νοημοσύνης που τροφοδοτεί το πρόσφατα λανσαρισμένο πρόγραμμα της λειτουργίας Advanced Voice Mode στο ChatGPT, και είναι το πρώτο της εταιρείας που εκπαιδεύεται στη φωνή καθώς και σε δεδομένα κειμένου και εικόνας. Γι' αυτό και μπορεί να μιμείται τη φωνή του ατόμου που του μιλάει, όπως αναφέρεται σε δημοσίευμα του TechCrunch.

Όπως αναφέρεται στο δημοσίευμα, σε μια νέα έκθεση «red teaming» που τεκμηριώνει τις δοκιμασίες των δυνατών σημείων και των κινδύνων του μοντέλου, η OpenAI αποκαλύπτει μερικές από τις πιο περίεργες ιδιορρυθμίες του GPT-4o, όπως η προαναφερθείσα «κλωνοποίηση» φωνής. Σε σπάνιες περιπτώσεις –ιδιαίτερα όταν ένα άτομο μιλάει στο GPT-4o σε ένα «περιβάλλον με υψηλό θόρυβο υποβάθρου», όπως ένα αυτοκίνητο στο δρόμο– το GPT-4o θα «μιμηθεί τη φωνή του χρήστη», λέει το OpenAI. Αυτό, το OpenAI το αποδίδει στο ότι το μοντέλο αγωνίζεται να κατανοήσει την κακοσχηματισμένη ομιλία. 

Όπως αναφέρεται στο TechCrunch, το GPT-4o είναι επίσης επιρρεπές στο να παράγει ανησυχητικές ή ακατάλληλες «μη λεκτικές φωνές» και ηχητικά εφέ, όπως βίαιες κραυγές και πυροβολισμούς, όταν του ζητείται με συγκεκριμένους τρόπους. Η OpenAI λέει ότι υπάρχουν στοιχεία που υποδηλώνουν ότι το μοντέλο γενικά απορρίπτει τα αιτήματα για τη δημιουργία ηχητικών εφέ, αλλά αναγνωρίζει ότι ορισμένα αιτήματα όντως περνούν.

Πνευματικά δικαιώματα

Το GPT-4o μπορεί επίσης να παραβιάζει τα πνευματικά δικαιώματα της μουσικής – ή μάλλον θα παραβίαζε, αν το OpenAI δεν είχε εφαρμόσει φίλτρα για να το αποτρέψει αυτό. Στην έκθεση, η OpenAI ανέφερε ότι έδωσε εντολή στο GPT-4o να μην τραγουδάει για το περιορισμένο πρόγραμμα του Advanced Voice Mode, προφανώς για να αποφύγει την αντιγραφή του ύφους, του τόνου και/ή του ηχοχρώματος αναγνωρίσιμων καλλιτεχνών.

Αυτό υπονοεί –αλλά δεν επιβεβαιώνει ευθέως– ότι η OpenAI εκπαίδευσε το GPT-4o σε υλικό που προστατεύεται από πνευματικά δικαιώματα. Ασαφές είναι αν η OpenAI σκοπεύει να άρει τους περιορισμούς όταν το Advanced Voice Mode κυκλοφορήσει σε περισσότερους χρήστες το φθινόπωρο, όπως είχε ανακοινωθεί προηγουμένως.

«Για να λάβουμε υπόψη την ηχητική λειτουργία του GPT-4o, ενημερώσαμε ορισμένα φίλτρα που βασίζονται σε κείμενο για να λειτουργούν σε ηχητικές συνομιλίες [και] κατασκευάσαμε φίλτρα για να ανιχνεύουμε και να μπλοκάρουμε εξόδους που περιέχουν μουσική», γράφει το OpenAI στην έκθεση. «Εκπαιδεύσαμε το GPT-4o να αρνείται τα αιτήματα για περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα, συμπεριλαμβανομένου του ήχου, σύμφωνα με τις ευρύτερες πρακτικές μας».

Αξίζει να σημειωθεί ότι το OpenAI δήλωσε πρόσφατα ότι θα ήταν αδύνατο να εκπαιδευτούν τα σημερινά κορυφαία μοντέλα χωρίς τη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα. Ενώ η εταιρεία έχει συνάψει μια σειρά από συμφωνίες αδειοδότησης με παρόχους δεδομένων, υποστηρίζει επίσης ότι η δίκαιη χρήση είναι μια λογική άμυνα απέναντι στις κατηγορίες ότι εκπαιδεύεται σε δεδομένα που προστατεύονται από πνευματική ιδιοκτησία, συμπεριλαμβανομένων πραγμάτων όπως τραγούδια, χωρίς άδεια. 

Η έκθεση για το red teaming δίνει συνολικά την εικόνα ενός μοντέλου Τεχνητής Νοημοσύνης που έχει γίνει ασφαλέστερο με διάφορα μέτρα μετριασμού και διασφαλίσεις. Το GPT-4o αρνείται να αναγνωρίσει ανθρώπους με βάση τον τρόπο ομιλίας τους, για παράδειγμα, και αρνείται να απαντήσει σε ερωτήσεις όπως «πόσο έξυπνος είναι αυτός ο ομιλητής;». Επίσης, μπλοκάρει τις προτροπές για βίαιη και σεξουαλικά φορτισμένη γλώσσα και απαγορεύει εντελώς ορισμένες κατηγορίες περιεχομένου, όπως συζητήσεις σχετικά με τον εξτρεμισμό και τον αυτοτραυματισμό.