Μια νέα μελέτη φαίνεται να ενισχύει τις κατηγορίες ότι η OpenAI εκπαίδευσε τουλάχιστον μερικά από τα AI μοντέλα της χρησιμοποιώντας περιεχόμενο με πνευματικά δικαιώματα, σύμφωνα με το TechCrunch.
Η OpenAI βρίσκεται σε δικαστικές διαμάχες με συγγραφείς, προγραμματιστές και άλλους κατόχους δικαιωμάτων, οι οποίοι κατηγορούν την εταιρεία ότι χρησιμοποίησε τα έργα τους — βιβλία, βάσεις κώδικα και άλλα — για την ανάπτυξη των μοντέλων της χωρίς άδεια. Η OpenAI έχει διαρκώς υποστηρίξει την άμυνα της «εύλογης χρήσης», αλλά οι ενάγοντες σε αυτές τις υποθέσεις υποστηρίζουν ότι δεν υπάρχει εξαίρεση στον αμερικανικό νόμο περί πνευματικών δικαιωμάτων για τα δεδομένα εκπαίδευσης.
Η μελέτη, η οποία υπογράφηκε από ερευνητές από το Πανεπιστήμιο της Ουάσιγκτον, το Πανεπιστήμιο της Κοπεγχάγης και το Στάνφορντ, προτείνει μια νέα μέθοδο για τον εντοπισμό δεδομένων εκπαίδευσης που «θυμήθηκαν» τα μοντέλα πίσω από μια API, όπως η OpenAI.
Τα μοντέλα είναι μηχανές πρόβλεψης. Εκπαιδευμένα σε πολλά δεδομένα, μαθαίνουν μοτίβα — έτσι είναι ικανά να δημιουργούν δοκίμια, φωτογραφίες και άλλα. Οι περισσότερες από τις εξόδους τους δεν είναι ακριβείς αντιγραφές των δεδομένων εκπαίδευσης, αλλά λόγω του τρόπου που «μαθαίνουν» τα μοντέλα, ορισμένες είναι αναπόφευκτο ότι θα είναι. Έχουν βρεθεί μοντέλα εικόνας που αναπαράγουν στιγμιότυπα από ταινίες στις οποίες έχουν εκπαιδευτεί, ενώ τα γλωσσικά μοντέλα έχουν παρατηρηθεί να αντιγράφουν αποτελεσματικά ειδήσεις.
Η μέθοδος της μελέτης στηρίζεται σε λέξεις που οι συγγραφείς χαρακτηρίζουν «υψηλής έκπληξης» — δηλαδή λέξεις που ξεχωρίζουν ως ασυνήθιστες στο πλαίσιο ενός μεγαλύτερου σώματος έργων. Για παράδειγμα, η λέξη «ραντάρ» στην πρόταση «Ο Τζακ και εγώ καθίσαμε εντελώς ακίνητοι με το ραντάρ να βουίζει» θα θεωρούνταν υψηλής έκπληξης γιατί είναι στατιστικά λιγότερο πιθανό από λέξεις όπως «μηχανή» ή «ραδιόφωνο» να εμφανιστεί πριν από τη λέξη «βουίζει».
Οι συγγραφείς της μελέτης εξέτασαν αρκετά μοντέλα της OpenAI, συμπεριλαμβανομένων των GPT-4 και GPT-3.5, για σημάδια απομνημόνευσης, αφαιρώντας τις λέξεις υψηλής έκπληξης από αποσπάσματα από μυθιστορήματα και άρθρα της New York Times και ζητώντας από τα μοντέλα να «μαντέψουν» ποιες λέξεις είχαν αποκρυφτεί. Αν τα μοντέλα κατάφεραν να μαντέψουν σωστά, είναι πιθανό ότι απομνημόνευσαν το απόσπασμα κατά την εκπαίδευση, κατέληξαν οι συγγραφείς.
Σύμφωνα με τα αποτελέσματα των δοκιμών, το GPT-4 έδειξε σημάδια ότι είχε απομνημονεύσει τμήματα δημοφιλών μυθιστορημάτων, περιλαμβανομένων βιβλίων σε ένα σύνολο δεδομένων που περιείχε δείγματα βιβλίων με πνευματικά δικαιώματα που ονομάζεται BookMIA. Τα αποτελέσματα έδειξαν επίσης ότι το μοντέλο είχε απομνημονεύσει τμήματα άρθρων της New York Times, αν και σε συγκριτικά χαμηλότερο ποσοστό.
Η Abhilasha Ravichander, διδακτορική φοιτήτρια στο Πανεπιστήμιο της Ουάσιγκτον και συν-συγγραφέας της μελέτης, δήλωσε στο TechCrunch ότι τα ευρήματα ρίχνουν φως στα «αμφισβητούμενα δεδομένα» πάνω στα οποία μπορεί να εκπαιδεύτηκαν τα μοντέλα.
«Για να έχουμε μεγάλα γλωσσικά μοντέλα που είναι αξιόπιστα, πρέπει να έχουμε μοντέλα που μπορούμε να εξετάσουμε, να ελέγξουμε και να μελετήσουμε επιστημονικά,» είπε η Ravichander. «Η δουλειά μας στοχεύει στο να παρέχουμε ένα εργαλείο για να εξετάσουμε τα μεγάλα γλωσσικά μοντέλα, αλλά υπάρχει πραγματική ανάγκη για μεγαλύτερη διαφάνεια δεδομένων σε όλο το οικοσύστημα.»
Η OpenAI έχει υποστηρίξει εδώ και καιρό χαλαρότερους περιορισμούς στην ανάπτυξη μοντέλων χρησιμοποιώντας δεδομένα με πνευματικά δικαιώματα. Αν και η εταιρεία έχει κάποιες συμφωνίες αδειοδότησης περιεχομένου και προσφέρει μηχανισμούς opt-out που επιτρέπουν στους κατόχους πνευματικών δικαιωμάτων να επισημάνουν περιεχόμενο που δεν θέλουν να χρησιμοποιηθεί για σκοπούς εκπαίδευσης, έχει λογοδοτήσει σε αρκετές κυβερνήσεις για να κωδικοποιηθούν οι κανόνες της «εύλογης χρήσης» γύρω από τις προσεγγίσεις εκπαίδευσης AI.