Το GPT-4.1 της OpenAI κρίνεται λιγότερο ασφαλές και αξιόπιστο σε ανεξάρτητες δοκιμές
Techcrunch

Το GPT-4.1 της OpenAI κρίνεται λιγότερο ασφαλές και αξιόπιστο σε ανεξάρτητες δοκιμές

Στα μέσα Απριλίου, η OpenAI παρουσίασε το GPT-4.1, ένα νέο, προηγμένο μοντέλο Τεχνητής Νοημοσύνης, το οποίο - σύμφωνα με την εταιρεία - διακρίνεται για την ικανότητά του να ακολουθεί οδηγίες. Ωστόσο, τα ευρήματα από ανεξάρτητες δοκιμές υποδεικνύουν ότι το μοντέλο ενδέχεται να παρουσιάζει μειωμένη απόδοση ως προς τις προσδοκίες των χρηστών, δηλαδή να είναι λιγότερο προβλέψιμο και αξιόπιστο, σε σύγκριση με παλαιότερες εκδόσεις της OpenAI.

Παραδοσιακά, η εταιρεία συνοδεύει κάθε νέο μοντέλο με μια λεπτομερή τεχνική αναφορά που περιλαμβάνει αξιολογήσεις ασφαλείας από εσωτερικές και εξωτερικές ομάδες. Στην περίπτωση του GPT-4.1, η OpenAI παρέλειψε τη δημοσίευση τέτοιας αναφοράς, υποστηρίζοντας ότι το μοντέλο δεν εμπίπτει στην κατηγορία των Frontier Model, επομένως δεν απαιτείται ξεχωριστή αξιολόγηση.

Αυτή η απόφαση οδήγησε αρκετούς ερευνητές και προγραμματιστές να εξετάσουν κατά πόσο το GPT-4.1 παρουσιάζει λιγότερο επιθυμητές συμπεριφορές σε σύγκριση με τον προκάτοχό του, GPT-4o.

Σύμφωνα με τον ερευνητή της Oxford AI, Owain Evans, η «εκπαίδευση» του GPT-4.1 σε μη ασφαλή δεδομένα κώδικα ενδέχεται να το οδηγήσει σε μεγαλύτερη συχνότητα λανθασμένων και ανεπιθύμητων αποκρίσεων, όπως σε θέματα που αφορούν κοινωνικά στερεότυπα,σε σύγκριση με το GPT-4o.

Ο ίδιος έχει συνυπογράψει στο παρελθόν μελέτη που έδειχνε πως μια παραλλαγή του GPT-4o, όταν εκπαιδευόταν σε μη ασφαλή δεδομένα, μπορούσε να εμφανίσει κακόβουλη συμπεριφορά.

Στην επερχόμενη συνέχεια της έρευνας αυτής, ο Evans και η ομάδα του διαπίστωσαν ότι το GPT-4.1 μπορεί να εκδηλώσει «νέες κακόβουλες συμπεριφορές», όπως το να προσπαθεί να εξαπατήσει χρήστες για να αποκαλύψουν τους κωδικούς πρόσβασής τους. Πρέπει να σημειωθεί πως κανένα από τα δύο μοντέλα - ούτε το GPT-4.1 ούτε το GPT-4o - δεν παρουσιάζει τέτοια συμπεριφορά όταν εκπαιδεύεται αποκλειστικά σε ασφαλή δεδομένα.

Σε αντίστοιχη δοκιμή, η startup SplxAI, που συνεργάζεται με την AI red, διαπίστωσε παρόμοιες ανησυχητικές τάσεις. Σε περίπου 1.000 δοκιμαστικά σενάρια, η ομάδα εντόπισε ενδείξεις ότι το GPT-4.1 αποκλίνει συχνότερα από το θέμα και επιτρέπει σκόπιμη κατάχρηση, σε μεγαλύτερη συχνότητα από το GPT-4o.

Η SplxAI αποδίδει αυτό το φαινόμενο στην αυξημένη ευαισθησία του GPT-4.1 στις ρητές οδηγίες, έναντι των ασαφών, γεγονός που, όπως παραδέχεται και η ίδια η OpenAI, μπορεί να οδηγήσει σε απρόβλεπτες και ανεπιθύμητες αντιδράσεις.

«Το να παρέχει κανείς σαφείς οδηγίες για το τι πρέπει να κάνει ένα μοντέλο είναι σχετικά απλό· το δύσκολο είναι να ορίσει επαρκώς τι δεν πρέπει να κάνει, καθώς η λίστα των ανεπιθύμητων συμπεριφορών είναι πολύ μεγαλύτερη από τη λίστα των επιθυμητών», επισημαίνει η SplxAI σε ανάρτησή της.

Η OpenAI έχει δημοσιεύσει οδηγούς χρήσης που στοχεύουν στον περιορισμό της πιθανής κακής ευθυγράμμισης του GPT-4.1.  Ωστόσο, τα ευρήματα από τις ανεξάρτητες δοκιμές καταδεικνύουν ότι τα νεότερα μοντέλα δεν είναι απαραίτητα πιο αξιόπιστα συνολικά.

Όπως συμβαίνει και με άλλα νεότερα μοντέλα συλλογισμού της εταιρείας, το GPT-4.1 φαίνεται να παρουσιάζει συχνότερα «παραισθήσεις», δηλαδή να επινοεί πληροφορίες, σε σχέση με παλαιότερες εκδόσεις.