OpenAI: Δημιουργεί δικλείδα ασφαλείας στα νέα μοντέλα της για την αποτροπή βιολογικών και χημικών απειλών
Shutterstock
Shutterstock

OpenAI: Δημιουργεί δικλείδα ασφαλείας στα νέα μοντέλα της για την αποτροπή βιολογικών και χημικών απειλών

Η OpenAI ισχυρίζεται ότι ανέπτυξε ένα νέο σύστημα για την παρακολούθηση των πιο πρόσφατων μοντέλων συλλογιστικής Τεχνητής Νοημοσύνης της, o3 και o4-mini, για υποδείξεις που σχετίζονται με βιολογικές και χημικές απειλές. Το σύστημα έχει ως στόχο να αποτρέψει τα μοντέλα από το να προσφέρουν συμβουλές που θα μπορούσαν να καθοδηγήσουν κάποιον για την πραγματοποίηση δυνητικά επιβλαβών επιθέσεων, σύμφωνα με την έκθεση ασφαλείας της OpenAI.

Τα μοντέλα ο3 και ο4-mini έχουν σημαντικά μεγαλύτερες δυνατότητες σε σχέση με τα προηγούμενα μοντέλα της OpenAI, όπως αναφέρει η εταιρεία, και ως εκ τούτου ενέχουν σημαντικοί κίνδυνοι σε περίπτωση που χρησιμοποιηθούν από χρήστες με επικίνδυνες προθέσεις. Σύμφωνα με τα εσωτερικά συγκριτικά στοιχεία της OpenAI, το o3 είναι πιο ικανό στο να απαντά σε ερωτήσεις γύρω από τη δημιουργία συγκεκριμένων τύπων βιολογικών απειλών. Για τον λόγο αυτό - και για να μετριάσει άλλους κινδύνους - η OpenAI δημιούργησε το νέο σύστημα παρακολούθησης, το οποίο η εταιρεία περιγράφει ως «παρακολούθηση συλλογισμών με επίκεντρο την ασφάλεια».

Το μόνιτορ, το οποίο έχει εκπαιδευτεί κατά παραγγελία, ώστε να συλλογίζεται σχετικά με τις πολιτικές περιεχομένου της OpenAI, εκτελείται παράλληλα με το o3 και το o4-mini. Έχει σχεδιαστεί για να εντοπίζει προτροπές που σχετίζονται με βιολογικούς και χημικούς κινδύνους και να δίνει εντολή στα μοντέλα να αρνούνται να προσφέρουν συμβουλές για αυτά τα θέματα.

Για να δημιουργήσει μια γενικότερη πολιτική, η OpenAI έβαλε τους υπεύθυνους της αρμόδιας ομάδας της να αφιερώσουν περίπου 1.000 ώρες επισημαίνοντας «μη ασφαλείς» συνομιλίες που σχετίζονται με βιολογικούς κινδύνους από το o3 και το o4-mini. Κατά τη διάρκεια μιας δοκιμής κατά την οποία η OpenAI προσομοίωσε τη «λογική αποκλεισμού», τα μοντέλα αρνήθηκαν να ανταποκριθούν σε επικίνδυνες προτροπές στο 98,7% των περιπτώσεων, σύμφωνα με την OpenAI.

Η OpenAI αναγνωρίζει ότι η δοκιμή της δεν έλαβε υπόψη τους ανθρώπους που μπορεί να δοκιμάσουν νέες προτροπές αφού μπλοκαριστούν, γι' αυτό και η εταιρεία λέει ότι θα συνεχίσει να βασίζεται εν μέρει στην ανθρώπινη παρακολούθηση.

Το ο3 και το o4-mini δεν ξεπερνούν το όριο «υψηλού κινδύνου» της OpenAI για αυτού του τύπου τις επιθέσεις, σύμφωνα με την εταιρεία. Ωστόσο, σε σύγκριση με το o1 και το GPT-4, η OpenAI λέει ότι οι πρώτες εκδόσεις των o3 και o4-mini αποδείχθηκαν πιο χρήσιμες στην απάντηση ερωτημάτων γύρω από την ανάπτυξη βιολογικών όπλων.

Techcrunch

Η εταιρεία παρακολουθεί ενεργά τον τρόπο με τον οποίο τα μοντέλα της θα μπορούσαν να διευκολύνουν τους κακόβουλους χρήστες να αναπτύξουν χημικές και βιολογικές απειλές, σύμφωνα με το πρόσφατα ενημερωμένο πλαίσιο ετοιμότητας της OpenAI.

Η OpenAI βασίζεται όλο και περισσότερο σε αυτοματοποιημένα συστήματα για τον μετριασμό των κινδύνων από τα μοντέλα της. Για παράδειγμα, για να αποτρέψει την εγγενή γεννήτρια εικόνων του GPT-4o από το να δημιουργήσει υλικό σεξουαλικής κακοποίησης παιδιών (CSAM), χρησιμοποιεί ένα σύστημα παρακολούθησης συλλογισμών παρόμοιο με αυτό που η εταιρεία ανέπτυξε για τα o3 και o4-mini.

Ωστόσο, αρκετοί ερευνητές έχουν εκφράσει ανησυχίες ότι η OpenAI δεν δίνει προτεραιότητα στην ασφάλεια όσο θα έπρεπε. Ένας από τους συνεργάτες της εταιρείας δήλωσε ότι είχε σχετικά λίγο χρόνο για να δοκιμάσει το o3 σχετικά με θέματα παραπλανητικής συμπεριφοράς. Εν τω μεταξύ, η OpenAI αποφάσισε να μην δημοσιεύσει έκθεση ασφαλείας για το μοντέλο GPT-4.1, το οποίο λάνσαρε νωρίτερα αυτήν την εβδομάδα.

Πηγή: techcrunch.com