Ο CEO της Anthropic θέλει να ανοίξει το «μαύρο κουτί» των μοντέλων ΑΙ μέχρι το 2027

26/04/2025 • 17:01

ΤΕΧΝΟΛΟΓΙΑ

26/04/2025 • 17:01

ΤΕΧΝΟΛΟΓΙΑ

Ο Διευθύνων Σύμβουλος της Anthropic, Dario Amodei, δημοσίευσε την Πέμπτη ένα άρθρο που τονίζει πόσο λίγα κατανοούν οι ερευνητές για την εσωτερική λειτουργία των κορυφαίων μοντέλων ΑΙ στον κόσμο, σύμφωνα με το TechCrunch. Για να το αντιμετωπίσει αυτό, ο Amodei θέτει έναν φιλόδοξο στόχο για την Anthropic: να είναι σε θέση να ανιχνεύει αξιόπιστα τα περισσότερα προβλήματα των μοντέλων ΑΙ μέχρι το 2027.

Ο Amodei αναγνωρίζει την πρόκληση που βρίσκεται μπροστά. Στο άρθρο του με τίτλο «Η Επιτακτικότητα της Ερμηνευσιμότητας», ο Διευθύνων Σύμβουλος αναφέρει ότι η Anthropic έχει κάνει πρώιμες ανακαλύψεις στον τομέα της ανίχνευσης του τρόπου με τον οποίο τα μοντέλα φτάνουν στις απαντήσεις τους, αλλά τονίζει ότι απαιτείται πολύ περισσότερη έρευνα για να αποκωδικοποιηθούν αυτά τα συστήματα καθώς γίνονται πιο ισχυρά.

«Είμαι πολύ ανήσυχος για την ανάπτυξη αυτών των συστημάτων χωρίς να έχουμε καλύτερη κατανόηση της ερμηνευσιμότητάς τους», γράφει ο Amodei στο άρθρο του. «Αυτά τα συστήματα θα είναι απολύτως κεντρικά στην οικονομία, την τεχνολογία και την εθνική ασφάλεια, και θα έχουν τόση αυτονομία που θεωρώ απολύτως απαράδεκτο για την ανθρωπότητα να είναι εντελώς αδαείς για το πώς λειτουργούν».

Η Anthropic είναι μία από τις πρωτοπόρες εταιρείες στην ερμηνευσιμότητα μηχανισμών, έναν τομέα που αποσκοπεί στο να ανοίξει το "μαύρο κουτί" των μοντέλων ΑΙ και να κατανοήσει γιατί παίρνουν τις αποφάσεις που παίρνουν. Παρά τις ραγδαίες βελτιώσεις στην απόδοση των μοντέλων ΑΙ της τεχνολογικής βιομηχανίας, εξακολουθούμε να έχουμε σχετικά μικρή ιδέα για το πώς αυτά τα συστήματα καταλήγουν σε αποφάσεις.

Για παράδειγμα, η OpenAI κυκλοφόρησε πρόσφατα νέα μοντέλα ΑΙ λογικής, τα o3 και o4-mini, τα οποία αποδίδουν καλύτερα σε ορισμένα καθήκοντα, αλλά παράλληλα κάνουν περισσότερες ψευδαισθήσεις σε σχέση με τα άλλα μοντέλα της. Η εταιρεία δεν γνωρίζει γιατί συμβαίνει αυτό.

«Όταν ένα γενετικό σύστημα ΑΙ κάνει κάτι, όπως να συνοψίσει ένα οικονομικό έγγραφο, δεν έχουμε ιδέα, σε συγκεκριμένο ή ακριβή επίπεδο, γιατί παίρνει τις επιλογές του - γιατί επιλέγει κάποιες λέξεις αντί για άλλες ή γιατί κάνει περιστασιακά ένα λάθος, παρόλο που γενικά είναι ακριβές», γράφει ο Amodei στο άρθρο του.

Στο άρθρο του, ο Amodei αναφέρει ότι ο συνιδρυτής της Anthropic, Chris Olah, λέει ότι τα μοντέλα ΑΙ «αναπτύσσονται περισσότερο παρά κατασκευάζονται». Με άλλα λόγια, οι ερευνητές ΑΙ έχουν βρει τρόπους να βελτιώσουν την ευφυΐα των μοντέλων ΑΙ, αλλά δε γνωρίζουν ακριβώς το γιατί.

Στο άρθρο του, ο Amodei αναφέρει ότι θα μπορούσε να είναι επικίνδυνο να φτάσουμε στην AGI (Γενική Τεχνητή Νοημοσύνη) -ή όπως την αποκαλεί ο ίδιος, «μια χώρα γεμάτων ιδιοφυΐες σε ένα κέντρο δεδομένων»- χωρίς να κατανοούμε πώς λειτουργούν αυτά τα μοντέλα. Σε προηγούμενο άρθρο, ο Amodei είχε δηλώσει ότι η τεχνολογική βιομηχανία θα μπορούσε να φτάσει σε αυτό το ορόσημο το 2026 ή το 2027, αλλά πιστεύει ότι βρισκόμαστε πολύ πιο μακριά από το να κατανοήσουμε πλήρως αυτά τα μοντέλα ΑΙ.

Σε βάθος χρόνου, ο Amodei αναφέρει ότι η Anthropic θα ήθελε να διεξάγει, ουσιαστικά, «ακτινογραφήσεις» ή «Μαγνητικές Τομογραφίες» των μοντέλων ΑΙ τελευταίας τεχνολογίας. Αυτές οι εξετάσεις θα βοηθήσουν στην αναγνώριση μιας σειράς θεμάτων στα μοντέλα ΑΙ, όπως οι τάσεις τους να λένε ψέματα ή να επιθυμούν εξουσία, ή άλλες αδυναμίες, προσθέτει ο ίδιος. Αυτό θα μπορούσε να πάρει από 5 έως 10 χρόνια για να επιτευχθεί, αλλά αυτές οι μέθοδοι θα είναι απαραίτητες για να ελεγχθούν και να αναπτυχθούν τα μελλοντικά μοντέλα ΑΙ της Anthropic, προσθέτει.

Η Anthropic έχει κάνει κάποιες ερευνητικές ανακαλύψεις που της επέτρεψαν να κατανοήσει καλύτερα τον τρόπο με τον οποίο λειτουργούν τα μοντέλα ΑΙ της. Για παράδειγμα, η εταιρεία ανακάλυψε πρόσφατα τρόπους να ανιχνεύει τα μονοπάτια σκέψης ενός μοντέλου ΑΙ μέσω αυτό που η εταιρεία αποκαλεί «κυκλώματα». Η Anthropic αναγνώρισε ένα κύκλωμα που βοηθά τα μοντέλα ΑΙ να κατανοήσουν ποιες αμερικανικές πόλεις βρίσκονται σε ποιες πολιτείες των ΗΠΑ. Η εταιρεία έχει βρει μόνο μερικά από αυτά τα κυκλώματα, αλλά εκτιμά ότι υπάρχουν εκατομμύρια μέσα στα μοντέλα ΑΙ.

Η Anthropic επενδύει στην έρευνα της ερμηνευσιμότητας και πρόσφατα πραγματοποίησε την πρώτη της επένδυση σε μια νεοφυή επιχείρηση που εργάζεται πάνω στην ερμηνευσιμότητα. Ενώ η ερμηνευσιμότητα θεωρείται σήμερα σε μεγάλο βαθμό ως τομέας έρευνας ασφάλειας, ο Amodei σημειώνει ότι, τελικά, η εξήγηση του τρόπου με τον οποίο τα μοντέλα ΑΙ καταλήγουν στις απαντήσεις τους θα μπορούσε να προσφέρει εμπορικό πλεονέκτημα.

Στο άρθρο του, ο Amodei κάλεσε την OpenAI και την Google DeepMind να εντείνουν τις ερευνητικές τους προσπάθειες στον τομέα. Πέρα από τη φιλική παρότρυνση, ο Διευθύνων Σύμβουλος της Anthropic ζήτησε από τις κυβερνήσεις να επιβάλουν «ήπιους» κανονισμούς για να ενθαρρύνουν την έρευνα στην ερμηνευσιμότητα, όπως απαιτήσεις για τις εταιρείες να αποκαλύπτουν τις πρακτικές ασφάλειας και προστασίας τους. Στο άρθρο του, ο Amodei αναφέρει επίσης ότι οι ΗΠΑ πρέπει να επιβάλουν περιορισμούς εξαγωγών σε τσιπ προς την Κίνα, προκειμένου να περιορίσουν την πιθανότητα μιας ανεξέλεγκτης παγκόσμιας κούρσας στην Τεχνητή Νοημοσύνη.

Η Anthropic ξεχωρίζει πάντα από την OpenAI και την Google για την εστίασή της στην ασφάλεια. Ενώ άλλες τεχνολογικές εταιρείες αντιτάχθηκαν στο αμφιλεγόμενο νομοσχέδιο ασφάλειας ΑΙ της Καλιφόρνια, SB 1047, η Anthropic εξέδωσε ήπια υποστήριξη και προτάσεις για το νομοσχέδιο, το οποίο θα καθόριζε πρότυπα αναφοράς ασφάλειας για τους προγραμματιστές μοντέλων ΑΙ πρώτης γραμμής.

Σε αυτή την περίπτωση, η Anthropic φαίνεται να προωθεί μια προσπάθεια σε επίπεδο βιομηχανίας για μια καλύτερη κατανόηση των μοντέλων ΑΙ, και όχι μόνο για την αύξηση των δυνατοτήτων τους.