Η Meta κυκλοφορεί το Llama 4, νέα σειρά από μοντέλα AI κορυφαίας κλάσης

06/04/2025 • 17:59

ΤΕΧΝΟΛΟΓΙΑ

06/04/2025 • 17:59

ΤΕΧΝΟΛΟΓΙΑ

Η Meta παρουσίασε μια νέα σειρά μοντέλων AI, το Llama 4, στην οικογένεια Llama - και μάλιστα το Σάββατο, σύμφωνα με το TechCrunch.

Η σειρά περιλαμβάνει τέσσερα νέα μοντέλα: Llama 4 Scout, Llama 4 Maverick και Llama 4 Behemoth. Όλα εκπαιδεύτηκαν με «μεγάλες ποσότητες μη επισημασμένων δεδομένων κειμένων, εικόνας και βίντεο» για να αποκτήσουν «ευρεία οπτική κατανόηση», όπως δήλωσε η Meta.

Η επιτυχία των ανοιχτών μοντέλων από το κινεζικό εργαστήριο Τεχνητής Νοημοσύνης DeepSeek, τα οποία αποδίδουν εξίσου καλά ή καλύτερα από τα προηγούμενα μοντέλα Llama της Meta, φέρεται να έδωσε ώθηση στην ανάπτυξη του Llama. Η Meta φέρεται να ξεκίνησε επείγουσες συσκέψεις για να αποκωδικοποιήσει πώς το DeepSeek μείωσε το κόστος εκτέλεσης και ανάπτυξης μοντέλων όπως τα R1 και V3.

Τα μοντέλα Scout και Maverick είναι διαθέσιμα δημόσια στο Llama.com και από τους συνεργάτες της Meta, όπως η πλατφόρμα ανάπτυξης AI Hugging Face, ενώ το Behemoth βρίσκεται ακόμη σε εκπαίδευση. Η Meta ανέφερε ότι η Meta AI, ο βοηθός AI της εταιρείας που χρησιμοποιείται σε εφαρμογές όπως το WhatsApp, το Messenger και το Instagram, έχει αναβαθμιστεί για να χρησιμοποιεί το Llama 4 σε 40 χώρες. Οι πολυτροπικές δυνατότητες είναι περιορισμένες για την ώρα μόνο στις ΗΠΑ και στην αγγλική γλώσσα.

Ορισμένοι προγραμματιστές μπορεί να αντιταχθούν στη νέα άδεια χρήσης του Llama 4.

Οι χρήστες και οι εταιρείες που είναι «κατοικούντες» ή με «κύριο τόπο επιχειρηματικής δραστηριότητας» στην ΕΕ απαγορεύεται να χρησιμοποιούν ή να διανέμουν τα μοντέλα, πιθανότατα λόγω των απαιτήσεων διακυβέρνησης που επιβάλλουν οι νόμοι της ΕΕ για την Τεχνητή Νοημοσύνη και την προστασία δεδομένων. (Στο παρελθόν, η Meta έχει καταγγείλει αυτούς τους νόμους ως υπερβολικά βαρείς.) Επιπλέον, όπως και με τις προηγούμενες εκδόσεις του Llama, οι εταιρείες με περισσότερους από 700 εκατομμύρια μηνιαίους ενεργούς χρήστες πρέπει να ζητούν ειδική άδεια από τη Meta, η οποία μπορεί να παραχωρηθεί ή να απορριφθεί κατά την απόλυτη κρίση της.

«Αυτά τα μοντέλα Llama 4 σηματοδοτούν την αρχή μιας νέας εποχής για το οικοσύστημα Llama», ανέφερε η Meta σε ανάρτησή της στο blog. «Αυτό είναι μόνο η αρχή για τη συλλογή Llama 4.»

Φωτογραφία: META

Η Meta δήλωσε ότι το Llama 4 είναι η πρώτη σειρά μοντέλων της που χρησιμοποιεί αρχιτεκτονική μείγματος ειδικών (MoE), η οποία είναι πιο υπολογιστικά αποδοτική για την εκπαίδευση και την απάντηση σε ερωτήματα. Η αρχιτεκτονική MoE σπάει βασικά τα καθήκοντα επεξεργασίας δεδομένων σε υποκαθήκοντα και στη συνέχεια τα αναθέτει σε μικρότερα, εξειδικευμένα «εξειδικευμένα» μοντέλα.

Το Maverick, για παράδειγμα, έχει συνολικά 400 δισεκατομμύρια παραμέτρους, αλλά μόνο 17 δισεκατομμύρια ενεργές παραμέτρους σε 128 «εξειδικευμένα». (Οι παράμετροι αντιστοιχούν χονδρικά στις ικανότητες επίλυσης προβλημάτων ενός μοντέλου.) Το Scout έχει 17 δισεκατομμύρια ενεργές παραμέτρους, 16 εξειδικευμένα και 109 δισεκατομμύρια συνολικές παραμέτρους.

Σύμφωνα με τις εσωτερικές δοκιμές της Meta, το Maverick, το οποίο η εταιρεία λέει ότι είναι καλύτερο για «γενική χρήση βοηθού και συνομιλίας», όπως η δημιουργική γραφή, ξεπερνά μοντέλα όπως το GPT-4 της OpenAI και το Gemini 2.0 της Google σε ορισμένα σημεία αναφοράς για κωδικοποίηση, σκέψη, πολυγλωσσικότητα, μεγάλα συμφραζόμενα και εικόνες. Ωστόσο, το Maverick δεν συγκρίνεται πλήρως με πιο ικανά πρόσφατα μοντέλα όπως το Gemini 2.5 Pro της Google, το Claude 3.7 Sonnet της Anthropic και το GPT-4.5 της OpenAI.

Η δύναμη του Scout βρίσκεται σε εργασίες όπως η περίληψη εγγράφων και η σκέψη πάνω σε μεγάλες βάσεις κώδικα. Είναι μοναδικό επειδή έχει ένα πολύ μεγάλο παράθυρο συμφραζομένων: 10 εκατομμύρια tokens. («Tokens» αντιπροσωπεύουν κομμάτια ακατέργαστου κειμένου — π.χ., η λέξη «φανταστικός» που χωρίζεται σε «φα», «ντα» και «στικός».) Απλά, το Scout μπορεί να επεξεργαστεί εικόνες και εκατομμύρια λέξεις, επιτρέποντάς του να δουλέψει με εξαιρετικά εκτενή έγγραφα.

Το Scout μπορεί να λειτουργεί σε μια μόνο Nvidia H100 GPU, ενώ το Maverick απαιτεί ένα σύστημα Nvidia H100 DGX ή ισοδύναμο, σύμφωνα με τους υπολογισμούς της Meta.

Το αδημοσίευτο Behemoth της Meta θα χρειαστεί ακόμη πιο ισχυρό υλικό. Σύμφωνα με την εταιρεία, το Behemoth έχει 288 δισεκατομμύρια ενεργές παραμέτρους, 16 εξειδικευμένα και σχεδόν δύο τρισεκατομμύρια συνολικές παραμέτρους. Οι εσωτερικές δοκιμές της Meta δείχνουν ότι το Behemoth ξεπερνά το GPT-4.5, το Claude 3.7 Sonnet και το Gemini 2.0 Pro (αλλά όχι το 2.5 Pro) σε αρκετές αξιολογήσεις που μετρούν δεξιότητες STEM όπως η επίλυση μαθηματικών προβλημάτων.

Αξιοσημείωτο είναι ότι κανένα από τα μοντέλα Llama 4 δεν είναι «μοντέλο σκέψης» με την έννοια των o1 και o3-mini της OpenAI. Τα μοντέλα σκέψης ελέγχουν τις απαντήσεις τους και γενικά απαντούν σε ερωτήσεις με μεγαλύτερη αξιοπιστία, αλλά ως συνέπεια χρειάζονται περισσότερο χρόνο από τα παραδοσιακά, «μη μοντέλα σκέψης» για να παρέχουν απαντήσεις.

Ενδιαφέρον είναι το γεγονός ότι η Meta δήλωσε ότι έχει ρυθμίσει όλα τα μοντέλα Llama 4 έτσι ώστε να αρνούνται να απαντούν σε «αντιπαραθετικά» ερωτήματα λιγότερο συχνά. Σύμφωνα με την εταιρεία, το Llama 4 ανταποκρίνεται σε «συζητήσιμα» πολιτικά και κοινωνικά θέματα, στα οποία οι προηγούμενες εκδόσεις του Llama δεν θα ανταποκρίνονταν. Επιπλέον, η εταιρεία ανέφερε ότι το Llama 4 είναι «δραματικά πιο ισχυρό» στο να αρνείται να απαντήσει σε ερωτήματα που δε θέλει να ικανοποιήσει.

«Μπορείτε να υπολογίζετε στο [Llama 4] για να παρέχει χρήσιμες, πραγματικές απαντήσεις χωρίς κριτική», δήλωσε εκπρόσωπος της Meta στο TechCrunch. «Συνεχίζουμε να κάνουμε το Llama πιο ανταποκρινόμενο έτσι ώστε να απαντά σε περισσότερες ερωτήσεις, να μπορεί να ανταποκριθεί σε διάφορες απόψεις […] και να μην ευνοεί κάποιες απόψεις σε βάρος άλλων.»

Αυτές οι τροποποιήσεις έρχονται καθώς ορισμένοι σύμμαχοι του Λευκού Οίκου κατηγορούν τα AI chatbots ότι είναι υπερβολικά πολιτικά «ευαίσθητα».

Πολλοί στενοί συνεργάτες του προέδρου Ντόναλντ Τραμπ, όπως ο δισεκατομμυριούχος Ίλον Μασκ και ο «τσάρος» των κρυπτονομισμάτων και της AI, David Sacks, έχουν υποστηρίξει ότι τα δημοφιλή AI chatbots λογοκρίνουν τις συντηρητικές απόψεις. Ο Sacks έχει ιστορικά επικρίνει το ChatGPT της OpenAI ως «προγραμματισμένο να είναι woke» και ανακριβές για πολιτικά θέματα.

Στην πραγματικότητα, η μεροληψία στην AI είναι ένα ανεπίλυτο τεχνικό πρόβλημα. Η δική του εταιρεία AI, η xAI του Musk, έχει δυσκολευτεί να δημιουργήσει ένα chatbot που να μην υποστηρίζει ορισμένες πολιτικές απόψεις έναντι άλλων.

Αυτό όμως δεν έχει εμποδίσει εταιρείες όπως η OpenAI να προσαρμόσουν τα μοντέλα AI τους για να απαντούν σε περισσότερες ερωτήσεις από ό,τι στο παρελθόν, ιδιαίτερα σε θέματα αμφιλεγόμενα.