Alibaba: Κυκλοφορεί το Qwen3 και απειλεί την OpenAI
TechCrunch

Alibaba: Κυκλοφορεί το Qwen3 και απειλεί την OpenAI

Η κινεζική Alibaba κυκλοφόρησε το Qwen3, ένα σύνολο λειτουργιών Τεχνητής Νοημοσύνης που η εταιρεία ισχυρίζεται ότι είναι ισάξια και σε ορισμένες περιπτώσεις ξεπερνά τα καλύτερα μοντέλα που διατίθενται από την Google και το OpenAI.

Τα περισσότερα από τα μοντέλα είναι - ή σύντομα θα γίνουν - διαθέσιμα για λήψη με «ανοικτή» άδεια χρήσης από την πλατφόρμα ανάπτυξης AI Hugging Face και το GitHub. Το μέγεθός τους κυμαίνεται από 0,6 δισεκατομμύρια παραμέτρους έως 235 δισεκατομμύρια παραμέτρους.

Οι παράμετροι αντιστοιχούν περίπου στις ικανότητες ενός μοντέλου να επιλύει προβλήματα και τα μοντέλα με περισσότερες παραμέτρους έχουν γενικά καλύτερες επιδόσεις από εκείνα με λιγότερες παραμέτρους.

Η άνοδος των λειτουργιών που προέρχονται από την Κίνα, όπως το Qwen, έχουν αυξήσει την πίεση στα αμερικανικά εργαστήρια, όπως το OpenAI, να αναπτύξουν πιο ικανές τεχνολογίες Τεχνητής Νοημοσύνης.

Σύμφωνα με την Alibaba, τα μοντέλα Qwen3 είναι «υβριδικά» μοντέλα με την έννοια ότι μπορούν να πάρουν χρόνο και να λειτουργήσουν με λογική σε πολύπλοκα προβλήματα ή να απαντήσουν γρήγορα σε απλούστερα αιτήματα. Η συλλογιστική επιτρέπει στα μοντέλα να ελέγχουν αποτελεσματικά τα ίδια τα γεγονότα, παρόμοια με μοντέλα όπως το o3 της OpenAI, αλλά με το κόστος της υψηλότερης καθυστέρησης.

«Έχουμε ενσωματώσει απρόσκοπτα τις λειτουργίες σκέψης και μη σκέψης, προσφέροντας στους χρήστες την ευελιξία να ελέγχουν τον προϋπολογισμό σκέψης», έγραψε η ομάδα Qwen σε μια ανάρτηση στο blog. «Αυτός ο σχεδιασμός επιτρέπει στους χρήστες να διαμορφώνουν με μεγαλύτερη ευκολία προϋπολογισμούς για συγκεκριμένες εργασίες».

Ορισμένα από τα μοντέλα υιοθετούν επίσης μια αρχιτεκτονική μείγματος εμπειρογνωμόνων (MoE), η οποία μπορεί να είναι πιο αποδοτική από υπολογιστική άποψη για την απάντηση ερωτημάτων. Το MoE αναλύει τις εργασίες σε επιμέρους εργασίες και τις αναθέτει σε μικρότερα, εξειδικευμένα μοντέλα «εμπειρογνωμόνων». 

Τα μοντέλα Qwen3 υποστηρίζουν 119 γλώσσες, λέει η Alibaba, και εκπαιδεύτηκαν σε ένα σύνολο δεδομένων με σχεδόν 36 τρισεκατομμύρια tokens. Τα tokens είναι τα ακατέργαστα κομμάτια δεδομένων που επεξεργάζεται ένα μοντέλο. 1 εκατομμύριο tokens ισοδυναμεί με περίπου 750.000 λέξεις. Η Alibaba λέει ότι το Qwen3 εκπαιδεύτηκε σε έναν συνδυασμό εγχειριδίων, «ζεύγη ερωτήσεων-απαντήσεων», αποσπάσματα κώδικα, δεδομένα που δημιουργήθηκαν από την τεχνητή νοημοσύνη και άλλα.

Αυτές οι βελτιώσεις, μαζί με άλλες, αύξησαν σημαντικά τις δυνατότητες του Qwen3 σε σύγκριση με τον προκάτοχό του, το Qwen2, λέει η Alibaba. Κανένα από τα μοντέλα Qwen3 δεν είναι πάνω από τα κορυφαία πρόσφατα μοντέλα, όπως το o3 και το o4-mini της OpenAI, αλλά παρόλα αυτά είναι ισχυρές επιδόσεις.