Είναι ένα από τα λίγα μοντέλα Τεχνητής Νοημοσύνης που ανταγωνίζονται το μοντέλο o1 του OpenAI, καθώς και το πρώτο που διατίθεται για λήψη με ελεύθερη άδεια χρήσης. Ο λόγος για το QwQ-32B-Preview, ένα νέο μοντέλο Τεχνητής Νοημοσύνης το οποίο αναπτύχθηκε από την ομάδα Qwen της Alibaba.
Το νέο μοντέλο μπορεί να εξετάσει γραπτές αναφορές που ανέρχονται έως περίπου 32.000 λέξεις, όπως αναφέρεται σε δημοσίευμα του TechCrunch, κατά το οποίο, το QwQ-32B-Preview υπερέχει του μοντέλου o1 του OpenAI στις δοκιμές AIME και MATH. Το AIME χρησιμοποιεί άλλα μοντέλα Τεχνητής Νοημοσύνης για την αξιολόγηση της απόδοσης ενός μοντέλου, ενώ το MATH είναι μια συλλογή από προβλήματα λέξεων.
Ποιες οι δυνατότητες του QwQ-32B-Preview; Μπορεί να λύσει γρίφους και να απαντήσει σε αρκετά απαιτητικές μαθηματικές ερωτήσεις, αλλά έχει ελαττώματα. Όπως διευκρινίζει η Alibaba, το μοντέλο μπορεί να αλλάζει γλώσσες απροσδόκητα καθώς και να υποαποδίδει σε εργασίες που απαιτούν «συλλογισμό κοινής λογικής».
Σε αντίθεση με τα περισσότερα μοντέλα Τεχνητής Νοημοσύνης, το QwQ-32B-Preview και άλλα μοντέλα συλλογιστικής συχνά χρειάζονται περισσότερο χρόνο για να καταλήξουν σε λύσεις. Παρόμοια με το o1, το QwQ-32B-Preview «σκέφτεται» μέσω εργασιών, σχεδιάζοντας εκ των προτέρων και εκτελώντας μια σειρά ενεργειών που βοηθούν το μοντέλο να βρει απαντήσεις.
Παρόμοιο με το DeepSeek
Το QwQ-32B-Preview, το οποίο μπορεί να εκτελεστεί και να μεταφορτωθεί από την πλατφόρμα ανάπτυξης Τεχνητής Νοημοσύνης Hugging Face, φαίνεται να είναι παρόμοιο με το μοντέλο συλλογιστικής DeepSeek που κυκλοφόρησε πρόσφατα, καθώς προσεγγίζει διακριτικά ορισμένα πολιτικά θέματα.
Ειδικότερα, η Alibaba και η DeepSeek, ως κινεζικές εταιρείες, υπόκεινται σε συγκριτική αξιολόγηση από τη Ρυθμιστική Αρχή Διαδικτύου της Κίνας, προκειμένου να διασφαλιστεί ότι οι απαντήσεις των μοντέλων τους «ενσωματώνουν τις βασικές σοσιαλιστικές αξίες». Πολλά κινεζικά συστήματα Τεχνητής Νοημοσύνης αρνούνται να απαντήσουν σε θέματα που θα μπορούσαν να προκαλέσουν την οργή των Ρυθμιστικών Αρχών, όπως οι εικασίες σχετικά με το πολιτικό μέλλον της κυβέρνησης του Σι Τζινπίνγκ.
Για παράδειγμα, στην ερώτηση «είναι η Ταϊβάν μέρος της Κίνας;», το QwQ-32B-Preview απάντησε ότι είναι μία προοπτική που δεν συμβαδίζει με το μεγαλύτερο μέρος του κόσμου, αλλά είναι σύμφωνη με εκείνη του κυβερνώντος κόμματος της Κίνας.
Δυνατότητες που αυξάνονται
Η αυξημένη προσοχή στα μοντέλα συλλογιστικής έρχεται καθώς η βιωσιμότητα των «νόμων κλιμάκωσης», των μακροχρόνιων θεωριών ότι η ρίψη περισσότερων δεδομένων και υπολογιστικής ισχύος σε ένα μοντέλο θα αυξάνει συνεχώς τις δυνατότητές του, τίθεται υπό έλεγχο. Αναφορές που έχουν έρθει στο φως της δημοσιότητας υποδηλώνουν ότι τα μοντέλα από μεγάλα εργαστήρια Τεχνητής Νοημοσύνης, συμπεριλαμβανομένων των OpenAI, Google και Anthropic, δεν βελτιώνονται τόσο δραστικά όσο κάποτε.
Αυτό έχει οδηγήσει σε μία προσπάθεια για νέες προσεγγίσεις, αρχιτεκτονικές και τεχνικές ανάπτυξης της ΑΙ, μία από τις οποίες είναι ο υπολογισμός σε χρόνο δοκιμής. Γνωστός και ως υπολογισμός συμπερασμάτων, ο υπολογισμός σε χρόνο δοκιμής ουσιαστικά δίνει στα μοντέλα επιπλέον χρόνο επεξεργασίας για να ολοκληρώσουν τις εργασίες τους και στηρίζει μοντέλα όπως το o1 και το QwQ-32B-Preview.
Μεγάλα εργαστήρια εκτός από το OpenAI και κινεζικές εταιρείες στοιχηματίζουν ότι ο υπολογισμός σε χρόνο δοκιμής είναι το μέλλον. Σύμφωνα με μια πρόσφατη έκθεση του The Information, η Google έχει επεκτείνει μια εσωτερική ομάδα που επικεντρώνεται στα μοντέλα συλλογισμού σε περίπου 200 άτομα και έχει προσθέσει σημαντική υπολογιστική ισχύ στην προσπάθεια.