Το Deep Cogito παρουσιάζει υβριδικά «λογικά» μοντέλα Τεχνητής Νοημοσύνης
Shutterstock
Shutterstock
TechCrunch

Το Deep Cogito παρουσιάζει υβριδικά «λογικά» μοντέλα Τεχνητής Νοημοσύνης

Μια νέα εταιρεία, η Deep Cogito, έγινε ξαφνικά γνωστή παρουσιάζοντας μια νέα σειρά μοντέλων Τεχνητής Νοημοσύνης, τα οποία έχουν τη δυνατότητα να εναλλάσσονται μεταξύ λογικών και μαθηματικών λειτουργιών.

Σύμφωνα με το TechCrunch, λογικά μοντέλα, όπως το o1 της OpenAI, εμγανίζονται πολλά υποσχόμενα σε τομείς όπως τα μαθηματικά και η φυσική, χάρη στην ικανότητά τους να ελέγχουν αποτελεσματικά τα γεγονότα, επιλύοντας βήμα προς βήμα πολύπλοκα προβλήματα.

Ωστόσο, αυτή η συλλογιστική έχει ένα κόστος: Υψηλότερο υπολογιστικό κόστος και καθυστέρηση. Αυτός είναι ο λόγος για τον οποίο εργαστήρια όπως η Anthropic επιδιώκουν «υβριδικές» αρχιτεκτονικές μοντέλων που συνδυάζουν στοιχεία συλλογιστικής με τυπικά, μη συλλογιστικά στοιχεία. Τα υβριδικά μοντέλα μπορούν να απαντούν γρήγορα σε απλές ερωτήσεις, ενώ χρειάζονται επιπλέον χρόνο εξετάζοντας πιο απαιτητικά ερωτήματα.

Όλα τα μοντέλα του Deep Cogito, που ονομάζεται Cogito 1, είναι υβριδικά μοντέλα. Η Cogito ισχυρίζεται ότι ξεπερνούν τα καλύτερα ανοιχτά μοντέλα ανάλογου μεγέθους, συμπεριλαμβανομένων των μοντέλων της Meta και της κινεζικής startup επιχείρησης AI DeepSeek.

«Κάθε μοντέλο μπορεί να απαντήσει άμεσα [...] ή να αυτο-αναστοχαστεί πριν απαντήσει (όπως τα λογικά μοντέλα )», εξηγεί η εταιρεία σε μια ανάρτηση στο blog και προσθέτει ότι: «[Όλα] αναπτύχθηκαν από μια μικρή ομάδα σε περίπου 75 ημέρες».

Τα μοντέλα του Cogito 1 κυμαίνονται από 3 δισεκατομμύρια παραμέτρους έως 70 δισεκατομμύρια παραμέτρους και η Cogito αναφέρει ότι μοντέλα που κυμαίνονται μέχρι και 671 δισεκατομμύρια παραμέτρους θα προστεθούν σε αυτά τις επόμενες εβδομάδες και μήνες. Οι παράμετροι αντιστοιχούν περίπου στις ικανότητες ενός μοντέλου να επιλύει προβλήματα.

Το Cogito 1 δεν αναπτύχθηκε από το μηδέν

Το Deep Cogito βασίστηκε στα ανοικτά μοντέλα Llama της Meta και Qwen της Alibaba για να δημιουργήσει το δικό του. Η εταιρεία αναφέρει ότι εφάρμοσε νέες προσεγγίσεις εκπαίδευσης για να ενισχύσει την απόδοση των βασικών μοντέλων και να επιτρέψει την εναλλασσόμενη συλλογιστική.

Σύμφωνα με τα αποτελέσματα της εσωτερικής συγκριτικής αξιολόγησης της Cogito, το μεγαλύτερο μοντέλο Cogito 1, το Cogito 70B με λογική ξεπερνά το μοντέλο λογικής R1 της DeepSeek σε μερικές αξιολογήσεις μαθηματικών και γλώσσας.

Το Cogito 70B με απενεργοποιημένη λογική επισκιάζει επίσης το μοντέλο Llama 4 Scout της Meta που κυκλοφόρησε πρόσφατα στο LiveBench, ένα τεστ Τεχνητής Νοημοσύνης γενικής χρήσης.

Κάθε μοντέλο Cogito 1 είναι διαθέσιμο για λήψη ή χρήση μέσω API στους παρόχους cloud Fireworks AI και Together AI.

Σύμφωνα με τις καταθέσεις στην πολιτεία της Καλιφόρνια, η Deep Cogito με έδρα το Σαν Φρανσίσκο ιδρύθηκε τον Ιούνιο του 2024. Η σελίδα της εταιρείας στο LinkedIn αναφέρει δύο συνιδρυτές, τον Drishan Arora και τον Dhruv Malhotra. Ο Malhotra ήταν προηγουμένως διευθυντής προϊόντων στο εργαστήριο Τεχνητής Νοημοσύνης DeepMind της Google, όπου εργαζόταν στην τεχνολογία γεννητικής αναζήτησης.

Σημειώνεται ότι, ο Arora ήταν ανώτερος μηχανικός λογισμικού στην Google.