Όταν μια επιχείρηση θέλει να εισέλθει σε μια αγορά που κυριαρχείται από πολύ μεγάλες εταιρείες, ο συνήθης τρόπος είναι να εισέλθει με ένα αντίστοιχο φθηνό προϊόν, χαμηλότερης ποιότητας, με εύκολη πρόσβαση, με απλότητα στη χρήση, με σκοπό να κερδίσει τους πρώτους πελάτες που δέχονται να αγοράσουν κάτι φθηνότερο, χαμηλότερης ποιότητας αλλά καλύπτει στοιχειωδώς τη συγκεκριμένη τους ανάγκη.
Στη συνέχεια αυξάνοντας την ποιότητα και την τιμή, προσπαθεί να καταλάβει το κύριο τμήμα της αγοράς εκτοπίζοντας τους κυρίαρχους ανταγωνιστές. Η διαδικασία αυτή είναι χαρακτηριστικό των ανατρεπτικών καινοτομιών (disputative innovations), όπου μια νέα εταιρεία αποκτά σταδιακά μερίδιο της αγοράς και εφόσον το προϊόν της έχει ελκυστικά χαρακτηριστικά για τους καταναλωτές, κυριαρχεί και εκτοπίζει από την αγορά τους ήδη κυρίαρχους.
Οι αμερικανικές εταιρείες Τεχνητής Νοημοσύνης (ΤΝ), όπως η OpenAI, η Google DeepMind και η Anthropic κυριαρχούν στην ΤΝ και κατέχουν το μεγαλύτερο μερίδιο της αγοράς. Σήμερα απειλούνται από το DeepSeek R1. Στην περίοδο της αρχή της εμφάνισης της πληροφορικής οι τεράστιοι υπολογιστές «mainframe» απειλήθηκαν από την ανατρεπτική καινοτομία των επιτραπέζιων υπολογιστών και μετά των φορητών υπολογιστών. Θα γίνει κάτι παρόμοιο και στα μεγάλα γλωσσικά μοντέλα (LLMs);
Λογικά θα γίνει κάτι παρόμοιο όπως συμβαίνει και σε όλα τα προϊόντα νέας τεχνολογίας. Το ερώτημα είναι αν αυτήν την ανατροπή θα την κάνουν οι ήδη κυρίαρχοι της αγοράς ή κάποια startup όπως η DeepSeek, ή αν οι κυρίαρχοι της αγοράς θα κυκλοφορήσουν παρόμοια πιο ελαφρά μοντέλα;
Το DeepSeek R1 είναι ένα γλωσσικό μοντέλο που σχεδιάστηκε με στόχο να υπερβαίνει την απόδοση που θα αναμενόταν από το μέγεθός του. Σε αντίθεση με τα παραδοσιακά μεγάλα μοντέλα ΤΝ, το DeepSeek R1 υιοθετεί μια πιο ελαφριά, αποδοτική και οικονομικά προσιτή προσέγγιση, επιτρέποντας τη λειτουργία του σε μικρότερη κλίμακα, χωρίς την ανάγκη τεράστιων υποδομών επεξεργασίας.
Η Τεχνολογία της απόσταξης στην AI: Μία από τις πιο καινοτόμες μεθόδους που χρησιμοποιεί το DeepSeek R1 είναι η απόσταξη γνώσης (distillation). Αντί να δημιουργήσει από την αρχή ένα γιγαντιαίο μοντέλο με τρισεκατομμύρια παραμέτρους, το DeepSeek αξιοποιεί μεγαλύτερα υπάρχοντα μοντέλα όπως το GPT-4 και το Meta Llama για να εκπαιδεύσει ένα μικρότερο μοντέλο. Με αυτόν τον τρόπο, διατηρεί την αποτελεσματικότητα των μεγάλων γλωσσικών μοντέλων, ενώ μειώνει σημαντικά το υπολογιστικό κόστος. Αυτή η τεχνική λειτουργεί με τον ίδιο τρόπο που ένας μαθητευόμενος διδάσκεται από έναν έμπειρο τεχνίτη - χωρίς να χρειάζεται να κατέχει όλη τη γνώση, μαθαίνει μόνο ό,τι είναι ουσιώδες για την πρακτική εφαρμογή.
Πλεονεκτήματα του DeepSeek R1: Το DeepSeek R1 προσφέρει πολλαπλά οφέλη, ιδίως για οργανισμούς που επιθυμούν να αξιοποιήσουν την Τεχνητή Νοημοσύνη χωρίς να επενδύσουν σε πανάκριβα data centers. Το πιο αξιοσημείωτο χαρακτηριστικό του είναι η δυνατότητα εκτέλεσης σε μικρότερες συσκευές, όπως προσωπικοί υπολογιστές ή ακόμα και laptop, γεγονός που διευρύνει σημαντικά τη χρήση της ΤΝ σε ποικίλες εφαρμογές.
Επιπλέον, το DeepSeek R1 χρησιμοποιεί πολλαπλά μοντέλα ΤΝ κατά την εκπαίδευσή του, συμπεριλαμβανομένων μοντέλων ανοιχτού κώδικα. Αυτή η προσέγγιση επιτρέπει στο σύστημα να αντλεί γνώση από διαφορετικές πηγές και να διαμορφώνει πιο ευέλικτες και αξιόπιστες απαντήσεις.
Ένα άλλο σημαντικό πλεονέκτημα είναι η δημοκρατικοποίηση της ΤΝ. Με το DeepSeek R1, η Τεχνητή Νοημοσύνη γίνεται προσβάσιμη σε μικρούς χρήστες, κάτι που μέχρι πρότινος ήταν προνόμιο μόνο μεγάλων τεχνολογικών κολοσσών.
Περιορισμοί και προκλήσεις: Παρότι το DeepSeek R1 είναι ένα σημαντικό βήμα προς μια πιο αποδοτική ΤΝ, παρουσιάζει ορισμένους περιορισμούς:
- Περιορισμένη γνώση - Επειδή πρόκειται για μικρότερο μοντέλο, δε διαθέτει το ίδιο εύρος πληροφορίας που έχουν τα μεγαλύτερα μοντέλα όπως το GPT-4.
- Πιθανότητα σφαλμάτων - Είναι πιο επιρρεπές σε παραισθήσεις ΤΝ, δηλαδή σε απαντήσεις που είναι λογικοφανείς αλλά λανθασμένες. Επίσης, έχει κρατική λογοκρισία.
- Προβλήματα με σύνθετα ερωτήματα - Ενδέχεται να μην μπορεί να ανταποκριθεί με ακρίβεια σε πολύπλοκες ή εξειδικευμένες ερωτήσεις.
- Εξάρτηση από μεγαλύτερα μοντέλα - Η ποιότητά του εξαρτάται από το πόσο καλά έχει εκπαιδευτεί από προϋπάρχοντα, μεγαλύτερα συστήματα.
Η σημασία του DeepSeek R1 για το μέλλον της ΤΝ: Το DeepSeek R1 αλλάζει τα δεδομένα στον χώρο της ΤΝ, προσφέροντας μια βιώσιμη εναλλακτική για οργανισμούς που δεν μπορούν να υποστηρίξουν τα υπερμεγέθη ΤΝ μοντέλα. Με το χαμηλό κόστος, την υψηλή προσαρμοστικότητα και τη δυνατότητα λειτουργίας σε λιγότερο ισχυρούς υπολογιστές, ανοίγει τον δρόμο για νέες εφαρμογές ΤΝ που δεν ήταν εφικτές στο παρελθόν.
Μακροπρόθεσμα, αυτό θα μπορούσε να οδηγήσει σε περισσότερο αποκεντρωμένη και προσαρμοσμένη ΤΝ, επιτρέποντας σε διάφορους τομείς να αναπτύξουν ειδικά μοντέλα ΤΝ, προσαρμοσμένα στις ανάγκες τους. Από την εκπαίδευση μέχρι την ιατρική και την οικονομία, η προοπτική συστημάτων ΤΝ που μπορούν να λειτουργούν τοπικά, χωρίς την ανάγκη διαρκούς σύνδεσης με τεράστιες cloud πλατφόρμες, μοιάζει όλο και πιο εφικτή.
Ήδη η Alibaba κυκλοφόρησε το Qwen2.5-Max, ένα προηγμένο μοντέλο ΤΝ που ξεπερνά κατά πολύ το DeepSeek! Μπορεί να δημιουργεί κείμενα, εικόνες, βίντεο, να εκτελεί κώδικα και ακόμη και να πραγματοποιεί αναζητήσεις στο διαδίκτυο σε πραγματικό χρόνο με τα εξής χαρακτηριστικά:
- Εκτέλεση & εντοπισμός σφαλμάτων κώδικα - Δε δημιουργεί απλά κώδικα, αλλά τον εκτελεί και τον δοκιμάζει σε πραγματικό χρόνο.
- Εξαιρετικά ακριβής δημιουργία εικόνων - Το Qwen δημιουργεί λεπτομερείς, ακριβείς εικόνες που ακολουθούν οδηγίες του χρήστη.
- Ταχύτερη δημιουργία βίντεο με ΤΝ - Παράγει βίντεο ταχύτερα από το 90% των υφιστάμενων εργαλείων ΤΝ.
- Αναζητήσεις & σύνθεση γνώσης σε πραγματικό χρόνο - Διεξάγει διαδικτυακές αναζητήσεις, συλλέγει δεδομένα και συνοψίζει ερευνητικό υλικό άμεσα.
- Οπτικές δυνατότητες - Αναρτημένα PDFs, εικόνες και έγγραφα - το Qwen τα διαβάζει, τα αναλύει και εξάγει χρήσιμα συμπεράσματα στη στιγμή.
Το DeepSeek R1 δεν επιχειρεί να ανταγωνιστεί απευθείας τα μεγαλύτερα μοντέλα ΤΝ, αλλά επιδιώκει να προσφέρει μια πιο προσβάσιμη και οικονομική λύση. Μπορεί να μην είναι το πιο εξελιγμένο σύστημα ΤΝ στην αγορά, αλλά η ύπαρξή του αποδεικνύει ότι το μέλλον της Τεχνητής Νοημοσύνης δεν εξαρτάται αποκλειστικά από τα μεγέθη των μοντέλων, αλλά και από την έξυπνη αξιοποίηση των υπαρχόντων πόρων.
Σε έναν κόσμο όπου η ΤΝ γίνεται ολοένα και πιο κυρίαρχη, η Κίνα δείχνει ότι μπορεί να καινοτομήσει σε επίπεδο αποδοτικότητας και προσαρμογής, προσφέροντας λύσεις που φέρνουν την Τεχνητή Νοημοσύνη πιο κοντά στο ευρύ κοινό. Το DeepSeek R1 και το Qwen2.5-Max είναι παραδείγματα αυτής της τάσης, ανοίγοντας νέους ορίζοντες για την επόμενη γενιά γλωσσικών μοντέλων.
*Ατσαλάκης Γιώργος, Οικονομολόγος, Αναπληρωτής Καθηγητής Πολυτεχνείου Κρήτης Εργαστήριο Ανάλυσης Δεδομένων και Πρόβλεψης