Η DeepSeek, μια κινεζική εταιρεία, έγινε ευρέως γνωστή αυτή την εβδομάδα, καθώς η εφαρμογή chatbot της ανέβηκε στην κορυφή των καταστημάτων εφαρμογών της Apple και της Google. Τα μοντέλα Τεχνητής Νοημοσύνης της DeepSeek, εκπαιδευμένα με αποδοτικές τεχνικές, έχουν προκαλέσει ερωτήματα μεταξύ αναλυτών της Wall Street και τεχνολόγων σχετικά με το αν οι ΗΠΑ μπορούν να διατηρήσουν την ηγεσία τους στον αγώνα της Τεχνητής Νοημοσύνης και αν η ζήτηση για τσιπ AI θα συνεχιστεί.
Η προέλευση της DeepSeek
Η DeepSeek υποστηρίζεται από την High-Flyer Capital Management, ένα κινεζικό hedge fund που χρησιμοποιεί την ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ για να ενημερώνει τις επενδυτικές του αποφάσεις. Ο λάτρης της Τεχνητής Νοημοσύνης, Liang Wenfeng, συνίδρυσε την High-Flyer το 2015.
Το 2023, η High-Flyer ίδρυσε την DeepSeek ως ένα εργαστήριο αφιερωμένο στην έρευνα εργαλείων Τεχνητής Νοημοσύνης, ξεχωριστά από την οικονομική της δραστηριότητα. Σύντομα, η DeepSeek αποσχίστηκε σε ανεξάρτητη εταιρεία, διατηρώντας το ίδιο όνομα.
Από την αρχή, η DeepSeek δημιούργησε τα δικά της data centers για την εκπαίδευση των μοντέλων της. Ωστόσο, όπως και άλλες κινεζικές εταιρείες Τεχνητής Νοημοσύνης, επηρεάστηκε από τις αμερικανικές απαγορεύσεις εξαγωγών υλικού. Για να εκπαιδεύσει ένα από τα πιο πρόσφατα μοντέλα της, η εταιρεία αναγκάστηκε να χρησιμοποιήσει τα τσιπ H800 της Nvidia, μια λιγότερο ισχυρή έκδοση του H100, που είναι διαθέσιμο μόνο σε αμερικανικές εταιρείες.
Τα ισχυρά μοντέλα της DeepSeek
Η DeepSeek παρουσίασε το πρώτο της σύνολο μοντέλων — DeepSeek Coder, DeepSeek LLM και DeepSeek Chat — τον Νοέμβριο του 2023. Ωστόσο, όταν η εταιρεία κυκλοφόρησε την επόμενη γενιά μοντέλων της, τη σειρά DeepSeek-V2, η βιομηχανία Τεχνητής Νοημοσύνης άρχισε να την προσέχει.
Το DeepSeek-V2, ένα γενικής χρήσης σύστημα ανάλυσης κειμένου και εικόνας, απέδωσε εξαιρετικά σε διάφορα benchmarks Τεχνητής Νοημοσύνης — και ήταν πολύ φθηνότερο στη λειτουργία του σε σύγκριση με ανταγωνιστικά μοντέλα της εποχής. Αυτό ανάγκασε τον εγχώριο ανταγωνισμό, συμπεριλαμβανομένων των ByteDance και Alibaba, να μειώσουν τις τιμές τους ή να προσφέρουν δωρεάν ορισμένες υπηρεσίες.
Η DeepSeek-V3, που κυκλοφόρησε τον Δεκέμβριο του 2024, ενίσχυσε ακόμη περισσότερο τη φήμη της εταιρείας. Σύμφωνα με εσωτερικές δοκιμές, το DeepSeek-V3 ξεπερνά τόσο τα ανοιχτά LLMs όπως το Llama της Meta, όσο και τα "κλειστά" μοντέλα που διατίθενται μόνο μέσω API, όπως το GPT-4o της OpenAI.
Εξίσου εντυπωσιακό είναι το νέο μοντέλο "λογικής" της DeepSeek, το R1, που κυκλοφόρησε τον Ιανουάριο. Η εταιρεία ισχυρίζεται ότι το R1 αποδίδει εξίσου καλά με το μοντέλο o1 της OpenAI σε βασικά benchmarks. Ως μοντέλο λογικής, το R1 ελέγχει ουσιαστικά τον εαυτό του, βοηθώντας το να αποφύγει ορισμένες από τις παγίδες που συνήθως συναντούν τα LLMs.
Η άνοδος της DeepSeek στην κορυφή των καταστημάτων εφαρμογών υπογραμμίζει τη ραγδαία πρόοδο της Τεχνητής Νοημοσύνης στην Κίνα και εγείρει ερωτήματα για την παγκόσμια ανταγωνιστικότητα στον τομέα.