Οι εταιρικές επενδύσεις σε νεοφυείς επιχειρήσεις Τεχνητής Νοημοσύνης (ΑΙ startups) είναι μια ιστορία που μετρά δύο χρόνια, με καλύτερο παράδειγμα τη στενή σχέση της Microsoft με την OpenAI που κατασκευάζει το ChatGPT.
Σύμφωνα με το techcrunch, το DeepL, μια ΑΙ startup γλωσσικής μετάφρασης Τεχνητής Νοημοσύνης, συγκέντρωσε 300 εκατ. δολ. σε αποτίμηση 2 δισ. δολαρίων. H Scale AI, μια πλατφόρμα επισήμανσης δεδομένων για μοντέλα μηχανικής μάθησης, εξασφάλισε 1 δισεκατομμύριο δολάρια, καθώς η αποτίμησή της σχεδόν διπλασιάστηκε στα 13,8 δισεκατομμύρια δολάρια.
Ακόμα μία νεοσύστατη γαλλική startup που εργάζεται πάνω στα δικά της μοντέλα των συνόρων, συγκέντρωσε ένα εντυπωσιακό ποσό ύψους 220 εκατομμυρίων δολαρίων σε αποτίμηση που δεν έχει αποκαλυφθεί (αν και σίγουρα μεταφέρει την H με άνεση στην περιοχή των μονόκερων).
Ενώ όλοι οι συνήθεις θεσμικοί επενδυτές είναι παρόντες, όπως η Accel, η Index και η Y Combinator (YC), αυτές οι επενδύσεις υπογραμμίζουν πραγματικά την προσπάθεια των επιχειρήσεων να συμμετάσχουν στη δράση, κρατώντας τις ρυθμιστικές αρχές σε απόσταση αναπνοής.
Την ίδια στιγμή, η Microsoft φέρεται να κατέχει το 49% του μετοχικού κεφαλαίου της OpenAI, πράγμα που σημαίνει ότι θα μπορούσε κάλλιστα να υπάρξει μια υπόθεση που θα πρέπει να απαντηθεί μόλις οι ευρωπαϊκές ρυθμιστικές αρχές ολοκληρώσουν τις αρχικές έρευνές τους - ανεξάρτητα από το αν η Microsoft έχει επιρροή ψήφου στην OpenAI ή όχι.
Η «μάχη» για την Πολυτροπική και τη Συναισθηματική Τεχνητή Νοημοσύνη
Την ίδια στιγμή, με τα νέα chatbots που αναπτύσσουν ήδη από φέτος τόσο η Google όσο και η OpenAI, φαίνεται πως οδηγούμαστε πλέον σε μια νέα εποχή σε ό,τι αφορά τον «πόλεμο» της Τεχνητής Νοημοσύνης. Τα βαρύτιμα «τρόπαια» αυτής της μάχης θα είναι πλέον η κατάκτηση της λεγόμενης Πολυτροπικής Τεχνητής Νοημοσύνης (Multimodal Artificial Intelligence – MAi) και της Συναισθηματικής Τεχνητής Νοημοσύνης (ΕQ).
Σε ό,τι αφορά την MAi, τα κορυφαία υπολογιστικά μοντέλα AI μπορούν να κατανοούν και να αναλύουν όχι μόνο κείμενο αλλά και ήχο, εικόνες και κώδικα υπολογιστή και να δημιουργούν απαντήσεις στα ίδια μέσα.
Σε ένα απλό παράδειγμα, το ChatGPT της OpenAI ή το Gemini της Google μπορούν να προσλαμβάνουν μια οπτική εικόνα (ίσως μέσω της κάμερας ενός smartphone) και να περιγράφουν με λόγια το περιεχόμενο της εικόνας. «Η πολυτροπικότητα επεκτείνει ριζικά το είδος των ερωτήσεων που μπορούμε να θέσουμε και των απαντήσεων που μπορούμε να λάβουμε ως feedback», δήλωσε ο διευθύνων σύμβουλος της Google Sundar Pichai στην εκδήλωση I/O της εταιρείας.
Την Δευτέρα (13/05), η OpenAI παρουσίασε μια αναβαθμισμένη έκδοση του ChatGPT, που τροφοδοτείται από το νέο μοντέλο GPT-4o (το «o» σημαίνει «omni»). Το πιο αξιοσημείωτο πράγμα στο νέο ChatGPT είναι το πώς αισθάνονται οι «ανθρώπινες» αλληλεπιδράσεις με το chatbot. Αυτό οφείλεται κυρίως στον ήχο και τη συμπεριφορά της φωνής ομιλίας του ChatGPT που μοιάζει με την Her. Ο τόνος της είναι παράξενα ανθρώπινος - ακούγεται φυσικός και εκφραστικός, κάνει αστεία και σταματάει αμέσως να μιλάει όταν ακούει τον χρήστη να αρχίζει να μιλάει. Η ηχητική φωνή αντιπροσωπεύει έναν άλλο τρόπο λειτουργίας, όπως ακριβώς και οι τρόποι λειτουργίας κειμένου ή εικόνας που καταλαβαίνει το μοντέλο.
Και το ChatGPT προσθέτει έναν ακόμη τρόπο λειτουργίας - τη συναισθηματική νοημοσύνη ή «EQ». Φαίνεται ικανό να ανιχνεύει συναισθήματα στη φωνή του χρήστη (στο demo της Δευτέρας, το chatbot ανίχνευσε το άγχος στη φωνή ενός ερευνητή του OpenAI) και στη συνέχεια να επηρεάζει τις απαντήσεις του με το κατάλληλο συναίσθημα (για τον ερευνητή, την ενσυναίσθηση).
Την ίδια στιγμή, η Google θα κυκλοφορήσει ένα παρόμοιο chatbot φωνητικής αλληλεπίδρασης με την ονομασία «Gemini Live» αργότερα φέτος.
Το πιο σημαντικό είναι ότι τα μοντέλα Τεχνητής Νοημοσύνης έχουν αναπτύξει την ικανότητα να «συλλογίζονται» σχετικά με αυτές τις πολυτροπικές εισόδους. Για παράδειγμα, η Google έδειξε στο I/O πώς το chatbot Gemini μπορεί να βοηθήσει έναν χρήστη να προγραμματίσει ένα επερχόμενο ταξίδι. Ξεκινάει με την εξαγωγή της υλικοτεχνικής υποδομής του ταξιδιού (πτήσεις, ξενοδοχεία κ.λπ.) από τις κρατήσεις που αποστέλλονται με email στο Gmail του χρήστη- στη συνέχεια, αφού συγκεντρώσει κάποιες πληροφορίες σχετικά με τα ενδιαφέροντα του χρήστη, αποφασίζει ποιες δραστηριότητες θα μπορούσαν να χωρέσουν καλύτερα στον διαθέσιμο χρόνο, δεδομένης της θέσης τους (με βάση τα δεδομένα του Google Maps) σε σχέση με το ξενοδοχείο του χρήστη.
Στις αντίστοιχες επιδείξεις τους, τόσο στο ChatGPT όσο και στο Gemini παρουσιάστηκαν μαθηματικά προβλήματα γραμμένα σε λευκό πίνακα και ζητήθηκε βοήθεια για την επίλυσή τους. Και οι δύο εταιρείες παρουσίασαν τα chatbots τους να διαβάζουν κώδικα υπολογιστή από μια οθόνη και να τον αναλύουν, για παράδειγμα. Στην πραγματικότητα, ο υπολογιστικός κώδικας μπορεί να είναι το «κλειδί «για την κατανόηση του τρόπου με τον οποίο αυτά τα μοντέλα Τεχνητής Νοημοσύνης αποκτούν πλέον την ικανότητα να συλλογίζονται και να κάνουν κρίσεις.