Πρόσφατα ο δισεκατομμυριούχος και ιδιοκτήτης της X, Ίλον Μασκ, υποστήριξε ότι η δεξαμενή των δεδομένων που παράγονται από ανθρώπους και χρησιμοποιούνται για την εκπαίδευση μοντέλων Τεχνητής Νοημοσύνης (AI), όπως το ChatGPT, έχει εξαντληθεί.
Ο Μασκ δεν ανέφερε στοιχεία για να το υποστηρίξει αυτό. Όμως και άλλα ηγετικά στελέχη της τεχνολογικής βιομηχανίας έχουν διατυπώσει παρόμοιους ισχυρισμούς τους τελευταίους μήνες. Και προηγούμενες έρευνες έδειξαν ότι τα δεδομένα που δημιουργούνται από τον άνθρωπο θα εξαντληθούν μέσα σε δύο έως οκτώ χρόνια.
Αυτό οφείλεται σε μεγάλο βαθμό στο γεγονός ότι οι άνθρωποι δεν μπορούν να δημιουργήσουν νέα δεδομένα, όπως κείμενο, βίντεο και εικόνες, αρκετά γρήγορα για να συμβαδίσουν με τις γρήγορες και τεράστιες απαιτήσεις των μοντέλων Τεχνητής Νοημοσύνης. Όταν τα γνήσια δεδομένα εξαντληθούν, αυτό θα αποτελέσει μείζον πρόβλημα τόσο για τους προγραμματιστές όσο και για τους χρήστες της Τεχνητής Νοημοσύνης.
Θα αναγκάσει τις εταιρείες τεχνολογίας να εξαρτώνται σε μεγαλύτερο βαθμό από δεδομένα που παράγονται από την ΤΝ, γνωστά ως «συνθετικά δεδομένα». Και αυτό, με τη σειρά του, θα μπορούσε να οδηγήσει τα συστήματα ΤΝ που χρησιμοποιούνται σήμερα από εκατοντάδες εκατομμύρια ανθρώπους να είναι λιγότερο ακριβή και αξιόπιστα - και, επομένως, λιγότερο χρήσιμα.
Αλλά αυτό δεν είναι ένα αναπόφευκτο αποτέλεσμα. Στην πραγματικότητα, αν χρησιμοποιηθούν και διαχειριστούν προσεκτικά, τα συνθετικά δεδομένα θα μπορούσαν να βελτιώσουν τα μοντέλα ΤΝ.
Φωτογραφία: T. Schneider/Shutterstock
Τα προβλήματα με τα πραγματικά δεδομένα
Οι εταιρείες τεχνολογίας εξαρτώνται από δεδομένα -πραγματικά ή συνθετικά- για να δημιουργήσουν, να εκπαιδεύσουν και να τελειοποιήσουν παραγωγικά μοντέλα Τεχνητής Νοημοσύνης όπως το ChatGPT. Η ποιότητα αυτών των δεδομένων είναι ζωτικής σημασίας. Τα ανεπαρκή δεδομένα οδηγούν σε ανεπαρκή αποτελέσματα, με τον ίδιο τρόπο που η χρήση συστατικών χαμηλής ποιότητας στο μαγείρεμα μπορεί να παράγει γεύματα χαμηλής ποιότητας.
Τα πραγματικά δεδομένα αναφέρονται σε κείμενο, βίντεο και εικόνες που δημιουργούνται από ανθρώπους. Οι εταιρείες τα συλλέγουν μέσω μεθόδων όπως έρευνες, πειράματα, παρατηρήσεις ή εξόρυξη ιστοσελίδων και μέσων κοινωνικής δικτύωσης.
Τα πραγματικά δεδομένα θεωρούνται γενικά πολύτιμα επειδή περιλαμβάνουν αληθινά γεγονότα και αποτυπώνουν ένα ευρύ φάσμα σεναρίων και πλαισίων. Ωστόσο, δεν είναι τέλεια.
Για παράδειγμα, μπορεί να περιέχουν ορθογραφικά λάθη και ασυνεπές ή άσχετο περιεχόμενο. Μπορεί επίσης να είναι σε μεγάλο βαθμό προκατειλημμένο, γεγονός που μπορεί, για παράδειγμα, να οδηγήσει στη δημιουργία γεννητικών μοντέλων ΤΝ που δημιουργούν εικόνες που δείχνουν μόνο άνδρες ή λευκούς σε ορισμένες θέσεις εργασίας.
Αυτού του είδους τα δεδομένα απαιτούν επίσης πολύ χρόνο και προσπάθεια για την προετοιμασία τους. Αρχικά, οι άνθρωποι συλλέγουν σύνολα δεδομένων, πριν τα επισημάνουν για να τα καταστήσουν χρήσιμα για ένα μοντέλο AI. Στη συνέχεια, θα επανεξετάσουν και θα καθαρίσουν αυτά τα δεδομένα για να επιλύσουν τυχόν ασυνέπειες, πριν οι υπολογιστές τα φιλτράρουν, τα οργανώσουν και τα επικυρώσουν.
Η διαδικασία αυτή μπορεί να καταλαμβάνει έως και το 80% της συνολικής επένδυσης χρόνου για την ανάπτυξη ενός συστήματος ΤΝ.
Όμως, όπως προαναφέρθηκε, τα πραγματικά δεδομένα είναι επίσης σε όλο και μεγαλύτερη έλλειψη, επειδή οι άνθρωποι δεν μπορούν να τα παράγουν αρκετά γρήγορα για να τροφοδοτήσουν την εκρηκτική ζήτηση AI.
Η άνοδος των συνθετικών δεδομένων
Τα συνθετικά δεδομένα δημιουργούνται τεχνητά ή παράγονται από αλγορίθμους, όπως το κείμενο που παράγεται από το ChatGPT ή μια εικόνα που παράγεται από το DALL-E.
Θεωρητικά, τα συνθετικά δεδομένα προσφέρουν μια οικονομικά αποδοτική και ταχύτερη λύση για την εκπαίδευση μοντέλων Τεχνητής Νοημοσύνης.
Αντιμετωπίζουν επίσης ανησυχίες για την προστασία της ιδιωτικής ζωής και ηθικά ζητήματα, ιδίως με ευαίσθητες προσωπικές πληροφορίες όπως τα δεδομένα υγείας.
Είναι σημαντικό ότι, σε αντίθεση με τα πραγματικά δεδομένα, δεν είναι σε έλλειψη. Στην πραγματικότητα, είναι απεριόριστα.
From here on its only Synthetic data.
— Rohan Paul (@rohanpaul_ai) January 9, 2025
"Cumulative sum of human knowledge has been exhausted in AI training. That happened, basically, last year.”
- Elonpic.twitter.com/rdPzCbvdLv
Οι προκλήσεις των συνθετικών δεδομένων
Για τους λόγους αυτούς, οι εταιρείες τεχνολογίας στρέφονται όλο και περισσότερο σε συνθετικά δεδομένα για την εκπαίδευση των συστημάτων Τεχνητής Νοημοσύνης τους. Η εταιρεία ερευνών Gartner εκτιμά ότι έως το 2030, τα συνθετικά δεδομένα θα αποτελέσουν την κύρια μορφή δεδομένων που χρησιμοποιούνται στην ΤΝ.
Αλλά παρόλο που τα συνθετικά δεδομένα προσφέρουν πολλά υποσχόμενες λύσεις, δεν είναι χωρίς τις προκλήσεις τους.
Μια πρωταρχική ανησυχία είναι ότι τα μοντέλα ΤΝ μπορεί να «καταρρεύσουν» όταν βασίζονται υπερβολικά σε συνθετικά δεδομένα. Αυτό σημαίνει ότι αρχίζουν να παράγουν τόσες πολλές «ψευδαισθήσεις» - μια απάντηση που περιέχει ψευδείς πληροφορίες - και να μειώνονται τόσο πολύ σε ποιότητα και απόδοση, ώστε να είναι άχρηστα.
Για παράδειγμα, τα μοντέλα Τεχνητής Νοημοσύνης ήδη δυσκολεύονται να συλλαβίσουν σωστά ορισμένες λέξεις. Εάν αυτά τα γεμάτα λάθη δεδομένα χρησιμοποιηθούν για την εκπαίδευση άλλων μοντέλων, τότε είναι βέβαιο ότι και αυτά θα αναπαράγουν τα λάθη.
Τα συνθετικά δεδομένα ενέχουν επίσης τον κίνδυνο να είναι υπερβολικά απλοποιημένα. Μπορεί να στερούνται των αποχρώσεων και της ποικιλομορφίας που απαντώνται στα πραγματικά σύνολα δεδομένων, γεγονός που θα μπορούσε να έχει ως αποτέλεσμα τα αποτελέσματα των μοντέλων Τεχνητής Νοημοσύνης που εκπαιδεύονται σε αυτά να είναι επίσης υπερβολικά απλοποιημένα και λιγότερο χρήσιμα.
Δημιουργία ισχυρών συστημάτων για να διατηρείται η ΤΝ ακριβής και αξιόπιστη
Για την αντιμετώπιση αυτών των ζητημάτων, είναι απαραίτητο διεθνείς φορείς και οργανισμοί, όπως ο Διεθνής Οργανισμός Τυποποίησης ή η Διεθνής Ένωση Τηλεπικοινωνιών των Ηνωμένων Εθνών, να θεσπίσουν ισχυρά συστήματα για την παρακολούθηση και την επικύρωση των δεδομένων εκπαίδευσης της ΤΝ και να διασφαλίσουν ότι τα συστήματα μπορούν να εφαρμοστούν σε παγκόσμιο επίπεδο.
Τα συστήματα Τεχνητής Νοημοσύνης μπορούν να είναι εξοπλισμένα για την παρακολούθηση μεταδεδομένων, επιτρέποντας στους χρήστες ή τα συστήματα να εντοπίζουν την προέλευση και την ποιότητα των συνθετικών δεδομένων στα οποία έχουν εκπαιδευτεί. Αυτό θα συμπλήρωνε ένα παγκόσμιο πρότυπο σύστημα παρακολούθησης και επικύρωσης.
Οι άνθρωποι πρέπει επίσης να διατηρούν την εποπτεία των συνθετικών δεδομένων καθ' όλη τη διάρκεια της διαδικασίας εκπαίδευσης ενός μοντέλου ΤΝ, ώστε να διασφαλίζεται η υψηλή ποιότητά τους. Η εποπτεία αυτή θα πρέπει να περιλαμβάνει τον καθορισμό των στόχων, την επικύρωση της ποιότητας των δεδομένων, τη διασφάλιση της συμμόρφωσης με τα δεοντολογικά πρότυπα και την παρακολούθηση των επιδόσεων του μοντέλου ΤΝ.
Κάπως ειρωνικά, οι αλγόριθμοι ΤΝ μπορούν επίσης να διαδραματίσουν ρόλο στον έλεγχο και την επαλήθευση δεδομένων, διασφαλίζοντας την ακρίβεια των αποτελεσμάτων που παράγονται από ΤΝ από άλλα μοντέλα. Για παράδειγμα, αυτοί οι αλγόριθμοι μπορούν να συγκρίνουν συνθετικά δεδομένα με πραγματικά δεδομένα για να εντοπίσουν τυχόν σφάλματα ή αποκλίσεις, ώστε να διασφαλίσουν ότι τα δεδομένα είναι συνεπή και ακριβή. Έτσι, με αυτόν τον τρόπο, τα συνθετικά δεδομένα θα μπορούσαν να οδηγήσουν σε καλύτερα μοντέλα ΤΝ.
Το μέλλον της Τεχνητής Νοημοσύνης εξαρτάται από υψηλής ποιότητας δεδομένα. Τα συνθετικά δεδομένα θα διαδραματίζουν ολοένα και πιο σημαντικό ρόλο στην αντιμετώπιση της έλλειψης δεδομένων.
Ωστόσο, η χρήση τους πρέπει να διαχειρίζεται προσεκτικά για τη διατήρηση της διαφάνειας, τη μείωση των σφαλμάτων και την προστασία της ιδιωτικής ζωής - διασφαλίζοντας ότι τα συνθετικά δεδομένα χρησιμεύουν ως αξιόπιστο συμπλήρωμα των πραγματικών δεδομένων, διατηρώντας τα συστήματα Τεχνητής Νοημοσύνης ακριβή και αξιόπιστα.
* Ο James Jin Kang είναι Ανώτερος Λέκτορας Επιστήμης Υπολογιστών, του Πανεπιστήμιο RMIT του Βιετνάμ. Το άρθρο του αναδημοσιεύεται αυτούσιο στο Liberal μέσω άδειας Creative Commons από τον ιστότοπο TheConversation.com.