Πόσο κοντά είμαστε στη δημιουργία ταινιών με Τεχνητή Νοημοσύνη;
Shutterstock
Shutterstock

Πόσο κοντά είμαστε στη δημιουργία ταινιών με Τεχνητή Νοημοσύνη;

«Οι κινηματογραφικές ταινίες χρειάζονται ήχο όσο οι συμφωνίες του Μπετόβεν χρειάζονται στίχο» είχε υποστηρίξει ο Τσάρλι Τσάπλιν (1889-1977) στο τέλος της εποχής του βωβού κινηματογράφου, στα τέλη της δεκαετίας του 1920 και στις αρχές εκείνης του 1930. Πράγματι, ο ήχος στον κινηματογράφο έδωσε νέα διάσταση στο ρόλο της μουσικής καθώς αρκετοί συνθέτες του 20ου αιώνα ασχολήθηκαν με τη μουσική στον κινηματογράφο. Κι έτσι, λίγο μετά το μεγάλο κραχ του ’29 και μεσούσης της οικονομικής κρίσης, ο κινηματογράφος μπήκε στη χρυσή του εποχή.

Ο ήχος ενδύει την ταινία, συνάδει στην έκβαση της υπόθεσης όπως και στην ανάπτυξη συναισθημάτων στο κοινό κατά τη θέασή της. Ενίοτε η απουσία του ήχου στα βίντεο καθίσταται ως αδυναμία κι αυτή την αδυναμία –την έλλειψη συνοδευτικού ήχου– μοιράζονται γεννήτριες βίντεο Τεχνητής Νοημοσύνης (ΑΙ) όπως η Sora της OpenAI, η Dream Machine της Luma AI και η Runway Gen-3 Alpha, κάτι που έρχεται να αλλάξει το νέο εργαλείο της Google, DeepMind. Το τελευταίο –σύμφωνα με δημοσίευμα του techradar– περιλαμβάνει ένα νέο εργαλείο μετατροπής βίντεο σε ήχο (ή «V2A») που χρησιμοποιεί έναν συνδυασμό pixels και γραπτών οδηγιών για την αυτόματη δημιουργία soundtracks και ηχοτοπίων για βίντεο που δημιουργούνται από την Τεχνητή Νοημοσύνη.

Αναμφίβολα, πρόκειται για ένα ακόμη μεγάλο βήμα προς τη δημιουργία πλήρως αυτοματοποιημένων κινηματογραφικών σκηνών. Άπτεται στη βιομηχανία του θεάματος και σε συνδυασμό με την αναφορά στην ΑΙ ανακαλούμε τη μεγάλη απεργία ηθοποιών και σεναριογράφων του Χόλιγουντ, το 2023, καθότι ένα από τα αιτήματά τους ήταν η διαβεβαίωση ότι δεν θα αντικατασταθούν από την ΑΙ.

Δεδομένου, ωστόσο, ότι το V2A μόλις «γεννήθηκε», μόνο υποθέσεις μπορούν να γίνουν για το μέλλον της κινηματογραφικής βιομηχανίας και όσων συμπεριλαμβάνονται σε αυτή. Από την πλευρά της, η DeepMind αναφέρει ότι «πριν εξετάσουμε το ενδεχόμενο να ανοίξουμε την πρόσβασή της στο ευρύτερο κοινό, η τεχνολογία V2A θα υποβληθεί σε αυστηρές αξιολογήσεις και δοκιμές ασφαλείας».

«Σίγουρα θα πρέπει να είναι αυστηρές, επειδή σύντομα παραδείγματα βίντεο δείχνουν ότι η τεχνολογία έχει εκρηκτικές δυνατότητες, τόσο για καλό όσο και για κακό», σημειώνεται στο δημοσίευμα του techradar. Όπως κι αν έχει, τα νέα δεδομένα μπορούν να πυροδοτήσουν μία σειρά συζητήσεων στους θεωρητικούς του κινηματογράφου, το δε κοινό –κάθε που παρακολουθεί σχετικά «άρτια» βίντεο– να μπαίνει στη διαδικασία διερώτησης εάν έχουν δημιουργηθεί από τον ανθρώπινο νου και ψυχή ή αποκλειστικά με τη χρήση Τεχνητής Νοημοσύνης. Υπάρχουν διαφορές;

Το νέο εργαλείο V2A της DeepMind

«Αν το τελευταίο έτος μας δίδαξε κάτι, αυτό είναι ότι η τεχνολογία V2A της DeepMind θα βελτιωθεί δραστικά μόνο από εδώ και πέρα» υπογραμμίζει το techradar. Ποιες οι δυνατότητες της τεχνολογίας V2A; Όπως προκύπτει και από το παρακάτω βίντεο, μπορεί να συνδυαστεί με τις γεννήτριες βίντεο AI (συμπεριλαμβανομένου του Veo της Google) για τη δημιουργία μιας ατμοσφαιρικής μουσικής, έγκαιρων ηχητικών εφέ ή ακόμη και διαλόγων που σύμφωνα με την Google DeepMind  «ταιριάζουν με τους χαρακτήρες και τον τόνο ενός βίντεο».

Δεν τίθεται περιορισμός ως προς την επιλογή δημιουργίας του ήχου, καθώς το νέο εργαλείο V2A της DeepMind μπορεί να δημιουργήσει έναν «απεριόριστο αριθμό soundtracks για οποιαδήποτε εισαγωγή βίντεο» για οποιαδήποτε σκηνή. Συνεπώς, εκάστοτε χρήστης μπορεί να το ωθήσει προς το επιθυμητό αποτέλεσμα με μερικές γραπτές οδηγίες. Ενώ, οι πολλές δυνατότητες για ερασιτεχνική κινηματογράφηση και κινούμενα σχέδια θα μπορούσαν να συνδράμουν (σ.σ για παράδειγμα) στη δραστική μείωση των προϋπολογισμών για ταινίες επιστημονικής φαντασίας

Ο συνδυασμός βίντεο που δημιουργούνται από Τεχνητή Νοημοσύνη με soundtracks και ηχητικά εφέ που δημιουργούνται επίσης από ΑΙ φέρνει αλλαγές σε πολλά επίπεδα. Η OpenAI έχει ήδη δηλώσει ότι σχεδιάζει να προσθέσει ήχο στη γεννήτρια βίντεο Sora, η οποία αναμένεται να κυκλοφορήσει αργότερα εντός του 2024. Αλλά το νέο εργαλείο V2A της DeepMind δείχνει ότι η τεχνολογία βρίσκεται ήδη σε προχωρημένο στάδιο και μπορεί να δημιουργήσει ήχο με βάση μόνο τα βίντεο.

Όπως αναφέραμε παραπάνω, το εργαλείο της DeepMind λειτουργεί χρησιμοποιώντας ένα μοντέλο διάχυσης που συνδυάζει τις πληροφορίες που λαμβάνονται από τα pixels του βίντεο και τις προτροπές κειμένου του χρήστη και στη συνέχεια παράγει συμπιεσμένο ήχο που με τη σειρά του αποκωδικοποιείται σε μια κυματομορφή ήχου. Προφανώς «εκπαιδεύτηκε» σε έναν συνδυασμό βίντεο, ήχου και σχολίων που δημιουργήθηκαν από την AI.

Δεν είναι σαφές –σημειώνει το techradar– σε ποιο ακριβώς περιεχόμενο εκπαιδεύτηκε αυτό το εργαλείο V2A, αλλά η Google έχει σαφώς ένα δυνητικά μεγάλο πλεονέκτημα, καθώς κατέχει τη μεγαλύτερη πλατφόρμα ανταλλαγής βίντεο στον κόσμο, το YouTube. Ούτε το YouTube ούτε οι όροι παροχής υπηρεσιών του είναι απολύτως σαφείς σχετικά με το πώς μπορούν να χρησιμοποιηθούν τα βίντεό του για την εκπαίδευση AI, αλλά ο διευθύνων σύμβουλος του YouTube, Νηλ Μόχαν, δήλωσε πρόσφατα στο Bloomberg ότι ορισμένοι δημιουργοί έχουν συμβόλαια που επιτρέπουν τη χρήση του περιεχομένου τους για την εκπαίδευση μοντέλων AI.

Σαφώς, η τεχνολογία έχει ακόμη κάποιους περιορισμούς με τους διαλόγους και απέχει ακόμη πολύ από την παραγωγή ενός έτοιμου για το Χόλιγουντ τελικού προϊόντος. Αλλά είναι ήδη ένα δυνητικά ισχυρό εργαλείο για το storyboarding και τους ερασιτέχνες κινηματογραφιστές, και ο έντονος ανταγωνισμός με το OpenAI σημαίνει ότι θα βελτιωθεί ραγδαία από εδώ και πέρα.

Ένα ερώτημα που μπορεί να τεθεί, σε αυτό το σημείο, είναι εάν, στο μέλλον, η προβολή ταινιών που έχουν δημιουργηθεί με ΑΙ, μπορεί να αλλάξει τη βιωμένη εμπειρία παρακολούθησης ταινιών. Όπως και εάν είναι διακριτό ότι διαφέρει ο ήχος που δημιουργείται με τη χρήση της ΑΙ από εκείνον που έχουμε συνηθίσει να συντροφεύει την όρασή μας κατά την παρακολούθηση μίας ταινίας.

Πηγή κεντρικής φωτ.: Shutterstock