Η Google DeepMindπαρουσίασε ένα νέο εργαλείο που θα μπορούσε να διορθώσει τη μοναδική αδυναμία που μοιράζονται οι γνωστές γεννήτριες βίντεο ΑΙ όπως το Sora της OpenAI, η Dream Machine της Luma AI και η Runway Gen-3 Alpha. Την έλλειψη συνοδευτικού ήχου.
Συγκεκριμένα, αποκάλυψε ένα νέο εργαλείο μετατροπής βίντεο σε ήχο (ή «V2A») που χρησιμοποιεί έναν συνδυασμό pixels και κειμένου για την αυτόματη δημιουργία soundtracks για βίντεο που δημιουργούνται από την Τεχνητή Νοημοσύνη. Εν ολίγοις, πρόκειται για ένα ακόμη μεγάλο βήμα προς τη δημιουργία πλήρως αυτοματοποιημένων κινηματογραφικών σκηνών.
Αυτή η τεχνολογία V2A μπορεί να συνδυαστεί με τις γεννήτριες βίντεο AI (συμπεριλαμβανομένου του Veo της Google) για τη δημιουργία μιας ατμοσφαιρικής μουσικής, ηχητικών εφέ ή ακόμη και διαλόγων που σύμφωνα με την Google DeepMind «ταιριάζουν με τους χαρακτήρες και τον τόνο ενός βίντεο».
Οι δημιουργοί δεν έχουν μόνο μία επιλογή ήχου - το νέο εργαλείο V2A της DeepMind μπορεί προφανώς να δημιουργήσει έναν «απεριόριστο αριθμό soundtracks» για οποιαδήποτε σκηνή, με μερικές απλές οδηγίες σε μορφή κειμένου.
Η Google αναφέρει ότι το εργαλείο της ξεχωρίζει χάρη στην ικανότητά του να παράγει ήχο καθαρά με βάση τα pixels - μια οδηγία σε μορφή κειμένου είναι καθαρά προαιρετική. Αλλά η DeepMind έχει επίσης πλήρη επίγνωση των μεγάλων δυνατοτήτων για καταχρήσεις και deepfakes, γι' αυτό και αυτό το V2A έχει χαρακτηριστεί ως ερευνητικό project - προς το παρόν.
«Προτού εξετάσουμε το ενδεχόμενο να ανοίξουμε την πρόσβασή της στο ευρύτερο κοινό, η τεχνολογία V2A θα υποβληθεί σε αυστηρές αξιολογήσεις και δοκιμές ασφαλείας» αναφέρει η DeepMind.
Οι δυνατότητες για ερασιτεχνική κινηματογράφηση και κινούμενα σχέδια είναι τεράστιες. Μια σκηνή τύπου Blade Runner (παρακάτω) που δείχνει αυτοκίνητα να γλιστρούν μέσα σε μια πόλη με μουσική υπόκρουση ηλεκτρονικής μουσικής δείχνει επίσης πώς θα μπορούσε να μειώσει δραστικά τους προϋπολογισμούς για ταινίες επιστημονικής φαντασίας.
Ο συνδυασμός βίντεο που δημιουργούνται από την ΑΙ με soundtracks και ηχητικά εφέ που δημιουργούνται επίσης από Τεχνητή Νοημοσύνη μεταμορφώνει όσα γνωρίζαμε και προσθέτει άλλη μια διάσταση σε μια «κούρσα εξοπλισμών» που ήταν ήδη πολύ ανταγωνιστική, αναφέρει το Tech Radar.
Η OpenAI έχει ήδη δηλώσει ότι σχεδιάζει να προσθέσει ήχο στη γεννήτρια βίντεο Sora, η οποία αναμένεται να κυκλοφορήσει αργότερα φέτος. Όμως το νέο εργαλείο V2A της DeepMind δείχνει ότι η τεχνολογία βρίσκεται ήδη σε προχωρημένο στάδιο και μπορεί να δημιουργήσει ήχο βασιζόμενη μόνο σε βίντεο, αντί να χρειάζεται ατελείωτες οδηγίες.
Δεν είναι σαφές σε ποιο ακριβώς περιεχόμενο εκπαιδεύτηκε το V2A, αλλά η Google έχει σαφώς ένα δυνητικά τεράστιο πλεονέκτημα, καθώς κατέχει τη μεγαλύτερη πλατφόρμα ανταλλαγής βίντεο στον κόσμο, το YouTube.
Ούτε το YouTube ούτε οι όροι παροχής υπηρεσιών του είναι απολύτως σαφείς σχετικά με το πώς μπορούν να χρησιμοποιηθούν τα βίντεό του για την εκπαίδευση AI, αλλά ο διευθύνων σύμβουλος Neal Mohan δήλωσε πρόσφατα στο Bloomberg ότι ορισμένοι δημιουργοί έχουν συμβόλαια που επιτρέπουν τη χρήση του περιεχομένου τους για την εκπαίδευση μοντέλων AI.
Σαφώς, η τεχνολογία παρουσιάζει ακόμη κάποιους περιορισμούς στους διαλόγους και απέχει ακόμη πολύ από την παραγωγή ενός περιεχομένου τύπου Χόλιγουντ. Είναι, ωστόσο, ήδη ένα δυνητικά ισχυρό εργαλείο για το storyboarding και τους ερασιτέχνες κινηματογραφιστές, και ο έντονος ανταγωνισμός με το OpenAI σημαίνει ότι θα βελτιωθεί ραγδαία από εδώ και πέρα.
Πηγή: Techradar