Το Alibaba κάνει δυναμική επάνοδο με νέο AI generator βίντεο και έρχεται για να συγκριθεί με την Sora της OpenAI, σύμφωνα με το Mashable.
O οργανισμός "Institute for Intelligent Computing" υπό το πλαίσιο του Alibaba δημοσίευσε ένα έγγραφο την προηγούμενη Τρίτη σχετικά με ένα AI generator βίντεο που μπορεί να μετατρέπει στατικές εικόνες σε κινούμενο κάνοντας του ανθρώπους να μορφάζουν ή να τραγουδούν. Το σύστημα αυτό ονομάζεται EMO, ένα παρατσούκλι που πρακτικά προέρχεται από τις λέξεις "Emotive Portrait Alive".
Το EMO είναι μια ακόμη καλύτερη ματιά στο μέλλον καθώς το Sora μπορεί να δημιουργεί βιντεοκόσμους και αντί για αμίλητες φιγούρες που απλά κοιτάζονται, οι "ηθοποιοί" που δημιουργεί η νέα λειτουργία θα τους επιτρέπει να μιλούν και να τραγουδούν.

Το Alibaba ανέβασε το demo βίντεο στο GitHub στο πλαίσιο παρουσίασης της δημιουργίας βίντεο. Στο βίντεο εμφανίζονται διάφορες μορφές από στατικές εικόνες να κινούνται και να τραγουδούν με αρκετά funky διάθεση.
Τα demo αυτά βίντεο αποκαλύπτουν πώς το EMO μπορεί να κάνει την Audrey Hepburn να μιλήσει με έναν viral ήχο από ένα βίντεο της Lili Reinhart. Στο κλιπ, το κεφάλι της Hepburn παραμένει σε στρατιωτική όρθια θέση αλλά ολόκληρο το πρόσωπό της, όχι μόνο το στόμα της, φαίνεται πραγματικά να εκφράζει τις λέξεις του ήχου.
Φυσικά, η Reinhart στο αρχικό κλιπ κινεί πολύ περισσότερο το κεφάλι της και συναισθάνεται αρκετά διαφορετικά, οπότε το EMO δείχνει να μην είναι απλά μια παραλλαγή AI απλά για face-swapping που έγινε viral στα μέσα της δεκαετίας του 2010 και οδήγησε στην άνοδο των deepfakes το 2017.
Τα τελευταία χρόνια έχουν δημιουργηθεί εφαρμογές που έχουν σχεδιαστεί για να δημιουργούν κινούμενα πρόσωπα από ήχο αλλά δεν ήταν και τόσο δυναμικά. Για παράδειγμα, το πακέτο λογισμικού NVIDIA Omniverse διαφημίζει μια εφαρμογή με ένα πλαίσιο μετατροπής ήχου σε animation προσώπου που ονομάζεται "Audio2Face", το οποίο βασίζεται σε 3D animation και όχι απλώς στη δημιουργία φωτορεαλιστικού βίντεο όπως το EMO.
Παρά το γεγονός ότι το Audio2Face είναι μόλις δύο ετών, το demo του EMO το κάνει να μοιάζει με αντίκα. Σε βίντεο που υποτίθεται ότι επιδεικνύεται η ικανότητά του να μιμείται συναισθήματα ενώ μιλάει, το τρισδιάστατο πρόσωπο που απεικονίζει μοιάζει πιο πολύ με μαριονέτα που φοράει κάποια μάσκα έκφρασης προσώπου, ενώ οι χαρακτήρες του EMO φαίνεται να εκφράζουν τις αποχρώσεις των σύνθετων συναισθημάτων που εμφανίζονται σε κάθε ηχητικό κλιπ.
Αξίζει να σημειωθεί σε αυτό το σημείο ότι, όπως και με το Sora, αξιολογούμε αυτό το πλαίσιο τεχνητής νοημοσύνης με βάση ένα demo που παρέχεται από τους δημιουργούς του και δεν υπάρχει περαιτέρω μια αξιοπιοιήσιμη έκδοση που να μπορεί να δοκιμαστεί. Είναι δύσκολο να αναλογιστεί κανείς ότι ένα τέτοιο λογισμικό μπορεί να παράγει τόσο πειστικά ανθρώπινες ερμηνείες προσώπου με βάση τον ήχο, χωρίς σημαντικές δοκιμές και σφάλματα.