Εν μέσω της συνεχιζόμενης μάχης με τον Elon Musk, η προγραμματίστρια του ChatGPT και του DALL-E, OpenAI, βρέθηκε για άλλη μια φορά εμπλεκόμενος σε διαμάχες, αυτήν τη φορά γύρω από το πρόσφατα αποκαλυφθέν μοντέλο τεχνητής νοημοσύνης, Sora.
Το Sora είναι το νέο εντυπωσιακό ΑΙ μοντέλο της OpenAI, το οποίο προσφέρει τη δυνατότητα μετατροπής κειμένου σε βίντεο (text-to-video). Το εργαλείο αυτό, όπως και το ChatGPT, αναμένεται να αλλάξει τις δυνατότητες, όχι μόνο των brands που ασχολούνται με το ηλεκτρονικό εμπόριο (για παράδειγμα, πώς θα δείχνουν τα eshop τα προϊόντα τους στο εγγύς μέλλον;), αλλά και τον κόσμο των επιχειρήσεων γενικά.
Το νέο μοντέλο δημιουργίας βίντεο αποκαλύφθηκε πριν από έναν μήνα και αναπτύχθηκε ως μέρος των προσπαθειών της ομάδας να εκπαιδεύσει το AI για την κατανόηση και την αναπαραγωγή των δυναμικών στον φυσικό κόσμο. Με την υποστήριξη μιας transformer architecture παρόμοιας με τα μοντέλα GPT, το Sora μπορεί να δημιουργήσει βίντεο 20 δευτερολέπτων με ανάλυση 1280x720 με βάση το κείμενο εντολών (prompt) που πληκτρολογεί ο χρήστης.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Η OpenAI παρουσίασε για πρώτη φορά το Sora «ειρωνικά» την ίδια μέρα που και η Google ανακοίνωσε το Gemini 1.5, που όμως αποσύρθηκε προσωρινά λόγω αντιδράσεων για τη λειτουργίας του.
Πώς λειτουργεί το Sora;
Το νέο αυτό text-to-video μοντέλο τεχνητής νοημοσύνης κέρδισε τις εντυπώσεις, λόγω της ικανότητας του να δημιουργεί εντυπωσιακά βίντεο μέσα από prompt.
Στην ουσία, το Sora λειτουργεί ακριβώς όπως κάθε συσκευή δημιουργίας εικόνων AI που έχει προηγηθεί, απλώς με πολλά περισσότερα βήματα. Οι γεννήτριες εικόνων AI χρησιμοποιούν μια μέθοδο γνωστή ως «diffusion models» (μοντέλα διάχυσης).
Ουσιαστικά λειτουργεί με τη λήψη ενός βίντεο που έχει μετατραπεί εξ ολοκλήρου σε στατικό. Στη συνέχεια διδάσκεται η αντιστροφή του στατικού, με αποτέλεσμα μια καθαρή εικόνα (ή βίντεο σε αυτήν την περίπτωση).
Για να εκπαιδεύσει κάτι τέτοιο, τροφοδοτείται με παραδείγματα βίντεο με συνοδευτικό εναλλακτικό κείμενο που εξηγεί τι συμβαίνει στο βίντεο. Το μοντέλο πρέπει να κατανοήσει τα τρισδιάστατα μοντέλα (3D models), την κίνηση, τις αντανακλάσεις, τις σκιές και μια μεγάλη λίστα πολύ περίπλοκων χαρακτηριστικών για αντιγραφή.
@cleoabram THESE ARE AI VIDEOS. OpenAI just released a new tool to generate video from text and it is WILD. It’s called Sora, and here’s what it can do... This is the first time I’ve seen AI video that felt REAL. The big challenge of even the best versions so far has been keeping visual consistency. But now? It does still mess up in funny ways: In a few clips, it creates extra arms and puppies out of thin air. But… wow. I’m obviously imagining all kind of things that can go wrong with creating video of ANYTHING in seconds. But I’m also imagining the kind of creativity this could unlock. If you want to keep up with this story in an optimistic way, follow for more! #learnontiktok #openAI #sora #ai #video #science #stem #tech #education
♬ original sound - Cleo Abram
Το Sora και οι δυνατότητές του «διχάζουν»
Μετά την αποκάλυψή του, το κυρίαρχο ερώτημα στο μυαλό πολλών ανθρώπων αντικατόπτριζε το ίδιο ερώτημα που τίθεται συχνά σε άλλα μοντέλα τεχνητής νοημοσύνης: Ποια δεδομένα χρησιμοποιήθηκαν για την εκπαίδευσή του; Αυτή η ερώτηση αναμενόταν να λάβει απάντηση κατά τη διάρκεια μιας πρόσφατης συνέντευξης που δημοσιεύτηκε από την The Wall Street Journal, αλλά δυστυχώς, χάρη στη μαεστρία της OpenAI CTO, Mira Murati ,να αποφεύγει ερωτήσεις, αυτό δεν συνέβη.
Όταν ρωτήθηκε σχετικά με τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση του Sora, η Murati απάντησε, με τρόπο σχεδόν εξίσου μηχανικό και αυτόματο, όπως τα προϊόντα του OpenAI, ότι το μοντέλο ήταν, φυσικά, εκπαιδευμένο σε δημόσια διαθέσιμα και αδειοδοτημένα δεδομένα.
Η Mira Murati, η Chief Technology Officer, «δεν ήταν σίγουρη σχετικά με τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευσή του»
Φαινομενικά ενώ δεν προσδοκούσε άλλη απάντηση, η Joanna Stern που έθεσε τις ερωτήσεις, πίεσε περαιτέρω, ζητώντας από την CTO να διευκρινίσει και να εξηγήσει ποιες πηγές κρύβονται πίσω από αυτό το «μάντρα» με τα «δημόσια διαθέσιμα και αδειοδοτημένα δεδομένα». Όταν ρωτήθηκε εάν τα βίντεο του YouTube, του Facebook ή του Instagram χρησιμοποιήθηκαν για εκπαίδευση, η Murati ισχυρίστηκε ότι «δεν ήταν σίγουρη γι' αυτό», μια δήλωση που δεν ευσταθεί, λαμβάνοντας υπόψη τη θέση της ως Chief Technology Officer.
OpenAI’s CTO when asked which publicly available data they used to train Sora is a master class in how NOT to answer an obvious question you should be prepared to answer in an interview. pic.twitter.com/UQhB6vJrig
— Dare Obasanjo🐀 (@Carnage4Life) March 14, 2024
Μετά από περαιτέρω ερωτήσεις σχετικά με τη χρήση εικόνων Shutterstock, η Murati αρνήθηκε κατηγορηματικά να συζητήσει την εκπαίδευση του Sora, επαναλαμβάνοντας για άλλη μια φορά ότι τα δεδομένα που χρησιμοποιήθηκαν ήταν «δημόσια διαθέσιμα και αδειοδοτημένα».
Η αντίδραση στο σχόλιο «δεν είμαι σίγουρη» ήταν ακριβώς αυτό που θα περίμενε κανείς, με χιλιάδες άτομα να κατακρίνουν το OpenAI σε όλο το internet. Ενώ η μη αδειοδοτημένη χρήση υλικών από διάφορους προγραμματιστές τεχνητής νοημοσύνης είναι δύσκολο να αντικρουστεί σε αυτό το στάδιο, πολλοί εξακολουθούν να βρίσκουν την απάντηση της Murati για το θέμα εξωφρενική, κατηγορώντας την για ψέματα.
So when *the CTO* of OpenAI is asked if Sora was trained on YouTube videos, she says “actually I’m not sure” and refuses to discuss all further questions about the training data. Either a rather stunning level of ignorance of her own product, or a lie—pretty damning either way! https://t.co/irdbRcmrEp
— Brian Merchant (@bcmerchant) March 14, 2024