Εν μέσω της συνεχιζόμενης μάχης με τον Elon Musk, η προγραμματίστρια του ChatGPT και του DALL-E, OpenAI, βρέθηκε για άλλη μια φορά εμπλεκόμενος σε διαμάχες, αυτήν τη φορά γύρω από το πρόσφατα αποκαλυφθέν μοντέλο τεχνητής νοημοσύνης, Sora.

Το Sora είναι το νέο εντυπωσιακό ΑΙ μοντέλο της OpenAI, το οποίο προσφέρει τη δυνατότητα μετατροπής κειμένου σε βίντεο (text-to-video). Το εργαλείο αυτό, όπως και το ChatGPT, αναμένεται να αλλάξει τις δυνατότητες, όχι μόνο των brands που ασχολούνται με το ηλεκτρονικό εμπόριο (για παράδειγμα, πώς θα δείχνουν τα eshop τα προϊόντα τους στο εγγύς μέλλον;), αλλά και τον κόσμο των επιχειρήσεων γενικά.

To εντυπωσιακό Sora της OpenAI σύντομα διαθέσιμο
Μια νέα μέρα ξημερώνει με το νέο ΑΙ εργαλείο Sora της OpenAI να πρόκειται να βρεθεί κοντά μας σύντομα.

Το νέο μοντέλο δημιουργίας βίντεο αποκαλύφθηκε πριν από έναν μήνα και αναπτύχθηκε ως μέρος των προσπαθειών της ομάδας να εκπαιδεύσει το AI για την κατανόηση και την αναπαραγωγή των δυναμικών στον φυσικό κόσμο. Με την υποστήριξη μιας transformer architecture παρόμοιας με τα μοντέλα GPT, το Sora μπορεί να δημιουργήσει βίντεο 20 δευτερολέπτων με ανάλυση 1280x720 με βάση το κείμενο εντολών (prompt) που πληκτρολογεί ο χρήστης.

Η OpenAI παρουσίασε για πρώτη φορά το Sora «ειρωνικά» την ίδια μέρα που και η Google ανακοίνωσε το Gemini 1.5, που όμως αποσύρθηκε προσωρινά λόγω αντιδράσεων για τη λειτουργίας του.

Πώς λειτουργεί το Sora;

Το νέο αυτό text-to-video μοντέλο τεχνητής νοημοσύνης κέρδισε τις εντυπώσεις, λόγω της ικανότητας του να δημιουργεί εντυπωσιακά βίντεο μέσα από prompt.

Στην ουσία, το Sora λειτουργεί ακριβώς όπως κάθε συσκευή δημιουργίας εικόνων AI που έχει προηγηθεί, απλώς με πολλά περισσότερα βήματα. Οι γεννήτριες εικόνων AI χρησιμοποιούν μια μέθοδο γνωστή ως «diffusion models» (μοντέλα διάχυσης).

Ουσιαστικά λειτουργεί με τη λήψη ενός βίντεο που έχει μετατραπεί εξ ολοκλήρου σε στατικό. Στη συνέχεια διδάσκεται η αντιστροφή του στατικού, με αποτέλεσμα μια καθαρή εικόνα (ή βίντεο σε αυτήν την περίπτωση).

Για να εκπαιδεύσει κάτι τέτοιο, τροφοδοτείται με παραδείγματα βίντεο με συνοδευτικό εναλλακτικό κείμενο που εξηγεί τι συμβαίνει στο βίντεο. Το μοντέλο πρέπει να κατανοήσει τα τρισδιάστατα μοντέλα (3D models), την κίνηση, τις αντανακλάσεις, τις σκιές και μια μεγάλη λίστα πολύ περίπλοκων χαρακτηριστικών για αντιγραφή.

@cleoabram

THESE ARE AI VIDEOS. OpenAI just released a new tool to generate video from text and it is WILD. It’s called Sora, and here’s what it can do... This is the first time I’ve seen AI video that felt REAL. The big challenge of even the best versions so far has been keeping visual consistency. But now? It does still mess up in funny ways: In a few clips, it creates extra arms and puppies out of thin air. But… wow. I’m obviously imagining all kind of things that can go wrong with creating video of ANYTHING in seconds. But I’m also imagining the kind of creativity this could unlock. If you want to keep up with this story in an optimistic way, follow for more! #learnontiktok #openAI #sora #ai #video #science #stem #tech #education

♬ original sound - Cleo Abram

Το Sora και οι δυνατότητές του «διχάζουν»

Μετά την αποκάλυψή του, το κυρίαρχο ερώτημα στο μυαλό πολλών ανθρώπων αντικατόπτριζε το ίδιο ερώτημα που τίθεται συχνά σε άλλα μοντέλα τεχνητής νοημοσύνης: Ποια δεδομένα χρησιμοποιήθηκαν για την εκπαίδευσή του; Αυτή η ερώτηση αναμενόταν να λάβει απάντηση κατά τη διάρκεια μιας πρόσφατης συνέντευξης που δημοσιεύτηκε από την The Wall Street Journal, αλλά δυστυχώς, χάρη στη μαεστρία της OpenAI CTO, Mira Murati ,να αποφεύγει ερωτήσεις, αυτό δεν συνέβη.

Όταν ρωτήθηκε σχετικά με τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση του Sora, η Murati απάντησε, με τρόπο σχεδόν εξίσου μηχανικό και αυτόματο, όπως τα προϊόντα του OpenAI, ότι το μοντέλο ήταν, φυσικά, εκπαιδευμένο σε δημόσια διαθέσιμα και αδειοδοτημένα δεδομένα.

Η Mira Murati, η Chief Technology Officer, «δεν ήταν σίγουρη σχετικά με τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευσή του»

Φαινομενικά ενώ δεν προσδοκούσε άλλη απάντηση, η Joanna Stern που έθεσε τις ερωτήσεις, πίεσε περαιτέρω, ζητώντας από την CTO να διευκρινίσει και να εξηγήσει ποιες πηγές κρύβονται πίσω από αυτό το «μάντρα» με τα «δημόσια διαθέσιμα και αδειοδοτημένα δεδομένα». Όταν ρωτήθηκε εάν τα βίντεο του YouTube, του Facebook ή του Instagram χρησιμοποιήθηκαν για εκπαίδευση, η Murati ισχυρίστηκε ότι «δεν ήταν σίγουρη γι' αυτό», μια δήλωση που δεν ευσταθεί, λαμβάνοντας υπόψη τη θέση της ως Chief Technology Officer.

Μετά από περαιτέρω ερωτήσεις σχετικά με τη χρήση εικόνων Shutterstock, η Murati αρνήθηκε κατηγορηματικά να συζητήσει την εκπαίδευση του Sora, επαναλαμβάνοντας για άλλη μια φορά ότι τα δεδομένα που χρησιμοποιήθηκαν ήταν «δημόσια διαθέσιμα και αδειοδοτημένα». 

👀
Ενδιαφέρον προκαλεί ότι η Murati επιβεβαίωσε τελικά τη χρήση υλικού από το Shutterstock, αλλά αυτό συνέβη εκτός κάμερας και αποκαλύφθηκε μόνο σε μια υποσημείωση που κοινοποιήθηκε από το WSJ (!).

Η αντίδραση στο σχόλιο «δεν είμαι σίγουρη» ήταν ακριβώς αυτό που θα περίμενε κανείς, με χιλιάδες άτομα να κατακρίνουν το OpenAI σε όλο το internet. Ενώ η μη αδειοδοτημένη χρήση υλικών από διάφορους προγραμματιστές τεχνητής νοημοσύνης είναι δύσκολο να αντικρουστεί σε αυτό το στάδιο, πολλοί εξακολουθούν να βρίσκουν την απάντηση της Murati για το θέμα εξωφρενική, κατηγορώντας την για ψέματα.