Αν και η Apple είναι συνήθως το "'ήσυχο παιδί της πίσω σειράς" ανάμεσα στους τεχνολογικούς γίγαντες, τώρα βγαίνει μπροστά στην επικαιρότητα με ένα νέο generative AI μοντέλο, ονόματι OpenELM, το οποίο δείχνει να υπερτερεί σε σχέση με άλλα γλωσσικά μοντέλα, μαθαίνουμε τώρα από το The Register.

Σε σύγκριση με το OLMo, το οποίο έκανε το ντεμπούτο του τον Φεβρουάριο, το OpenELM είναι 2,36% πιο ακριβές, ενώ χρησιμοποιεί 2x λιγότερα tokens προεκπαίδευσης. Είναι όμως αρκετό για να μας αποδείξει ότι η Apple αν και δεν το διατυμπανίζει μπαίνει στο μέτωπο του AI παιχνιδιού, όπως έκανε πρόσφατα και με την εξαγορά start-up.

Η Apple μπαίνει στο παιχνίδι του AI με εξαγορά start-up
Τι πρέπει να γνωρίζετε για τα AI σχέδια της Apple με τη νέα εξαγορά μιας start-up.

Το "Μήλο" της διαφάνειας

Η Apple ήθελε να είναι ανοιχτή τόσο με το ίδιο το εργαλείο που αναπτύσσει αλλά και με το πλαίσιο με το οποίο εκπαιδεύεται.

"Αποκλίνοντας από προηγούμενες πρακτικές που παρέχουν μόνο τα βάρη του μοντέλου και τον κώδικα εξαγωγής συμπερασμάτων και προ-εκπαίδευση σε ιδιωτικά σύνολα δεδομένων, η έκδοσή μας περιλαμβάνει το πλήρες πλαίσιο για την εκπαίδευση και την αξιολόγηση του γλωσσικού μοντέλου σε δημόσια διαθέσιμα σύνολα δεδομένων, συμπεριλαμβανομένων των αρχείων καταγραφής εκπαίδευσης, των πολλαπλών σημείων ελέγχου και των διαμορφώσεων προ-εκπαίδευσης", εξηγούν έντεκα ερευνητές της Apple στο σχετικό τεχνικό έγγραφο.

Προϊόντα της Apple πάνω σε γραφείο

Και αποκλίνοντας από την ακαδημαϊκή πρακτική, δεν αναφέρονται οι διευθύνσεις ηλεκτρονικού ταχυδρομείου των συγγραφέων. Αυτό οφείλεται στην ερμηνεία της Apple για την ανοιχτότητα, η οποία είναι κάπως συγκρίσιμη με το όχι και τόσο ανοιχτό OpenAI.

Η συνοδευτική έκδοση λογισμικού δεν έχει μια αναγνωρισμένη άδεια χρήσης ανοικτού κώδικα. Δεν είναι αδικαιολόγητα περιοριστική, αλλά καθιστά σαφές ότι η εταιρεία διατηρεί το δικαίωμα να καταθέσει αξίωση για δίπλωμα ευρεσιτεχνίας, εάν οποιαδήποτε παράγωγη εργασία που βασίζεται στο OpenELM θεωρηθεί ότι παραβιάζει τα δικαιώματά της.

Το εκπαιδευτικό υπόβαθρο του OpenELM

Το OpenELM χρησιμοποιεί μια τεχνική που ονομάζεται layer-wise scaling για την αποτελεσματικότερη κατανομή των παραμέτρων στο μοντέλο του μετασχηματιστή. Έτσι, αντί κάθε στρώμα να έχει το ίδιο σύνολο παραμέτρων, τα στρώματα μετασχηματιστών του OpenELM έχουν διαφορετικές διαμορφώσεις και παραμέτρους. Το αποτέλεσμα είναι καλύτερη ακρίβεια, η οποία φαίνεται στο ποσοστό των σωστών προβλέψεων από το μοντέλο σε δοκιμές αναφοράς.

Το μοντέλο προ-εκπαιδεύτηκε χρησιμοποιώντας το σύνολο δεδομένων RedPajama από το GitHub, έναν τόνο βιβλίων, τη Wikipedia, δημοσιεύσεις του StackExchange, έγγραφα του ArXiv και άλλα, το σύνολο Dolma από το Reddit, τα Wikibooks, το Project Gutenberg και άλλα. Ο τρόπος λειτουργίας του είναι ο αναμενόμενος: δέχετε ερωτήσεις τις οποίες κατόπιν προσπαθεί να απαντήσει ή να συμπληρώσει αυτόματα.

Λαπτοπ με οθόνη κώδικα

Μια αξιοσημείωτη πτυχή της έκδοσης είναι ότι συνοδεύεται από "κώδικα για τη μετατροπή των μοντέλων σε βιβλιοθήκη MLX για εξαγωγή συμπερασμάτων και λεπτομερή ρύθμιση σε συσκευές της Apple". Το MLX είναι ένα πλαίσιο που κυκλοφόρησε πέρυσι για την εκτέλεση μηχανικής μάθησης στην Apple.

"Η κυκλοφορία του OpenELM από την Apple σηματοδοτεί μια σημαντική πρόοδο για την κοινότητα του AI, προσφέροντας αποτελεσματική, on-device επεξεργασία τεχνητής νοημοσύνης, ιδανική για κινητές εφαρμογές και συσκευές IoT με περιορισμένη υπολογιστική ισχύ", δήλωσε στο The Register ο Shahar Chen, διευθύνων σύμβουλος και συνιδρυτής της επιχείρησης υπηρεσιών τεχνητής νοημοσύνης Aquant. "Αυτό επιτρέπει τη γρήγορη, τοπική λήψη αποφάσεων που είναι απαραίτητη για τα πάντα, από τα smartphones μέχρι τις έξυπνες οικιακές συσκευές, επεκτείνοντας τις δυνατότητες της AI στην καθημερινή τεχνολογία".

Το OpenELM είναι διαθέσιμο σε προ-εκπαιδευμένα και συντονισμένα με οδηγίες μοντέλα με 270 εκατομμύρια, 450 εκατομμύρια, 1,1 δισεκατομμύρια και 3 δισεκατομμύρια παραμέτρους. Όσοι το χρησιμοποιούν προειδοποιούνται να κάνουν ουσιαστική έρευνα πριν δοκιμάσουν το μοντέλο για οτιδήποτε ουσιαστικό.