Γίνεται λίγο πιο εύκολη η κατασκευή προηγμένων έργων ρομποτικής στο σπίτι.
Νωρίτερα αυτή την εβδομάδα, η πλατφόρμα ανάπτυξης τεχνητής νοημοσύνης Hugging Face κυκλοφόρησε ένα ανοιχτό μοντέλο AI για ρομποτική με την ονομασία SmolVLA. Εκπαιδευμένο σε "συμβατά αδειοδοτημένα," datasets που κοινοποιούνται από την κοινότητα, το SmolVLA υπερτερεί σε σχέση με πολύ μεγαλύτερα μοντέλα για ρομποτική τόσο σε εικονικά όσο και σε πραγματικά περιβάλλοντα, όπως υποστηρίζει η Hugging Face.
"Το SmolVLA στοχεύει στη δημοκρατοποίηση της πρόσβασης σε μοντέλα πράξης γλώσσας-εικόνας [VLA] και στην επιτάχυνση της έρευνας προς γενικευμένους ρομποτικούς πράκτορες," γράφει η Hugging Face σε μια ανάρτηση στο blog της. "Το SmolVLA δεν είναι μόνο ένα ελαφρύ αλλά ικανό μοντέλο, αλλά και μια μέθοδος για την εκπαίδευση και αξιολόγηση γενικευμένων ρομποτικών [τεχνολογιών]."
Το SmolVLA είναι μέρος της γρήγορα αναπτυσσόμενης προσπάθειας της Hugging Face για τη δημιουργία ενός οικοσυστήματος χαμηλού κόστους υλικού και λογισμικού ρομποτικής. Πέρυσι, η εταιρεία ξεκίνησε το LeRobot, μια συλλογή μοντέλων, datasets και εργαλείων εστιασμένων στη ρομποτική. Πιο πρόσφατα, η Hugging Face εξαγόρασε την Pollen Robotics, μια ρομποτική startup με έδρα τη Γαλλία, και αποκάλυψε αρκετά φθηνά συστήματα ρομποτικής, συμπεριλαμβανομένων ανθρωποειδών, προς αγορά.
Το SmolVLA, το οποίο έχει μέγεθος 450 εκατομμύρια παραμέτρους, εκπαιδεύτηκε σε δεδομένα από τα LeRobot Community Datasets, ειδικά επισημασμένα datasets ρομποτικής που κοινοποιούνται στην πλατφόρμα ανάπτυξης τεχνητής νοημοσύνης της Hugging Face. Οι παράμετροι, ορισμένες φορές αναφερόμενοι ως "βάρη," είναι οι εσωτερικές συνιστώσες ενός μοντέλου που καθοδηγούν τη συμπεριφορά του.
Η Hugging Face υποστηρίζει ότι το SmolVLA είναι αρκετά μικρό ώστε να τρέχει σε μια μόνο καταναλωτική GPU – ή ακόμη και ένα MacBook – και μπορεί να δοκιμαστεί και να εφαρμοστεί σε "προσιτό" υλικό, συμπεριλαμβανομένων των ίδιων των συστημάτων ρομποτικής της εταιρείας.
Σε μια ενδιαφέρουσα στροφή, το SmolVLA υποστηρίζει επίσης ένα "ασύγχρονο στοίβαγμα εκτίμησης," το οποίο η Hugging Face λέει ότι επιτρέπει στο μοντέλο να χωρίσει την επεξεργασία των ενεργειών ενός ρομπότ από την επεξεργασία του τι βλέπει και ακούει. Όπως εξηγεί η εταιρεία στην ανάρτηση στο blog της, "Λόγω αυτής της διαχωριστικής διαδικασίας, τα ρομπότ μπορούν να ανταποκριθούν πιο γρήγορα σε γρήγορα μεταβαλλόμενα περιβάλλοντα."
Το SmolVLA είναι διαθέσιμο για λήψη από την Hugging