PaLM-E το μοντέλο οπτικής γλώσσας της Google που θα μας τρελάνει

by giorgos 08/03/2023 08:48

Τη Δευτέρα, μια ομάδα ερευνητών τεχνητής νοημοσύνης από την Google και το Τεχνικό Πανεπιστήμιο του Βερολίνου παρουσίασαν το PaLM-E, ένα πολυτροπικό ενσωματωμένο μοντέλο οπτικής γλώσσας (VLM από το visual-language model) με 562 δισεκατομμύρια παραμέτρους που διαθέτει όραση και ομιλία για ρομποτικό έλεγχο.

approach

Ισχυρίζονται ότι είναι το μεγαλύτερο VLM που έχει αναπτυχθεί ποτέ και ότι μπορεί να εκτελέσει διάφορες εργασίες χωρίς την ανάγκη επανεκπαίδευσης. Σύμφωνα με την Google, όταν δοθεί μια εντολή υψηλού επιπέδου, όπως “φέρε μου τα τσιπς ρυζιού από το συρτάρι”, το PaLM-E μπορεί να δημιουργήσει ένα σχέδιο δράσης για μια φορητή πλατφόρμα ρομπότ με βραχίονα (που αναπτύχθηκε από την Google Robotics) και να εκτελέσει τις ενέργειες.

Το PaLM-E το κάνει αυτό αναλύοντας δεδομένα από την κάμερα του ρομπότ χωρίς να χρειάζεται μια προεπεξεργασμένη αναπαράσταση σκηνής. Αυτό εξαλείφει την ανάγκη για έναν άνθρωπο που προεπεξεργάζεται ή προσθέτει δεδομένα και επιτρέπει αυτόνομο ρομποτικό έλεγχο.

Για παράδειγμα, το μοντέλο PaLM-E μπορεί να καθοδηγήσει ένα ρομπότ να πάρει μια τσάντα με τσιπ από μια κουζίνα — και με το PaLM-E ενσωματωμένο στον έλεγχο, μπορεί να αντιδράσει σε κάθε δυσκολίες που μπορεί να προκύψουν κατά τη διάρκεια της εργασίας. Σε ένα βίντεο, ένας ερευνητής αρπάζει τα τσιπ από το ρομπότ και τα μετακινεί, αλλά το ρομπότ τα εντοπίζει και τα πιάνει ξανά.

Σε ένα άλλο παράδειγμα, το ίδιο μοντέλο PaLM-E ελέγχει αυτόνομα ένα ρομπότ μέσω εργασιών με πολύπλοκες ακολουθίες που προηγουμένως απαιτούσαν ανθρώπινη καθοδήγηση. Το ερευνητικό έγγραφο της Google εξηγεί (PDF) πώς το PaLM-E μετατρέπει τις οδηγίες σε ενέργειες.

Το PaLM-E είναι η επόμενη τεχνολογία και ονομάζεται “PaLM-E” επειδή βασίζεται στο υπάρχον μοντέλο (LLM) της Google που ονομάζεται “PaLM” (το οποίο είναι παρόμοιο με την τεχνολογία πίσω από το ChatGPT).

Η Google πρόσθεσε στο PaLM αισθητηριακές πληροφορίες και ρομποτικό έλεγχο. Δεδομένου ότι βασίζεται σε ένα μοντέλο γλώσσας, το PaLM-E λαμβάνει συνεχώς δεδομένα, όπως εικόνες ή δεδομένα αισθητήρων, και τις κωδικοποιεί σε μια ακολουθία που επιτρέπει στο μοντέλο να “κατανοήσει” τις πληροφορίες με τον ίδιο τρόπο που επεξεργάζεται τη γλώσσα. Εκτός από τον μετασχηματιστή ρομποτικής RT-1, το PaLM-E αντλεί δεδομένα και από την προηγούμενη εργασία της Google στο ViT-22B, ένα μοντέλο μετασχηματιστή όρασης που αποκαλύφθηκε τον Φεβρουάριο. Το ViT-22B έχει εκπαιδευτεί σε διάφορες οπτικές εργασίες, όπως ταξινόμηση εικόνων, ανίχνευση αντικειμένων, σημασιολογική τμηματοποίηση και υπότιτλους εικόνων.

spread the news

X (Twitter) Facebook Email Reddit

google PaLM-E

Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

One Comment

Αφήστε μια απάντηση Ακύρωση απάντησης

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Σχόλιο *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).

Όνομα *

Email *

Website

Comment for robots Please empty this comment field to prove you're human.

PaLM-E το μοντέλο οπτικής γλώσσας της Google που θα μας τρελάνει

Get the best viral stories straight into your inbox!

spread the news

Written by giorgos

Μέθοδοι υποκλοπής των κωδικών πρόσβασης και αντίμετρα

Σαράντα χρόνια GNU

One Comment

Αφήστε μια απάντηση Ακύρωση απάντησης