PaLM-E το μοντέλο οπτικής γλώσσας της Google που θα μας τρελάνει

Τη Δευτέρα, μια ομάδα ερευνητών τεχνητής νοημοσύνης από την Google και το Τεχνικό Πανεπιστήμιο του Βερολίνου παρουσίασαν το PaLM-E, ένα πολυτροπικό ενσωματωμένο μοντέλο οπτικής γλώσσας (VLM από το -language model) με 562 δισεκατομμύρια παραμέτρους που διαθέτει όραση και ομιλία για ρομποτικό έλεγχο.

approach

Ισχυρίζονται ότι είναι το μεγαλύτερο VLM που έχει αναπτυχθεί ποτέ και ότι μπορεί να εκτελέσει διάφορες εργασίες χωρίς την ανάγκη επανεκπαίδευσης. Σύμφωνα με την Google, όταν δοθεί μια εντολή υψηλού επιπέδου, όπως “φέρε μου τα τσιπς ρυζιού από το συρτάρι”, το μπορεί να δημιουργήσει ένα σχέδιο δράσης για μια φορητή ρομπότ με βραχίονα (που αναπτύχθηκε από την Google Robotics) και να εκτελέσει τις ενέργειες.

Το PaLM-E το κάνει αυτό αναλύοντας δεδομένα από την κάμερα του ρομπότ χωρίς να χρειάζεται μια προεπεξεργασμένη αναπαράσταση σκηνής. Αυτό εξαλείφει την ανάγκη για έναν άνθρωπο που προεπεξεργάζεται ή προσθέτει δεδομένα και επιτρέπει αυτόνομο ρομποτικό έλεγχο.

Για παράδειγμα, το μοντέλο PaLM-E μπορεί να καθοδηγήσει ένα ρομπότ να πάρει μια τσάντα με τσιπ από μια κουζίνα — και με το PaLM-E ενσωματωμένο στον έλεγχο, μπορεί να αντιδράσει σε κάθε δυσκολίες που μπορεί να προκύψουν κατά τη διάρκεια της εργασίας. Σε ένα βίντεο, ένας ερευνητής αρπάζει τα τσιπ από το ρομπότ και τα μετακινεί, αλλά το ρομπότ τα εντοπίζει και τα πιάνει ξανά.

Σε ένα άλλο παράδειγμα, το ίδιο μοντέλο PaLM-E ελέγχει αυτόνομα ένα ρομπότ μέσω εργασιών με πολύπλοκες ακολουθίες που προηγουμένως απαιτούσαν ανθρώπινη καθοδήγηση. Το ερευνητικό έγγραφο της Google εξηγεί (PDF) πώς το PaLM-E μετατρέπει τις οδηγίες σε ενέργειες.

Το PaLM-E είναι η επόμενη τεχνολογία και ονομάζεται “PaLM-E” επειδή βασίζεται στο υπάρχον μοντέλο (LLM) της Google που ονομάζεται “PaLM” (το οποίο είναι παρόμοιο με την τεχνολογία πίσω από το ChatGPT).

Η Google πρόσθεσε στο PaLM αισθητηριακές πληροφορίες και ρομποτικό έλεγχο. Δεδομένου ότι βασίζεται σε ένα μοντέλο γλώσσας, το PaLM-E λαμβάνει συνεχώς δεδομένα, όπως εικόνες ή δεδομένα αισθητήρων, και τις κωδικοποιεί σε μια ακολουθία που επιτρέπει στο μοντέλο να “κατανοήσει” τις πληροφορίες με τον ίδιο τρόπο που επεξεργάζεται τη γλώσσα. Εκτός από τον μετασχηματιστή ρομποτικής RT-1, το PaLM-E αντλεί δεδομένα και από την προηγούμενη εργασία της Google στο ViT-22B, ένα μοντέλο μετασχηματιστή όρασης που αποκαλύφθηκε τον Φεβρουάριο. Το ViT-22B έχει εκπαιδευτεί σε διάφορες οπτικές εργασίες, όπως ταξινόμηση εικόνων, αντικειμένων, σημασιολογική τμηματοποίηση και υπότιτλους εικόνων.

iGuRu.gr The Best Technology Site in Greecefgns

κάθε δημοσίευση, άμεσα στο inbox σας

Προστεθείτε στους 2.082 εγγεγραμμένους.
PaLM-E

Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

One Comment

Leave a Reply
  1. Έχω απορία. Ξανά.

    Η ανθρωπότητα πασχίζει εδώ και χρόνια, για να στήσει, για να δημιουργήσει ρομπότ. Ρομπότ που όχι και πολύ μακρινά (σε χρόνο) θα μοιάζουν με άνθρωπο (σ.σ. θα έχουν χέρια, πόδια, ίσως και εργαλεία σε βραχίονες) με αυτοσκοπό να κάνουν τις εργασίες των ανθρώπων. Ok. μέχρι εδώ.

    ΟΜΩΣ, αν γίνουν όλα αυτά πραγματικότητα (σ.σ. που θα γίνουν και μάλιστα σχετικά σύντομα), κάποιες/οι θα χάσουν τις δουλειές τους. Είτε είναι αστυνομικοί (βλ. τα ένοπλα ρομπότ που προμηθεύτηκε πολιτεία των ΗΠΑ για να μη κινδυνεύουν ένστολοι άνθρωποι κατά την άσκηση των καθηκόντων τους), είτε βιομηχανικά ρομπότ (σ.σ. τα χρησιμοποιεί χρόοονια η αυτοκινητοβιομηχανία), είτε ρομπότ οδοκαθαριστές, είτε ρομπότ οικιακοί βοηθοί, είτε ρομπότ συναρμολόγησης κινητών, μητρικών κλπ.
    Πρόσφατα ακούγονται και τα ρομπότ – πλατφόρμες τεχνητής νοημοσύνης που θα λειτουργούν ως δικηγόροι και δικαστές.

    Ωραία μέχρι εδώ ; λύσαμε το πρόβλημα της ρήσης “ο άνθρωπος δεν μπορεί να κάνει τις κολλήσεις ακριβείας που κάνει ένα ρομπότ” ; Ας πούμε ναι, έχοντας στο πίσω μέρος του μυαλού μας ΤΗ ΘΕΜΕΛΙΩΔΗ απορία.

    Αν απολυθεί και άλλος κόσμος, κόσμος που θα συσσωρευτεί στα εκατοντάδες εκατομμύρια ανέργων ανά την υφήλιο, αν χάσει ΚΑΙ άλλος κόσμος τα έσοδα του από την όποια εργασία έκανε και δυνάμει των εσόδων του κατανάλωνε σε αγαθά (και γκάτζετς), ποιος κερατάς θα έχει οικονομική ικανότητα για να αγοράσει όσα θα παράγουν οι “μεγάλοι” που χρησιμοποιούν της “τεχνολογίες αιχμής” ;

    Μια πιθανή απάντηση είναι η : δε χρειάζεται να έχουμε τόσο πολύ κόσμο …
    Μια άλλη όμως λέει πως : ο πεινασμένος, είναι ή/και γίνεται θηρίο ανήμερο που δεν το συγκρατεί τίποτα …

    Ίδωμεν.

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).