PaLM-E το μοντέλο οπτικής γλώσσας της Google που θα μας τρελάνει

iGuRu.gr > PaLM-E το μοντέλο οπτικής γλώσσας της Google που θα μας τρελάνει

Τη Δευτέρα, μια ομάδα ερευνητών τεχνητής νοημοσύνης από την Google και το Τεχνικό Πανεπιστήμιο του Βερολίνου παρουσίασαν το PaLM-E, ένα πολυτροπικό ενσωματωμένο μοντέλο οπτικής γλώσσας (VLM από το visual-language model) με 562 δισεκατομμύρια παραμέτρους που διαθέτει όραση και ομιλία για ρομποτικό έλεγχο.

approach

Ανακαλύψτε περισσότερα άρθρα στα αποτελέσματα αναζήτησης.

Το iGuRu.gr προτιμώμενη πηγή

Ισχυρίζονται ότι είναι το μεγαλύτερο VLM που έχει αναπτυχθεί ποτέ και ότι μπορεί να εκτελέσει διάφορες εργασίες χωρίς την ανάγκη επανεκπαίδευσης. Σύμφωνα με την Google, όταν δοθεί μια εντολή υψηλού επιπέδου, όπως “φέρε μου τα τσιπς ρυζιού από το συρτάρι”, το PaLM-E μπορεί να δημιουργήσει ένα σχέδιο δράσης για μια φορητή πλατφόρμα ρομπότ με βραχίονα (που αναπτύχθηκε από την Google Robotics) και να εκτελέσει τις ενέργειες.

Το PaLM-E το κάνει αυτό αναλύοντας δεδομένα από την κάμερα του ρομπότ χωρίς να χρειάζεται μια προεπεξεργασμένη αναπαράσταση σκηνής. Αυτό εξαλείφει την ανάγκη για έναν άνθρωπο που προεπεξεργάζεται ή προσθέτει δεδομένα και επιτρέπει αυτόνομο ρομποτικό έλεγχο.

Για παράδειγμα, το μοντέλο PaLM-E μπορεί να καθοδηγήσει ένα ρομπότ να πάρει μια τσάντα με τσιπ από μια κουζίνα — και με το PaLM-E ενσωματωμένο στον έλεγχο, μπορεί να αντιδράσει σε κάθε δυσκολίες που μπορεί να προκύψουν κατά τη διάρκεια της εργασίας. Σε ένα βίντεο, ένας ερευνητής αρπάζει τα τσιπ από το ρομπότ και τα μετακινεί, αλλά το ρομπότ τα εντοπίζει και τα πιάνει ξανά.

Σε ένα άλλο παράδειγμα, το ίδιο μοντέλο PaLM-E ελέγχει αυτόνομα ένα ρομπότ μέσω εργασιών με πολύπλοκες ακολουθίες που προηγουμένως απαιτούσαν ανθρώπινη καθοδήγηση. Το ερευνητικό έγγραφο της Google εξηγεί (PDF) πώς το PaLM-E μετατρέπει τις οδηγίες σε ενέργειες.

Το PaLM-E είναι η επόμενη τεχνολογία και ονομάζεται “PaLM-E” επειδή βασίζεται στο υπάρχον μοντέλο (LLM) της Google που ονομάζεται “PaLM” (το οποίο είναι παρόμοιο με την τεχνολογία πίσω από το ChatGPT).

Η Google πρόσθεσε στο PaLM αισθητηριακές πληροφορίες και ρομποτικό έλεγχο. Δεδομένου ότι βασίζεται σε ένα μοντέλο γλώσσας, το PaLM-E λαμβάνει συνεχώς δεδομένα, όπως εικόνες ή δεδομένα αισθητήρων, και τις κωδικοποιεί σε μια ακολουθία που επιτρέπει στο μοντέλο να “κατανοήσει” τις πληροφορίες με τον ίδιο τρόπο που επεξεργάζεται τη γλώσσα. Εκτός από τον μετασχηματιστή ρομποτικής RT-1, το PaLM-E αντλεί δεδομένα και από την προηγούμενη εργασία της Google στο ViT-22B, ένα μοντέλο μετασχηματιστή όρασης που αποκαλύφθηκε τον Φεβρουάριο. Το ViT-22B έχει εκπαιδευτεί σε διάφορες οπτικές εργασίες, όπως ταξινόμηση εικόνων, ανίχνευση αντικειμένων, σημασιολογική τμηματοποίηση και υπότιτλους εικόνων.

giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ….

giorgos

on08/03/2023 08:48

news

Γιώργος Κ.

on 08/03/2023 15:03

Έχω απορία. Ξανά.

Η ανθρωπότητα πασχίζει εδώ και χρόνια, για να στήσει, για να δημιουργήσει ρομπότ. Ρομπότ που όχι και πολύ μακρινά (σε χρόνο) θα μοιάζουν με άνθρωπο (σ.σ. θα έχουν χέρια, πόδια, ίσως και εργαλεία σε βραχίονες) με αυτοσκοπό να κάνουν τις εργασίες των ανθρώπων. Ok. μέχρι εδώ.

ΟΜΩΣ, αν γίνουν όλα αυτά πραγματικότητα (σ.σ. που θα γίνουν και μάλιστα σχετικά σύντομα), κάποιες/οι θα χάσουν τις δουλειές τους. Είτε είναι αστυνομικοί (βλ. τα ένοπλα ρομπότ που προμηθεύτηκε πολιτεία των ΗΠΑ για να μη κινδυνεύουν ένστολοι άνθρωποι κατά την άσκηση των καθηκόντων τους), είτε βιομηχανικά ρομπότ (σ.σ. τα χρησιμοποιεί χρόοονια η αυτοκινητοβιομηχανία), είτε ρομπότ οδοκαθαριστές, είτε ρομπότ οικιακοί βοηθοί, είτε ρομπότ συναρμολόγησης κινητών, μητρικών κλπ.
Πρόσφατα ακούγονται και τα ρομπότ – πλατφόρμες τεχνητής νοημοσύνης που θα λειτουργούν ως δικηγόροι και δικαστές.

Ωραία μέχρι εδώ ; λύσαμε το πρόβλημα της ρήσης “ο άνθρωπος δεν μπορεί να κάνει τις κολλήσεις ακριβείας που κάνει ένα ρομπότ” ; Ας πούμε ναι, έχοντας στο πίσω μέρος του μυαλού μας ΤΗ ΘΕΜΕΛΙΩΔΗ απορία.

Αν απολυθεί και άλλος κόσμος, κόσμος που θα συσσωρευτεί στα εκατοντάδες εκατομμύρια ανέργων ανά την υφήλιο, αν χάσει ΚΑΙ άλλος κόσμος τα έσοδα του από την όποια εργασία έκανε και δυνάμει των εσόδων του κατανάλωνε σε αγαθά (και γκάτζετς), ποιος κερατάς θα έχει οικονομική ικανότητα για να αγοράσει όσα θα παράγουν οι “μεγάλοι” που χρησιμοποιούν της “τεχνολογίες αιχμής” ;

Μια πιθανή απάντηση είναι η : δε χρειάζεται να έχουμε τόσο πολύ κόσμο …
Μια άλλη όμως λέει πως : ο πεινασμένος, είναι ή/και γίνεται θηρίο ανήμερο που δεν το συγκρατεί τίποτα …

Ίδωμεν.

Απάντηση

PaLM-E το μοντέλο οπτικής γλώσσας της Google που θα μας τρελάνει

new posts by email:

Leave a Comment Cancel

Read Next

KillerPDF 1.6.1 portable PDF editor χωρίς τηλεμετρία

Γιατί το Facebook app αναφέρει hacked στο Play Store;

Νέα τεχνική browser-only ransomware