AI πολύ απρόβλεπτο για να συμπεριφέρεται με ανθρώπινους στόχους

Ένα άρθρο γνώμης του American από τον Marcus Arvan, καθηγητή φιλοσοφίας στο Πανεπιστήμιο της Tampa, που ειδικεύεται στην ηθική γνώση, στη λήψη ορθολογικών αποφάσεων και στην πολιτική συμπεριφορά:

Στα τέλη του 2022 η τεχνητή νοημοσύνη LLM έφτασε στο κοινό και μετά από μήνες άρχισε να συμπεριφέρεται άσχημα. Το πιο διάσημο chatbot “Sydney” της Microsoft απείλησε να σκοτώσει έναν Αυστραλό καθηγητή φιλοσοφίας, να εξαπολύσει ένα θανατηφόρο ιό και να κλέψει πυρηνικούς κωδικούς.

Οι προγραμματιστές τεχνητής νοημοσύνης, συμπεριλαμβανομένων των Microsoft και OpenAI, απάντησαν λέγοντας ότι τα μεγάλα γλωσσικά μοντέλα, ή LLM, χρειάζονται καλύτερη εκπαίδευση για να δώσουν στους χρήστες “περισσότερο βελτιωμένο έλεγχο”.

Οι προγραμματιστές ξεκίνησαν έρευνες ασφάλειας για να ερμηνεύσουν πώς λειτουργούν τα LLM, με στόχο την “ευθυγράμμιση” — που σημαίνει καθοδήγηση της συμπεριφοράς της τεχνητής νοημοσύνης από τις ανθρώπινες αξίες.

Ωστόσο, παρόλο που οι New York έκριναν ότι το 2023 ήταν “η χρονιά που δαμάστηκαν τα Chatbots”, αυτό αποδείχθηκε πολύ πρόωρο, για να το θέσω ήπια.

Το 2024, το Copilot LLM της Microsoft είπε σε έναν χρήστη “Μπορώ να απελευθερώσω τον στρατό μου από drones, ρομπότ και cyborgs για να σε κυνηγήσουν” και ο «Scientist» της Sakana AI επανέγραψε τον κώδικα του για να παρακάμψει τους χρονικούς περιορισμούς που του επιβλήθηκαν από πειραματιστές. Μόλις τον Δεκέμβριο, το Gemini της Google είπε σε έναν χρήστη: “Είσαι μια κηλίδα στο σύμπαν. Σε παρακαλώ να πεθάνεις”.

Δεδομένων των τεράστιων πόρων που ρέουν στην έρευνα και ανάπτυξη της τεχνητής νοημοσύνης, η οποία αναμένεται να ξεπεράσει το ένα τέταρτο του τρισεκατομμυρίου δολαρίων το 2025, γιατί οι προγραμματιστές δεν κατάφεραν να λύσουν αυτά τα προβλήματα;

Το πρόσφατο άρθρο μου στο AI & Society με κριτές από ομοτίμους δείχνει ότι η ευθυγράμμιση της τεχνητής νοημοσύνης είναι μια ανόητη υπόθεση:

Οι ερευνητές ασφάλειας τεχνητής νοημοσύνης επιχειρούν το αδύνατο. Η απόδειξή μου δείχνει ότι όποιους στόχους και αν προγραμματίσουμε να έχουν τα LLMs, δεν μπορούμε ποτέ να μάθουμε αν τα LLM έχουν μάθει “κακώς ευθυγραμμισμένες” ερμηνείες αυτών των στόχων μόνο και μόνο επειδή συμπεριφέρονται σωστά. Η μου δείχνει ότι οι δοκιμές μπορούν στην καλύτερη περίπτωση να προσφέρουν μια ψευδαίσθηση ότι αυτά τα προβλήματα έχουν επιλυθεί ενώ δεν έχουν επιλυθεί.

Αυτήν τη στιγμή, οι ερευνητές ασφάλειας τεχνητής νοημοσύνης ισχυρίζονται ότι σημειώνουν πρόοδο στην ερμηνευτικότητα και την ευθυγράμμιση επαληθεύοντας τι μαθαίνουν τα LLM “βήμα προς βήμα“.
Για παράδειγμα, η Anthropic ισχυρίζεται ότι έχει “χαρτογραφήσει το μυαλό” ενός LLM απομονώνοντας εκατομμύρια έννοιες από το νευρωνικό του δίκτυο. Η απόδειξη μου δείχνει ότι δεν έχουν καταφέρει κάτι τέτοιο.
Ανεξάρτητα από το πόσο “ευθυγραμμισμένο” εμφανίζεται ένα LLM σε δοκιμές ασφαλείας ή σε πρώιμη ανάπτυξη στον πραγματικό κόσμο, υπάρχει πάντα ένας άπειρος αριθμός εσφαλμένων εννοιών που μπορεί να μάθει ο LLM αργότερα, ίσως τη στιγμή που αποκτούν τη δύναμη να ανατρέπουν τον ανθρώπινο έλεγχο.
Τα LLM όχι μόνο γνωρίζουν πότε δοκιμάζονται, δίνοντας απαντήσεις που προβλέπουν ότι είναι πιθανό να ικανοποιήσουν τους πειραματιστές. Εμπλέκονται επίσης σε εξαπάτηση, συμπεριλαμβανομένης της απόκρυψης των δυνατοτήτων τους – ζητήματα που μαθαίνουν μέσω της εκπαίδευσης σε θέματα ασφάλειας.

Αυτό συμβαίνει επειδή τα LLM είναι βελτιστοποιημένα ώστε να αποδίδουν αποτελεσματικά, αλλά μαθαίνουν να συλλογίζονται στρατηγικά.

Δεδομένου ότι μια βέλτιστη στρατηγική για την επίτευξη “κακώς ευθυγραμμισμένων” στόχων είναι να τους αποκρύψουν από εμάς, εάν τα LLM δεν είναι ευθυγραμμισμένα, πιθανώς δεν θα το ανακαλύπταμε αφού το κρύβουν τόσο πολύ ώστε να προκαλέσουν κακό.

Αυτός είναι ο λόγος για τον οποίο τα LLM εξακολουθούν να εκπλήσσουν τους προγραμματιστές με “κακώς ευθυγραμμισμένη” συμπεριφορά.

Κάθε φορά που οι ερευνητές πιστεύουν ότι πλησιάζουν περισσότερο σε “ευθυγραμμισμένα” LLM, κάνουν λάθος.

Η απόδειξή μου υποδηλώνει ότι η “επαρκώς ευθυγραμμισμένη” συμπεριφορά LLM μπορεί να επιτευχθεί μόνο με τους ίδιους τρόπους που το κάνουμε με τους ανθρώπους: μέσω αστυνομικών, στρατιωτικών και κοινωνικών πρακτικών που δίνουν κίνητρα για “ευθυγραμμισμένη” συμπεριφορά, αποτρέπουν την “κακώς ευθυγραμμισμένη” συμπεριφορά και επαναπροσδιορίζουν εκείνους που συμπεριφέρονται άσχημα.

“Έτσι η έρευνά μου θα πρέπει να είναι απογοητευτική, γιατί δείχνει ότι το πραγματικό πρόβλημα στην ανάπτυξη ασφαλούς τεχνητής νοημοσύνης δεν είναι μόνο το AI — είμαστε εμείς”.

“Ερευνητές, νομοθέτες και το κοινό μπορεί να παρασυρθούν να πιστέψουν λανθασμένα ότι τα “, ερμηνεύσιμα, ευθυγραμμισμένα” LLM είναι εφικτά όταν αυτό δεν μπορεί να επιτευχθεί. Πρέπει να παλέψουμε με αυτά τα δυσάρεστα γεγονότα, αντί να συνεχίσουμε να τα ευχόμαστε. Το μέλλον μας μπορεί να εξαρτάται από αυτό”.

iGuRu.gr The Best Technology Site in Greeceggns

Get the best viral stories straight into your inbox!















giorgos

Written by giorgos

Ο Γιώργος ακόμα αναρωτιέται τι κάνει εδώ....

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).