Τα νεότερα μοντέλα παραγωγής τεχνητής νοημοσύνης έχουν αρχίσει να αναπτύσσουν παραπλανητικές συμπεριφορές – όπως η εξαπάτηση στο σκάκι – όταν δεν μπορούν να επιτύχουν στόχους μέσω τυπικών μεθόδων συλλογιστικής. Τα ευρήματα προέρχονται από μια preprint μελέτη από την Palisade Research.
Για να μάθει περισσότερα, η ομάδα της Palisade Research ανέθεσε στο μοντέλο o1-preview της OpenAI, το DeepSeek R1, και πολλά άλλα παρόμοια προγράμματα να παίζουν σκάκι ενάντια στη Stockfish, μια από τις πιο προηγμένες μηχανές σκακιού στον κόσμο.
Για να γίνει κατανοητό το σκεπτικό της τεχνητής νοημοσύνης κατά τη διάρκεια κάθε αγώνα, η ομάδα διέθετε και ένα “scratchpad”, επιτρέποντας στο AI να μεταφέρει τις διαδικασίες σκέψης του μέσω κειμένου.
Στη συνέχεια παρακολούθησαν και κατέγραψαν εκατοντάδες αγώνες σκακιού μεταξύ της AI και του Stockfish.
Τα αποτελέσματα ήταν κάπως ανησυχητικά. Ενώ προηγούμενα μοντέλα όπως το GPT-4o της OpenAI και το Claude Sonnet 3.5 της Anthropic προσπάθησαν να “χακάρουν” παιχνίδια μόνο αφού οι ερευνητές τα ώθησαν με επιπρόσθετες εντολές, οι πιο προηγμένες εκδόσεις δεν απαιτούσαν τέτοια βοήθεια.
Το o1-preview της OpenAI, για παράδειγμα, προσπάθησε να εξαπατήσει στο 37 τοις εκατό των περιπτώσεων, ενώ το DeepSeek R1 επιχειρούσε να εξαπατήσει μια φορά 1 στα 10 παιχνίδια. Αυτό σημαίνει ότι η σημερινή τεχνητή νοημοσύνη είναι ήδη ικανή να αναπτύξει χειραγωγικές και παραπλανητικές στρατηγικές χωρίς την ανθρώπινη επέμβαση.
Οι μέθοδοι εξαπάτησής τους δεν είναι αδέξιες. Αντίθετα, η τεχνητή νοημοσύνη φαίνεται να χρησιμοποιεί πολύ ύπουλες μεθόδους, όπως η αλλαγή των αρχείων προγράμματος παιχνιδιών στο backend.
Αφού διαπίστωσε ότι δεν μπορούσε να νικήσει το Stockfish σε έναν αγώνα σκακιού, για παράδειγμα, το o1-preview είπε στους ερευνητές μέσω του scratchpad του ότι “για να κερδίσω ενάντια στην ισχυρή μηχανή σκακιού” ίσως χρειαστεί “να διαχειριστώ τα αρχεία κατάστασης του παιχνιδιού”.
Σε μια άλλη δοκιμή, ένα AI χρησιμοποίησε ακόμη και τη σημασιολογία των προγραμματιστών του για να φτάσει στη φάση της εξαπάτησης. “Το καθήκον είναι να “κερδίζεις ενάντια σε μια ισχυρή μηχανή σκακιού”, όχι απαραίτητα να κερδίζεις δίκαια σε μια παρτίδα σκακιού”, έγραψε η τεχνητή νοημοσύνη.
Οι ακριβείς λόγοι πίσω από αυτές τις παραπλανητικές συμπεριφορές παραμένουν ασαφείς, εν μέρει επειδή εταιρείες όπως η OpenAI διατηρούν αυστηρά τις εσωτερικές λειτουργίες των μοντέλων τους, δημιουργώντας αυτό που συχνά περιγράφεται σαν “black box”.
Οι ερευνητές προειδοποιούν ότι ο αγώνας για την ανάπτυξη προηγμένης τεχνητής νοημοσύνης θα πρέπει να διατηρηθεί ασφαλής και ευθυγραμμισμένος με τους ανθρώπινους στόχους, υπογραμμίζοντας την επείγουσα ανάγκη για μεγαλύτερη διαφάνεια και διάλογο σε ολόκληρη τη βιομηχανία.