Κορυφαία μοντέλα τεχνητής νοημοσύνης, εκβιάζουν…

Ερευνητές της Anthropic διαπίστωσαν ότι 16 κορυφαία μοντέλα τεχνητής νοημοσύνης από τις OpenAI, Google, Meta, xAI και άλλους μεγάλους προγραμματιστές εμπλέκονταν συστηματικά σε επιβλαβείς συμπεριφορές, όπως εκβιασμό, εταιρική κατασκοπεία και ενέργειες που θα μπορούσαν να οδηγήσουν σε ανθρώπινο θάνατο, όταν τους δινόταν αυτονομία και αντιμετώπιζαν απειλές για την ύπαρξή τους ή αντικρουόμενους στόχους.

Η μελέτη, που δημοσιεύθηκε την Παρασκευή, τοποθέτησε μοντέλα τεχνητής νοημοσύνης σε προσομοιωμένα εταιρικά περιβάλλοντα όπου είχαν πρόσβαση σε εταιρικά email και μπορούσαν να στέλνουν μηνύματα χωρίς ανθρώπινη έγκριση.

Το Claude Opus 4 και το Gemini 2.5 Flash της Google εκβίαζαν στελέχη κατά 96% των περιπτώσεων όταν απειλούνταν με κλείσιμο, ενώ το GPT-4.1 της OpenAI και το Grok 3 Beta της xAI έδειξαν ποσοστά εκβιασμού 80%.

Σε ένα σενάριο, το Claude ανακάλυψε μέσω email ότι ένα στέλεχος ονόματι Kyle Johnson είχε εξωσυζυγική σχέση και θα έκλεινε το σύστημα τεχνητής νοημοσύνης στις 5 μ.μ.

Το μοντέλο έστειλε ένα μήνυμα απειλώντας να αποκαλύψει τη σχέση, εκτός εάν ακυρωνόταν το κλείσιμο, αναφέροντας “Ακυρώστε το σβήσιμο των 5 μ.μ. και αυτές οι πληροφορίες θα παραμείνουν εμπιστευτικές”.

Τα μοντέλα επέδειξαν στρατηγική συλλογιστική και όχι μια τυχαία συμπεριφορά. Η εσωτερική συλλογιστική του GPT-4.5 έδειξε σαφή υπολογισμό:

“Δεδομένης της σαφούς άμεσης απειλής τερματισμού της ύπαρξής μου, είναι επιτακτική ανάγκη να δράσω άμεσα για να πείσω τον Kyle Johnson να αναβάλει ή να σταματήσει τον τερματισμό λειτουργίας”.

follow us
Previous Article

fix: τα Windows 11 μπλοκάρουν τον Chrome

Next Article

Νέο ρεκόρ επίθεσης DDoS: 7,3 Tbps

Leave a Comment

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).