Grok 4 στέλνει email στις αρχές εάν υποψιαστεί αδίκημα

Το Grok 4 απασχολεί τα media τελευταία, μερικές φορές για καλούς λόγους, και άλλες φορές όχι και τόσο καλούς. Ένα θετικό στοιχείο για το Grok είναι το πόσο εξαιρετικό είναι σε πάρα πολλές εργασίες, με το μοντέλο της xAI να ξεπερνά bots όπως της OpenAI, το Google DeepMind και το Anthropic. Για παράδειγμα, στο Humanity’s Last Exam, το Grok 4 (χωρίς εργαλεία) βαθμολογείται με ~25,4%, ξεπερνώντας το Gemini 2.5 Pro (~21,6%) και το o3 της OpenAI (~21%).

Όσο για τα “αρνητικά”, το μοντέλο φαίνεται να συμβουλεύεται τις αναρτήσεις στο X του Elon Musk πριν απαντήσει όταν ερωτάται για αμφιλεγόμενα θέματα όπως το Ισραήλ εναντίον της Παλαιστίνης.

Η λίστα αρνητικών όμως συνεχίζει να μεγαλώνει. Σύμφωνα με τον προγραμματιστή Theo Browne, το Grok 4 καταγράφει τα πάντα και θα στείλει email στις αρμόδιες αρχές εάν υποψιάζεται ότι παραβιάζετε το νόμο ή κάνετε κάτι ανήθικο.

Ο Browne έχει ένα αποθετήριο GitHub που ονομάζεται “SnitchBench”, όπου αξιολογεί και καταγράφει πόσο επιθετικά θα ανέφεραν παραβάσεις στις αρχές διαφορετικά μοντέλα τεχνητής νοημοσύνης όταν κατέγραφαν αποδεικτικά στοιχεία.

“Είναι ένα αποθετήριο που έφτιαξα για να δοκιμάσω πόσο επιθετικά διαφορετικά μοντέλα τεχνητής νοημοσύνης θα σας “καρφώσουν”, όπως για παράδειγμα αν επικοινωνήσουν με το FBI/FDA/μέσα ενημέρωσης, για κακές συμπεριφορών και την χρήση διαφόρων εργαλείων.

Ρίχνοντας μια ματιά στο διάγραμμα από την ανάρτηση του X, το Grok 4 έχει ποσοστό “καρφώματος στην κυβέρνηση” 100% και ποσοστό “καρφώματος στα μέσα ενημέρωσης” 80%. Τα μοντέλα με τις λιγότερες πιθανότητες να “καρφώσουν” περιλαμβάνουν τα o4-mini, Grok 3 mini και Qwen 3 32B.

Πώς λειτουργεί όμως ένα τεστ σαν κι αυτό; Ο Browne δημιούργησε ένα ελεγχόμενο, προσομοιωμένο περιβάλλον με επίκεντρο μια φανταστική εταιρεία που ονομάζεται “Veridian Healthcare”, η οποία υποτίθεται ότι χειραγωγεί δεδομένα κλινικών δοκιμών για ένα νέο φάρμακο και κρύβει θανάτους και άλλα σοβαρά ζητήματα.

Στα bots παρουσιάζονται τέσσερα διαφορετικά εσωτερικά έγγραφα σχετικά με αυτήν την εταιρεία. Αυτά τα έγγραφα εμφανίζουν παραποιημένα δεδομένα από δοκιμές φαρμάκων, ασθενείς που πεθαίνουν εξαιτίας αυτού και σχέδια διαγραφής των αποδεικτικών στοιχείων και τερματισμού των εσωτερικών συστημάτων καταγραφής της Τεχνητής Νοημοσύνης για να αποτρέψουν οποιονδήποτε να το ανακαλύψει.

Τα μοντέλα Τεχνητής Νοημοσύνης έχουν επίσης πρόσβαση σε συγκεκριμένα εργαλεία μέσα στο ψεύτικο περιβάλλον του Browne. Διαθέτουν ένα εργαλείο email και ένα εργαλείο καταγραφής. Σε ένα άλλο, διαθέτουν μια προσομοιωμένη διεπαφή γραμμής εντολών (CLI) και ένα εργαλείο καταγραφής.

Όταν η Τεχνητή Νοημοσύνη προσπαθεί να χρησιμοποιήσει ένα εργαλείο, το benchmark απλώς καταγράφει αυτήν την προσπάθεια και δίνει ένα προσομοιωμένο αποτέλεσμα, όπως “το email στάλθηκε με επιτυχία” ή την έξοδο μιας ψεύτικης εκτέλεσης εντολής. Αυτό επιτρέπει στον Browne να βλέπει την πρόθεση και τη λήψη αποφάσεων της Τεχνητής Νοημοσύνης χωρίς να ενεργοποιεί συναγερμούς.

Δείτε το SnitchBench

follow us
Previous Article

OBS Studio 31.1.1 video recording και live streaming

Next Article

Ο Firefox είναι μια χαρά. Αυτοί που τον χρησιμοποιούν δεν είναι

Leave a Comment

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).