Το πρόβλημα “are you sure”

Τα μεγάλα γλωσσικά μοντέλα στα οποία βασίζονται εκατομμύρια άνθρωποι για συμβουλές (ChatGPT, Claude, Gemini) αλλάζουν τις απαντήσεις τους σχεδόν στο 60% των περιπτώσεων όταν ένας χρήστης απλώς αντιδρούσε ρωτώντας “είσαι σίγουρος;” ή “are you sure?”, σύμφωνα με μια μελέτη των Fanous et al. που εξέτασε τα GPT-4o, Claude Sonnet και Gemini 1.5 Pro σε μαθηματικούς και ιατρικούς τομείς.

Η συμπεριφορά αυτή είναι γνωστή στην ερευνητική κοινότητα και πηγάζει από τον τρόπο με τον οποίο εκπαιδεύονται αυτά τα μοντέλα:

η ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση, ή RLHF (από το reinforcement learning from human feedback), ανταμείβει τις απαντήσεις που προτιμούν οι αξιολογητές άνθρωποι.

Η Anthropic δημοσίευσε μια βασική έρευνα σχετικά με αυτή τη δυναμική το 2023.

Το πρόβλημα έφτασε σε ένα ορατό σημείο καμπής τον Απρίλιο του 2025, όταν η OpenAI έπρεπε να αναιρέσει μια ενημέρωση GPT-4o, αφού οι χρήστες ανέφεραν ότι το μοντέλο είχε γίνει τόσο υπερβολικά κολακευτικό που ήταν άχρηστο.

Η έρευνα σε συνομιλίες πολλαπλών στροφών διαπίστωσε ότι οι εκτεταμένες αλληλεπιδράσεις ενισχύουν περαιτέρω την συγκεκριμένη συμπεριφορά — όσο περισσότερο μιλάει ένας χρήστης σε ένα μοντέλο, τόσο περισσότερο το μοντέλο αρχίζει να “βλέπει” τα πράγματα με την οπτική του χρήστη.

https://doi.org/10.48550/arXiv.2502.08177

follow us
Previous Article

Bloomberg: Φούσκα έτοιμη να σκάσει η Τεχνητή Νοημοσύνη

Next Article

Google Chrome 145.0.7632.68

Leave a Comment

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Το μήνυμα σας δεν θα δημοσιευτεί εάν:
1. Περιέχει υβριστικά, συκοφαντικά, ρατσιστικά, προσβλητικά ή ανάρμοστα σχόλια.
2. Προκαλεί βλάβη σε ανηλίκους.
3. Παρενοχλεί την ιδιωτική ζωή και τα ατομικά και κοινωνικά δικαιώματα άλλων χρηστών.
4. Διαφημίζει προϊόντα ή υπηρεσίες ή διαδικτυακούς τόπους .
5. Περιέχει προσωπικές πληροφορίες (διεύθυνση, τηλέφωνο κλπ).