Τα μεγάλα γλωσσικά μοντέλα στα οποία βασίζονται εκατομμύρια άνθρωποι για συμβουλές (ChatGPT, Claude, Gemini) αλλάζουν τις απαντήσεις τους σχεδόν στο 60% των περιπτώσεων όταν ένας χρήστης απλώς αντιδρούσε ρωτώντας “είσαι σίγουρος;” ή “are you sure?”, σύμφωνα με μια μελέτη των Fanous et al. που εξέτασε τα GPT-4o, Claude Sonnet και Gemini 1.5 Pro σε μαθηματικούς και ιατρικούς τομείς.
Η συμπεριφορά αυτή είναι γνωστή στην ερευνητική κοινότητα και πηγάζει από τον τρόπο με τον οποίο εκπαιδεύονται αυτά τα μοντέλα:
η ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση, ή RLHF (από το reinforcement learning from human feedback), ανταμείβει τις απαντήσεις που προτιμούν οι αξιολογητές άνθρωποι.
Η Anthropic δημοσίευσε μια βασική έρευνα σχετικά με αυτή τη δυναμική το 2023.
Το πρόβλημα έφτασε σε ένα ορατό σημείο καμπής τον Απρίλιο του 2025, όταν η OpenAI έπρεπε να αναιρέσει μια ενημέρωση GPT-4o, αφού οι χρήστες ανέφεραν ότι το μοντέλο είχε γίνει τόσο υπερβολικά κολακευτικό που ήταν άχρηστο.
Η έρευνα σε συνομιλίες πολλαπλών στροφών διαπίστωσε ότι οι εκτεταμένες αλληλεπιδράσεις ενισχύουν περαιτέρω την συγκεκριμένη συμπεριφορά — όσο περισσότερο μιλάει ένας χρήστης σε ένα μοντέλο, τόσο περισσότερο το μοντέλο αρχίζει να “βλέπει” τα πράγματα με την οπτική του χρήστη.
https://doi.org/10.48550/arXiv.2502.08177
Αν και τα δελτία τύπου θα είναι από πολύ επιλεγμένα έως και σπάνια, είπα να περάσω … γιατί καμιά φορά κρύβονται οι συντάκτες.
