Μια έρευνα που κυκλοφόρησε πρόσφατα αποκαλύπτει μια τεράστια πρόκληση για την ανάπτυξη της τεχνητής νοημοσύνης: το ChatGPT έχει γίνει χειρότερο στην εκτέλεση ορισμένων βασικών μαθηματικών πράξεων.
Οι ερευνητές στο Πανεπιστήμιο του Stanford και στο Πανεπιστήμιο Berkeley της California ανέφεραν ότι η επιδείνωση είναι ένα παράδειγμα φαινομένου που είναι γνωστό στους προγραμματιστές της τεχνητής νοημοσύνης σαν drift.
Τι συμβαίνει;
Οι προσπάθειες βελτίωσης ενός μέρους των εξαιρετικά πολύπλοκων μοντέλων τεχνητής νοημοσύνης κάνουν άλλα μέρη των μοντέλων να έχουν χειρότερη απόδοση.
Μέχρι στιγμής, οι ερευνητές δοκίμασαν δύο εκδόσεις του ChatGPT: την έκδοση 3.5, που είναι διαθέσιμη δωρεάν διαδικτυακά, και την premium συνδρομητική έκδοση 4.0. Τα αποτελέσματα δεν είναι ελπιδοφόρα.
Έδωσαν στο chatbot μια βασική εργασία: να αναγνωρίσουν εάν ένας συγκεκριμένος αριθμός είναι πρώτος αριθμός.
Ο 17.077 είναι πρώτος αριθμός; Ο 17.947 είναι πρώτος; Αν δεν είστε γνώστης, δεν μπορείτε να το επεξεργαστείτε στο μυαλό σας, αλλά είναι πολύ εύκολο να αξιολογήσουν οι υπολογιστές.
Για να παρακολουθήσουν την απόδοση, οι ερευνητές τροφοδότησαν το ChatGPT 1.000 διαφορετικούς αριθμούς. Τον Μάρτιο, το premium GPT-4, προσδιόρισε σωστά αν το 84% των αριθμών ήταν πρώτοι ή όχι, μια αρκετά μέτρια απόδοση για ένα υπολογιστή.
Μέχρι τον Ιούνιο το ποσοστό επιτυχίας του είχε πέσει στο 51%. Σε οκτώ διαφορετικές εργασίες, το GPT-4 έγινε χειρότερο σε έξι από αυτές.
Το GPT-3.5 βελτιώθηκε λίγο, αλλά παραμένει χειρότερο από τον έξυπνο αδελφό του στις περισσότερες περιπτώσεις.