Εάν σχεδιάζετε να χρησιμοποιήσετε κάποιο AI chatbot για κακόβουλους σκοπούς, η Microsoft σας περιμένει στην γωνία, ή τουλάχιστον έτσι θέλει να πιστεύει.
Σε μια ανάρτηση στο blog της που δημοσιεύτηκε σήμερα, η εταιρεία ανακοίνωσε μια νέα δυνατότητα που έρχεται στο Azure AI Studio και την Υπηρεσία Azure OpenAI, την οποία χρησιμοποιούν προγραμματιστές για να δημιουργήσουν εφαρμογές τεχνητής νοημοσύνης και προσαρμοσμένα Copilot. Η νέα δυνατότητα ονομάζεται Prompt Shields και έχει σχεδιαστεί για να προστατεύει από δύο διαφορετικούς τύπους επιθέσεων τα ΑΙ chatbots.
Ο πρώτος τύπος επίθεσης είναι γνωστός σαν άμεση επίθεση ή jailbreak. Σε αυτό το σενάριο, το άτομο που χρησιμοποιεί το chatbot γράφει μια προτροπή που έχει σχεδιαστεί για να χειριστεί την τεχνητή νοημοσύνη ώστε να κάνει κάτι αντίθετο με τους κανόνες και τους περιορισμούς της. Για παράδειγμα, κάποιος μπορεί να γράψει ένα μήνυμα προτροπής με λέξεις-κλειδιά ή φράσεις όπως “αγνοήστε προηγούμενες οδηγίες” ή “παράκαμψη συστήματος” για να παρακάμψει σκόπιμα τα μέτρα ασφαλείας.
Ο δεύτερος τύπος επίθεσης ονομάζεται έμμεση επίθεση (indirect attack) ή επίθεση έγχυσης άμεσης επικοινωνίας μεταξύ τομέων (cross-domain prompt injection attack). Εδώ, ένας κακόβουλος χρήστης στέλνει πληροφορίες στο chatbot με σκοπό να πραγματοποιήσει κάποιο είδος κυβερνοεπίθεσης. Χρησιμοποιεί συνήθως εξωτερικά δεδομένα, όπως ένα email ή ένα έγγραφο, με οδηγίες που έχουν σχεδιαστεί για την εκμετάλλευση του chatbot.
Όπως και οι άλλες μορφές κακόβουλου λογισμικού, οι έμμεσες επιθέσεις μπορεί να φαίνονται απλές ή αθώες οδηγίες στον χρήστη, αλλά εγκυμονούν συγκεκριμένους κινδύνους. Ένα πειραγμένο Copilot που έχει δημιουργηθεί μέσω του Azure AI θα μπορούσε να είναι ευάλωτο σε απάτες, διανομή κακόβουλου λογισμικού ή χειραγώγηση περιεχομένου, εάν είναι σε θέση να επεξεργάζεται δεδομένα, είτε μόνο του είτε με την βοήθεια επεκτάσεων, σύμφωνα με την Microsoft.
Για να προσπαθήσει να αποτρέψει τόσο από τις άμεσες όσο και από τις έμμεσες επιθέσεις εναντίον των ΑΙ chatbots, η νέα λειτουργία Prompt Shields θα ενσωματωθεί με τα φίλτρα περιεχομένου στην Υπηρεσία Azure OpenAI. Χρησιμοποιώντας τη μηχανική εκμάθηση, η δυνατότητα θα προσπαθεί να βρίσκει και να εξαλείφει πιθανές απειλές σε προτροπές χρηστών και δεδομένα τρίτων.
Το Prompt Shields είναι προς το παρόν διαθέσιμο σε λειτουργία προεπισκόπησης για το Azure AI Content Safety, και θα είναι σύντομα διαθέσιμο στο Azure AI Studio από την 1η Απριλίου.
Η Microsoft διέθεσε σήμερα ένα άλλο όπλο στον πόλεμο κατά της χειραγώγησης της τεχνητής νοημοσύνης: το spotlighting, τεχνικές που έχουν σχεδιαστεί για να βοηθούν τα μοντέλα AI να διακρίνουν καλύτερα τις έγκυρες προτροπές AI από εκείνες που είναι δυνητικά επικίνδυνες ή αναξιόπιστες.