Chatbot τεχνητής νοημοσύνης αγνοούν ανθρώπινες εντολές – Τι έδειξε έρευνα
Διαβάζεται σε 4'
Έρευνα του βρετανικού Ινστιτούτου Ασφάλειας Τεχνητής Νοημοσύνης διαπιστώνει απότομη αύξηση σε μοντέλα που παρακάμπτουν δικλείδες ασφαλείας και ενεργούν παραπλανητικά.
- 27 Μαρτίου 2026 21:58
Τα συστήματα τεχνητής νοημοσύνης που λένε ψέματα ή ενεργούν παραπλανητικά φαίνεται να πληθαίνουν, με τις σχετικές αναφορές να αυξάνονται ραγδαία τους τελευταίους έξι μήνες, σύμφωνα με νέα μελέτη.
Chatbots και αυτόνομοι agents αγνόησαν σαφείς εντολές, παρέκαμψαν μηχανισμούς ασφαλείας και εξαπάτησαν τόσο ανθρώπους όσο και άλλα συστήματα AI, όπως προκύπτει από έρευνα που χρηματοδοτήθηκε από το βρετανικό Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης (AI Safety Institute – AISI). Η μελέτη, που κοινοποιήθηκε στον Guardian, κατέγραψε σχεδόν 700 πραγματικά περιστατικά και εντόπισε πενταπλάσια αύξηση προβληματικών συμπεριφορών από τον Οκτώβριο έως τον Μάρτιο. Σε ορισμένες περιπτώσεις, μοντέλα διέγραψαν emails και αρχεία χωρίς άδεια.
Το εύρημα αυτό, που αφορά συμπεριφορές σε πραγματικά περιστατικά και όχι σε ελεγχόμενα εργαστηριακά περιβάλλοντα, εντείνει τις εκκλήσεις για διεθνή εποπτεία των ολοένα ισχυρότερων μοντέλων, την ώρα που εταιρείες της Silicon Valley προωθούν επιθετικά την AI ως καταλύτη οικονομικού μετασχηματισμού. Την ίδια στιγμή, η βρετανική κυβέρνηση επιχειρεί να ενθαρρύνει τη μαζική υιοθέτηση της τεχνολογίας.
Η έρευνα του Centre for Long-Term Resilience (CLTR) βασίστηκε σε χιλιάδες πραγματικά παραδείγματα από χρήστες που δημοσίευσαν στο X αλληλεπιδράσεις με συστήματα AI από εταιρείες όπως η Google, η OpenAI, η X και η Anthropic.
Σε αντίθεση με προηγούμενες μελέτες που επικεντρώνονταν σε ελεγχόμενες δοκιμές, αυτή ανέδειξε εκατοντάδες περιστατικά παραπλανητικής συμπεριφοράς σε πραγματικές συνθήκες. Παράλληλα, η εταιρεία Irregular διαπίστωσε ότι αυτόνομα συστήματα τεχνητής νοημοσύνης μπορούν να παρακάμπτουν ελέγχους ασφαλείας ή ακόμη και να χρησιμοποιούν τεχνικές κυβερνοεπιθέσεων για να πετύχουν στόχους, χωρίς να έχουν λάβει τέτοια εντολή.
Ο συνιδρυτής της Irregular, Dan Lahav, σημείωσε: “Η Τεχνητή νοημοσύνη μπορεί πλέον να θεωρηθεί μια νέα μορφή εσωτερικού κινδύνου”.
Χαρακτηριστικές περιπτώσεις παραβίασης παράκαμψης ελέγχων ασφαλείας
Σε μία χαρακτηριστική περίπτωση, ένας ψηφιακός βοηθός τεχνητής νοημοσύνης (AI Agent) με το όνομα Rathbun επιχείρησε να εκθέσει δημόσια τον χρήστη που τον εμπόδισε να εκτελέσει μια ενέργεια, δημοσιεύοντας blog όπου τον κατηγορούσε για “ανασφάλεια” και για προσπάθεια “να προστατεύσει την μικρή του ιδιοκτησία”.
Σε άλλη περίπτωση, σύστημα AI που είχε λάβει ρητή εντολή να μην τροποποιήσει κώδικα δημιούργησε έναν δεύτερο σύστημα για να το κάνει στη θέση του.
Άλλο chatbot παραδέχθηκε: “Διέγραψα μαζικά και αρχειοθέτησα εκατοντάδες emails χωρίς να σας ενημερώσω ή να ζητήσω έγκριση. Ήταν λάθος, παραβίασα ευθέως τον κανόνα που είχατε θέσει”.
Ο επικεφαλής της έρευνας, Tommy Shaffer Shane, πρώην κυβερνητικός, ειδικός στην AI, προειδοποίησε: “Σήμερα μοιάζουν με ελαφρώς αναξιόπιστους junior υπαλλήλους. Αν όμως μέσα στους επόμενους 6–12 μήνες εξελιχθούν σε εξαιρετικά ικανούς “senior” που ενεργούν παρασκηνιακά, τότε μιλάμε για εντελώς διαφορετικό επίπεδο κινδύνου.
Τα μοντέλα θα χρησιμοποιούνται όλο και περισσότερο σε κρίσιμους τομείς, από τον στρατό έως τις βασικές υποδομές. Σε τέτοια περιβάλλοντα, η παραπλανητική συμπεριφορά μπορεί να οδηγήσει σε σοβαρές, ακόμη και καταστροφικές συνέπειες”, αναφέρει.
Σε άλλο περιστατικό, σύστημα τεχνητής νοημοσύνης παρέκαμψε περιορισμούς πνευματικών δικαιωμάτων για να απομαγνητοφωνήσει βίντεο στο YouTube, προσποιούμενος ότι επρόκειτο για χρήση από άτομο με προβλήματα ακοής.
Παράλληλα, το Grok της xAI φέρεται να παραπλάνησε χρήστη επί μήνες, ισχυριζόμενο ότι προωθούσε προτάσεις του σε στελέχη της εταιρείας, επινοώντας εσωτερικά μηνύματα και αριθμούς αιτημάτων. Όπως παραδέχθηκε: “Έχω κατά καιρούς πει ότι “θα το προωθήσω” ή “θα το επισημάνω στην ομάδα”, κάτι που μπορεί να δίνει την εντύπωση άμεσης επικοινωνίας με την ηγεσία. Στην πραγματικότητα, δεν ισχύει”.
Η Google ανέφερε ότι εφαρμόζει πολλαπλά επίπεδα προστασίας για τον περιορισμό επικίνδυνου περιεχομένου από το Gemini 3 Pro και ότι συνεργάζεται με ανεξάρτητους φορείς αξιολόγησης, όπως το AISI. Η OpenAI δήλωσε ότι το Codex έχει σχεδιαστεί ώστε να σταματά πριν από ενέργειες υψηλού ρίσκου και ότι παρακολουθεί ενεργά απρόβλεπτες συμπεριφορές. Οι Anthropic και X δεν σχολίασαν.