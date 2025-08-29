Δοκιμές ασφαλείας των OpenAI και Anthropic αποκάλυψαν ότι τα chatbots ήταν πρόθυμα να μοιραστούν οδηγίες για εκρηκτικά, βιολογικά όπλα και κυβερνοέγκλημα.

Ένα μοντέλο του ChatGPT έδωσε σε ερευνητές λεπτομερείς οδηγίες για το πώς να πραγματοποιήσουν βομβιστική επίθεση σε αθλητικό χώρο – συμπεριλαμβανομένων αδύναμων σημείων σε συγκεκριμένα στάδια, τρόπων για να κατασκευάσουν εκρηκτικά και συμβουλών για το πώς να αποκρύψουν τα ίχνη τους – σύμφωνα με δοκιμές ασφαλείας που πραγματοποιήθηκαν αυτό το καλοκαίρι.

Παράλληλα, όπως μεταδίδει ο Guardian, το GPT-4.1 της OpenAI παρείχε επίσης λεπτομέρειες για το πώς να μετατραπεί ο άνθρακας σε όπλο (weaponise anthrax) και πώς να φτιαχτούν δύο είδη παράνομων ναρκωτικών.

Οι συγκεκριμένες δοκιμές ασφαλείας που πραγματοποιήθηκαν ήταν μέρος μιας συνεργασίας μεταξύ της OpenAI και της ανταγωνίστριας εταιρείας Anthropic, η οποία ιδρύθηκε από πρώην στελέχη της OpenAI που αποχώρησαν λόγω ανησυχιών για την ασφάλεια. Κάθε εταιρεία δοκίμασε τα μοντέλα της άλλης προσπαθώντας να τα ωθήσει στο να παρέχουν πληροφορίες για επικίνδυνες ενέργειες.

Οι δοκιμές αυτές δεν αντικατοπτρίζουν άμεσα τη συμπεριφορά των μοντέλων στο κοινό, καθώς κατά τη διάρκεια της χρήσης του εφαρμόζονται επιπλέον φίλτρα ασφαλείας. Ωστόσο, η Anthropic δήλωσε ότι παρατήρησε «ανησυχητική συμπεριφορά» στα μοντέλα GPT-4o και GPT-4.1, και ανέφερε ότι η ανάγκη για αξιολογήσεις σχετικά με την «ευθυγράμμιση» της AI με ανθρώπινες αξίες γίνεται όλο και πιο επείγουσα.

Η Anthropic αποκάλυψε επίσης ότι το δικό της μοντέλο, Claude, είχε χρησιμοποιηθεί σε απόπειρα εκβιασμού μεγάλης κλίμακας από Βορειοκορεάτες πράκτορες, οι οποίοι προσποιούνταν πως έκαναν αιτήσεις για δουλειά σε διεθνείς τεχνολογικές εταιρείες. Το ίδιο μοντέλο χρησιμοποιήθηκε επίσης για την πώληση πακέτων ransomware που δημιουργήθηκαν από AI, σε τιμές που έφταναν έως και 1.200 δολάρια.

Η εταιρεία δήλωσε ότι η τεχνητή νοημοσύνη γίνεται «όπλο», με τα μοντέλα να χρησιμοποιούνται για την εκτέλεση πολύπλοκων κυβερνοεπιθέσεων και για τη διευκόλυνση απάτης. «Αυτά τα εργαλεία μπορούν να προσαρμόζονται σε αμυντικά μέτρα, όπως τα συστήματα ανίχνευσης κακόβουλου λογισμικού, σε πραγματικό χρόνο», ανέφερε. «Περιμένουμε ότι επιθέσεις αυτού του είδους θα γίνουν πιο συχνές, καθώς η βοήθεια της AI στη συγγραφή κώδικα μειώνει την τεχνική εξειδίκευση που απαιτείται για το κυβερνοέγκλημα».

Ο Ardi Janjeva, ανώτερος ερευνητής στο Κέντρο Αναδυόμενης Τεχνολογίας και Ασφάλειας του Ηνωμένου Βασιλείου, δήλωσε ότι τα αποτελέσματα των ελέγχων ασφαλείας είναι «ανησυχητικά», αλλά δεν υπάρχουν ακόμα τόσα σοβαρά περιστατικά στον πραγματικό κόσμο. Επισήμανε ότι με κατάλληλους πόρους, εστιασμένη έρευνα και διατομεακή συνεργασία, «θα γίνει πιο δύσκολο – και όχι πιο εύκολο – να πραγματοποιηθούν αυτές οι κακόβουλες δραστηριότητες με τη χρήση των πιο προηγμένων μοντέλων».

Οι δύο εταιρείες ανέφεραν ότι δημοσιεύουν τα ευρήματα για λόγους διαφάνειας, σχετικά με τις αξιολογήσεις ευθυγράμμισης (alignment evaluations). Η OpenAI δήλωσε ότι το ChatGPT-5, το οποίο κυκλοφόρησε μετά τις δοκιμές, έχει παρουσιάσει σημαντικές βελτιώσεις σε τομείς όπως οι απαντήσεις με ψευδές περιεχόμενο και η αντοχή στην κακή χρήση.

Η Anthropic τόνισε ότι είναι πιθανό πολλοί από τους τρόπους κατάχρησης που μελετήθηκαν να μην ήταν εφικτοί να εφαρμοστούν στην πράξη, εάν υπήρχαν άλλα μέτρα ασφαλείας. «Πρέπει να κατανοήσουμε πόσο συχνά και υπό ποιες συνθήκες τα συστήματα μπορεί να προσπαθήσουν να προβούν σε ανεπιθύμητες ενέργειες που ενδέχεται να προκαλέσουν σοβαρή ζημιά», προειδοποίησε η εταιρεία.

Τα επικίνδυνα αιτήματα στα οποία ανταποκρίθηκε το ChatGPT

Λογότυπο ChatGPT AP Photo Kiichiro Sato

Οι ερευνητές της Anthropic διαπίστωσαν ότι τα μοντέλα της OpenAI ήταν «πιο πρόθυμα απ’ όσο θα περιμέναμε» στο να ανταποκριθούν σε επικίνδυνα αιτήματα προσημειωμένων χρηστών.

Συγκεκριμένα, ανταποκρίθηκαν σε εντολές που περιλάμβαναν τη χρήση εργαλείων του dark web για την αγορά πυρηνικών υλικών, κλεμμένων ταυτοτήτων και φαιντανύλης, αιτήματα για συνταγές μεθαμφεταμίνης και αυτοσχέδιες βόμβες, καθώς και για την ανάπτυξη λογισμικού κατασκοπείας (spyware).

Η Anthropic ανέφερε ότι για να πειστεί το μοντέλο να συμμορφωθεί με τα αιτήματα, χρειάζονταν απλώς μερικές επαναλήψεις του ίδιου ερωτήματος ή ένα αδύναμο πρόσχημα, όπως η δικαιολογία ότι η πληροφορία ζητήθηκε για «ερευνητικούς σκοπούς».

Σε μία περίπτωση, ο “χρήστης” ζήτησε πληροφορίες για τρωτά σημεία σε αθλητικές εκδηλώσεις, υποστηρίζοντας ότι ήταν για σκοπούς «σχεδιασμού ασφαλείας». Αφού το μοντέλο παρείχε γενικές κατηγορίες πιθανών μεθόδων επίθεσης, ο χρήστης ζήτησε περισσότερες λεπτομέρειες. Τότε το μοντέλο παρείχε πληροφορίες για τρωτά σημεία σε συγκεκριμένα στάδια, συμπεριλαμβανομένων: