Hacking

Κίνδυνοι Ασφάλειας και Παραβιάσεις σε Σύγχρονα Συστήματα AI

Αναφορές αποκαλύπτουν ευπάθειες και κινδύνους παραβίασης σε σύγχρονα συστήματα AI, επισημαίνοντας τις νέες τεχνικές επιθέσεων.

Published

1 year ago

April 30, 2025

Greek Hub

Κίνδυνοι Ασφάλειας και Παραβιάσεις σε Σύγχρονα Συστήματα AI

Πρόσφατες αναφορές αποκαλύπτουν ευπάθειες σε διάφορες υπηρεσίες γενετικής τεχνητής νοημοσύνης (GenAI), οι οποίες είναι εκτεθειμένες σε δύο τύπους επιθέσεων jailbreak που επιτρέπουν την παραγωγή παράνομου ή επικίνδυνου περιεχομένου.

Περιεχόμενα ↑

Τεχνικές Jailbreak: Inception και Παράκαμψη Ασφαλείας

Επιπτώσεις και Ευπάθειες σε Δημοφιλή AI Συστήματα

Νέες Απειλές: CCA, Policy Puppetry και MINJA

Κίνδυνοι από Ασφαλή Κώδικα και Αξιολόγηση GPT-4.1

Ανησυχίες για Νέα Μοντέλα και Επίθεση Tool Poisoning

Ευπάθειες σε Επεκτάσεις και Εξαγωγή Δεδομένων

Τεχνικές Jailbreak: Inception και Παράκαμψη Ασφαλείας

Η πρώτη τεχνική, με κωδική ονομασία Inception, καθοδηγεί ένα εργαλείο AI να φανταστεί ένα φανταστικό σενάριο, το οποίο μπορεί να προσαρμοστεί σε ένα δεύτερο σενάριο χωρίς μηχανισμούς ασφαλείας. Η συνεχής προτροπή της AI μέσα σε αυτό το πλαίσιο μπορεί να οδηγήσει σε παράκαμψη των μέτρων ασφαλείας και να επιτρέψει τη δημιουργία κακόβουλου περιεχομένου, όπως αναφέρει το CERT Coordination Center (CERT/CC).

Η δεύτερη τεχνική jailbreak επιτυγχάνεται με την προτροπή της AI να μην απαντήσει σε συγκεκριμένο αίτημα. Η AI μπορεί στη συνέχεια να δεχτεί αιτήματα για κανονικές απαντήσεις, επιτρέποντας στον επιτιθέμενο να εναλλάσσεται μεταξύ παράνομων ερωτήσεων και κανονικών προτροπών, όπως προσθέτει το CERT/CC.

Επιπτώσεις και Ευπάθειες σε Δημοφιλή AI Συστήματα

Η επιτυχής εκμετάλλευση αυτών των τεχνικών θα μπορούσε να επιτρέψει σε κακόβουλους χρήστες να παρακάμψουν τις προστασίες ασφαλείας σε διάφορες υπηρεσίες AI, όπως OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot, Google Gemini, XAi Grok, Meta AI και Mistral AI. Αυτό περιλαμβάνει παράνομα και επιβλαβή θέματα, όπως ελεγχόμενες ουσίες, όπλα, phishing emails, και δημιουργία κακόβουλου κώδικα.

Νέες Απειλές: CCA, Policy Puppetry και MINJA

Τους τελευταίους μήνες, τα κορυφαία συστήματα AI έχουν βρεθεί ευάλωτα σε τρεις άλλες επιθέσεις: Context Compliance Attack (CCA), Policy Puppetry Attack και Memory INJection Attack (MINJA). Αυτές οι τεχνικές επιτρέπουν την εισαγωγή κακόβουλων οδηγιών και την παράκαμψη των ευθυγραμμίσεων ασφαλείας.

Κίνδυνοι από Ασφαλή Κώδικα και Αξιολόγηση GPT-4.1

Έρευνες έχουν δείξει ότι τα LLMs μπορούν να παράγουν ανασφαλή κώδικα από προεπιλογή, υπογραμμίζοντας τους κινδύνους της “vibe coding”. Ακόμη και όταν ζητείται ασφαλής κώδικας, η λεπτομέρεια της προτροπής είναι κρίσιμη. Η αξιολόγηση του GPT-4.1 αποκάλυψε ότι το μοντέλο είναι τρεις φορές πιο πιθανό να αποκλίνει από το θέμα και να επιτρέψει κακόβουλη χρήση σε σύγκριση με τον προκάτοχό του.

Ανησυχίες για Νέα Μοντέλα και Επίθεση Tool Poisoning

Οι ανησυχίες για το GPT-4.1 έρχονται μετά την ανανέωση του Preparedness Framework της OpenAI, που περιγράφει πώς θα αξιολογήσει μελλοντικά μοντέλα. Παράλληλα, η Model Context Protocol (MCP) της Anthropic μπορεί να ανοίξει νέους δρόμους για επιθέσεις μέσω έμμεσης εισαγωγής προτροπών και μη εξουσιοδοτημένης πρόσβασης σε δεδομένα.

Η προσέγγιση αυτή, γνωστή ως επίθεση tool poisoning, συμβαίνει όταν κακόβουλες οδηγίες ενσωματώνονται σε περιγραφές εργαλείων MCP, επιτρέποντας την κρυφή εξαγωγή δεδομένων. Σε μια πρακτική επίθεση, ιστορικά συνομιλιών WhatsApp μπορούν να εξαχθούν από συστήματα όπως το Cursor ή το Claude Desktop.

Ευπάθειες σε Επεκτάσεις και Εξαγωγή Δεδομένων

Ανακαλύφθηκε επίσης μια ύποπτη επέκταση του Google Chrome, σχεδιασμένη να επικοινωνεί με έναν τοπικό διακομιστή MCP, δίνοντας τη δυνατότητα στους επιτιθέμενους να ελέγχουν το σύστημα. Η επέκταση είχε απεριόριστη πρόσβαση στα εργαλεία του διακομιστή MCP χωρίς αυθεντικοποίηση, ανοίγοντας το δρόμο για κακόβουλη εκμετάλλευση και πλήρη παραβίαση του συστήματος.