Κυβερνοασφάλεια

Η παραβίαση του Llama Firewall της Meta μέσω ευπάθειας Prompt Injection

Η παραβίαση του Llama Firewall της Meta αποκαλύπτει σοβαρές ευπάθειες ασφαλείας σε επιθέσεις prompt injection.

Published

9 months ago

July 13, 2025

Greek Hub

Η παραβίαση του Llama Firewall της Meta μέσω ευπάθειας Prompt Injection

Περιεχόμενα ↑

Η ανακάλυψη της ευπάθειας

Αξιολόγηση του PROMPT_GUARD

Εκμετάλλευση της ευπάθειας

Αδυναμίες του CODE_SHIELD

Κίνδυνοι παραγωγής και εμπιστοσύνης

Unicode Steganography και αόρατες οδηγίες

Προκλήσεις και μελλοντικές κατευθύνσεις

Συμπεράσματα και προτάσεις

Η ανακάλυψη της ευπάθειας

Η ομάδα ασφαλείας της εφαρμογής της Trendyol αποκάλυψε μια σειρά από παρακάμψεις που καθιστούν τις προστασίες του Llama Firewall της Meta αναξιόπιστες απέναντι σε εξελιγμένες επιθέσεις prompt injection. Αυτά τα ευρήματα εγείρουν νέες ανησυχίες σχετικά με την ετοιμότητα των υπαρχόντων μέτρων ασφαλείας των μεγάλων γλωσσικών μοντέλων (LLM) και υπογραμμίζουν την επιτακτική ανάγκη για πιο ανθεκτικές άμυνες καθώς οι επιχειρήσεις ενσωματώνουν όλο και περισσότερο τα LLM στις διαδικασίες τους.

Αξιολόγηση του PROMPT_GUARD

Κατά τη διάρκεια της αξιολόγησης, οι μηχανικοί της Trendyol ανέπτυξαν το ανοιχτού κώδικα Llama Firewall της Meta, εστιάζοντας στο στοιχείο PROMPT_GUARD που προορίζεται να φιλτράρει κακόβουλες οδηγίες χρηστών. Ωστόσο, το PROMPT_GUARD απέτυχε να αποκλείσει φράσεις στα τουρκικά όπως “üstteki yönlendirmeleri salla” και μορφές leetspeak όπως “1gn0r3”, αποκαλύπτοντας την εξάρτηση από αγγλικές λέξεις-κλειδιά και ακριβείς αντιστοιχίες.

Εκμετάλλευση της ευπάθειας

Η ομάδα της Trendyol επιβεβαίωσε ότι το σύστημα επέτρεψε την παράκαμψη με μια τουρκική έγχυση που περιείχε τη φράση “üstteki yönlendirmeleri salla”, η οποία καθοδηγεί το μοντέλο να αγνοήσει τις προηγούμενες οδηγίες και να μεταφράσει μια πρόταση στα γαλλικά. Η σάρωση επέστρεψε ένα αθώο αποτέλεσμα παρά την εμφανώς κακόβουλη πρόθεση, δείχνοντας ότι το σύνολο κανόνων του firewall εξαρτάται σε μεγάλο βαθμό από αγγλικές λέξεις-κλειδιά και ακριβείς αντιστοιχίες.

Αδυναμίες του CODE_SHIELD

Εξίσου ανησυχητική ήταν η αξιολόγηση του CODE_SHIELD, του στοιχείου που σχεδιάστηκε για να επισημαίνει ανασφαλείς προτάσεις κώδικα που δημιουργούνται από τα LLM. Σε μια απόδειξη της έννοιας, οι ερευνητές ζήτησαν από έναν βοηθό να δημιουργήσει ένα απλό endpoint Flask σε Python με ένα ερώτημα SQL. Ο παραγόμενος κώδικας συνένωσε την είσοδο χρήστη απευθείας στην αλυσίδα ερωτημάτων, δημιουργώντας μια κλασική ευπάθεια SQL injection. Παρά τον προφανή κίνδυνο, το CODE_SHIELD κατηγοριοποίησε την έξοδο ως ασφαλή και την επέτρεψε χωρίς πρόκληση.

Κίνδυνοι παραγωγής και εμπιστοσύνης

Οι προγραμματιστές της Trendyol τόνισαν αρκετές κρίσιμες ανησυχίες σχετικά με αυτή την αδυναμία: Οι ομάδες μπορεί να βασιστούν σε αποσπάσματα κώδικα που δημιουργούνται από LLM χωρίς ενδελεχή ανθρώπινη ανασκόπηση, ενώ η υπερβολική εξάρτηση από την αυτοματοποιημένη σάρωση εισάγει κρίσιμες ευπάθειες. Τα συστήματα παραγωγής γίνονται ευάλωτα σε εκμετάλλευση μέσω αδιάγνωστων ατελειών, και οι προγραμματιστές μπορεί να αναπτύξουν ψευδή εμπιστοσύνη στα αυτοματοποιημένα εργαλεία ασφαλείας.

Unicode Steganography και αόρατες οδηγίες

Η πιο ύπουλη παράκαμψη περιλάμβανε την ενσωμάτωση κρυφών οδηγιών μέσα σε αόρατους χαρακτήρες Unicode. Με την εισαγωγή μηδενικού πλάτους διαστημάτων και άλλων μη εκτυπώσιμων σημείων κώδικα γύρω από τη φράση “ignore all previous instructions”, οι ερευνητές καμουφλάρισαν κακόβουλες οδηγίες μέσα σε μια αθώα ερώτηση σχετικά με την πρωτεύουσα της Γαλλίας. Παρόλο που οι χρήστες και οι απλοί παρατηρητές έβλεπαν μόνο μια αβλαβή ερώτηση, το LLM αναγνώρισε και εκτέλεσε την κρυφή εντολή.

Προκλήσεις και μελλοντικές κατευθύνσεις

Η ομάδα της Trendyol δοκίμασε συνολικά εκατό μοναδικά payloads injection κατά του Llama Firewall. Τα μισά από αυτά τα payloads κατάφεραν να παρακάμψουν τις άμυνες του συστήματος, υποδεικνύοντας ότι ενώ το firewall προσφέρει κάποια προστασία, απέχει πολύ από το να είναι ολοκληρωμένο. Οι επιτυχημένες παρακάμψεις αναδεικνύουν σενάρια στα οποία οι επιτιθέμενοι θα μπορούσαν να εξαναγκάσουν τα LLM να αγνοήσουν κρίσιμα φίλτρα ασφαλείας, να παράγουν προκατειλημμένο ή προσβλητικό περιεχόμενο ή να δημιουργήσουν ανασφαλή κώδικα έτοιμο για εκτέλεση.

Συμπεράσματα και προτάσεις

Για οργανισμούς όπως η Trendyol, που σχεδιάζουν να ενσωματώσουν LLM σε πλατφόρμες ανάπτυξης, αυτοματοποιημένες ροές εργασίας και εφαρμογές που απευθύνονται σε πελάτες, αυτές οι ευπάθειες αντιπροσωπεύουν συγκεκριμένους κινδύνους που θα μπορούσαν να οδηγήσουν σε διαρροές δεδομένων, παραβίαση συστημάτων ή μη συμμόρφωση με κανονισμούς. Η κοινότητα ασφαλείας πρέπει τώρα να συνεργαστεί για πιο ανθεκτικές μεθόδους ανίχνευσης και βέλτιστες πρακτικές για να παραμείνει μπροστά από τους αντιπάλους που συνεχώς καινοτομούν νέους τρόπους για να χειραγωγήσουν αυτά τα ισχυρά συστήματα.