Hardware
Η νέα μνήμη της TRUSTA σπάει το όριο VRAM των GPUs
Η νέα λύση της TRUSTA επεκτείνει τη μνήμη μοντέλων σε συστημική DRAM και υψηλής ταχύτητας SSD, συνδυάζοντας open‑source λογισμικό και enterprise PCIe Gen5 drives για προσιτό και on‑prem AI inferencing και fine‑tuning.
Η ανάγκη για μεγαλύτερη μνήμη στα συστήματα που τρέχουν μοντέλα τεχνητής νοημοσύνης έχει γίνει το πιο επώδυνο εμπόδιο στην κλίμακα και την οικονομία των deployments. Η TRUSTA, θυγατρική της ADATA, παρουσιάζει μια ολοκληρωμένη λύση που αξιοποιεί όχι μόνο τη μνήμη των GPUs αλλά και τη συστημική μνήμη και ταχύτατα SSD, με στόχο να μειώσει δραστικά το κόστος υλοποίησης inferencing και fine‑tuning.
Το αποτέλεσμα δεν είναι απλά ένα νέο προϊόν αποθήκευσης. Η πρόταση της TRUSTA —το AI Scaler Extended Memory με πυρήνα το AI Scaler Toolkit— αποτελεί προσπάθεια ανασχεδιασμού της ιεραρχίας μνήμης για workloads AI, ώστε μοντέλα που προηγουμένως απαιτούσαν πολλαπλά GPUs να τρέχουν σε πιο προσιτές, on‑prem υποδομές.
Τι ακριβώς ανακοίνωσε η TRUSTA
Η νέα λύση συνδυάζει λογισμικό και hardware: το AI Scaler Toolkit αναλαμβάνει τη διαχείριση της κατανομής μοντέλου και tensors μεταξύ μνήμης GPU, DRAM και SSD, ενώ οι συσκευές αποθήκευσης της TRUSTA —όπως το TD7P51 ECO PCIe Gen5— παίζουν ρόλο ενεργού επεκταμένης μνήμης. Σύμφωνα με την ανακοίνωση, σε σενάρια inference και fine‑tuning το συνολικό κόστος deployment μπορεί να μειωθεί πάνω από 50%.
Σημαντικό κομμάτι της προσέγγισης είναι ότι το Toolkit είναι διαθέσιμο ως ελεύθερο και open‑source εργαλείο, χωρίς να δεσμεύει τον χρήστη σε συγκεκριμένο hardware. Η πλατφόρμα υποστηρίζει δημοφιλείς οικογένειες μοντέλων όπως Llama, Qwen, Mistral, Mixtral, GPT‑OSS, DeepSeek, Phi και Gemma και αναπτύσσει υποστήριξη για περισσότερα μοντέλα και frameworks.
Πώς αλλάζει την ιεραρχία μνήμης για AI
Η παραδοσιακή προσέγγιση βασίζεται στην ιδέα ότι όλο το ενεργό σύνολο του μοντέλου πρέπει να χωράει στη μνήμη του accelerator (HBM/GDDR), ώστε να εξασφαλίζεται η απαιτούμενη throughput και χαμηλή latency. Όμως τα σύγχρονα μοντέλα, ειδικά στα agentic AI workflows και σε μεγέθη 100+ δισεκατομμυρίων παραμέτρων, ξεπερνούν εύκολα τη χωρητικότητα των GPUs.
Η στρατηγική της TRUSTA μεταθέτει μέρος αυτού του φορτίου σε πιο αργές αλλά πολύ μεγαλύτερες στρώσεις: από HBM/GPU memory → DRAM συστήματος → SSD υψηλής ταχύτητας. Το κρίσιμο είναι η έξυπνη τοποθέτηση των tensors και η προβλεπτική μεταφορά (prefetching) ώστε να περιορίζονται τα κόστη latency που φέρνει το NVMe storage.
Τεχνικές συγκλίσεις με υπάρχουσες μεθόδους
Η ιδέα της μεταφοράς μνήμης δεν είναι εντελώς καινούργια: εργαλεία όπως ZeRO‑Offload ή τεχνικές model‑parallelism και sharding επιχειρούν ήδη την αποσυμπίεση του φορτίου από το GPU. Η διαφορά της λύσης της TRUSTA είναι ότι συνδυάζει επίμονα το storage layer ως ενεργό κομμάτι της ιεραρχίας μνήμης και το υποστηρίζει με ένα πλήρες toolkit που στοχεύει στην ευκολία ενσωμάτωσης.
Αυτό σημαίνει ότι αντί να απαιτηθεί ακριβότερο hardware (π.χ. πολλαπλά HBM‑rich GPUs συνδεδεμένα με NVLink), μια επιχείρηση μπορεί να χρησιμοποιήσει υπάρχοντα servers με μεγαλύτερη ποσότητα DRAM και γρήγορα PCIe Gen5 SSDs, μειώνοντας το αρχικό capex και το λειτουργικό κόστος.
Πρακτικά σενάρια χρήσης και οικονομική επίπτωση
Σκεφτείτε μια εταιρεία που θέλει να τρέξει ένα μοντέλο 30–70B παραμέτρων για conversational AI στο εσωτερικό της. Παραδοσιακά θα έπρεπε να επενδύσει σε αρκετά GPU nodes ή σε ακριβό cloud time με μεγάλες χρεώσεις. Με το AI Scaler Extended Memory, μέρος του μοντέλου μπορεί να “επιπλέει” στη DRAM και στο SSD, επιτρέποντας να τρέξει σε λιγότερα GPUs ή σε μικρότερης κατηγορίας accelerators.
Στα δοκιμασμένα σενάρια της TRUSTA, workloads που προηγουμένως απαιτούσαν πολλαπλές GPUs κατά την εκτέλεση inference, εκτελούνται τώρα σε ένα μόνο GPU συνδεδεμένο με επαυξημένη συστημική μνήμη. Στο fine‑tuning, η δυνατότητα δυναμικής κατανομής μεταξύ GPU, DRAM και SSD μειώνει το κόστος υποδομής και το χρόνο ανάπτυξης, καθιστώντας την υιοθέτηση AI πρακτικότερη για μικρότερες επιχειρήσεις.
Περιορισμοί και τεχνικές προκλήσεις που πρέπει να γνωρίζετε
Η χρήση SSD ως προέκταση μνήμης δεν είναι πανάκεια. Οι SSD έχουν πολύ υψηλότερο latency και χαμηλότερο throughput σε σύγκριση με DRAM και HBM. Αυτό σημαίνει πως χωρίς έξυπνο allocation και προληπτικό prefetching, το performance μπορεί να πέσει σημαντικά. Επίσης υπάρχει το ζήτημα της φθοράς (write endurance) των NVMe drives όταν χρησιμοποιούνται εντατικά ως επεκταμένη μνήμη.
Οι μηχανικοί πρέπει να σχεδιάσουν συστήματα caching, να εφαρμόσουν quantization και compaction όπου είναι δυνατό, και να αξιοποιήσουν τεχνικές όπως activation recomputation ή sparsity για να μειώσουν το ενεργό working set. Επιπλέον, απαιτείται υποστήριξη από το I/O υποσύστημα (π.χ. PCIe Gen5) και καλός συντονισμός CPU/GPU ώστε να μην προκύψει bottleneck στον host.
Υλικό και υποστήριξη: τι προσφέρει η TRUSTA
Παράλληλα με το Toolkit, η TRUSTA παρουσιάζει το TD7P51 ECO, ένα enterprise PCIe Gen5 SSD με χωρητικότητες έως 15.36TB και υποστήριξη σε πολλαπλά form factors (U.2, E1.S, E3.S). Το drive ενσωματώνει τεχνικές όπως FDP (Flexible Data Placement) που στοχεύουν στη βελτιστοποίηση της αξιοπιστίας και της διάρκειας ζωής μέσω έξυπνου placement των δεδομένων.
Η TRUSTA αναφέρει ότι τα προϊόντα της έχουν επικυρωθεί σε δημοφιλείς server πλατφόρμες, κάτι που διευκολύνει την ενσωμάτωση σε υπάρχουσες εγκαταστάσεις data center. Η παρουσίαση σε εκδηλώσεις όπως το COMPUTEX επιτρέπει επίσης στους πελάτες να δουν live demos και να αξιολογήσουν την απόδοση σε ρεαλιστικά φορτία.
Συμβατότητα με agentic AI και οικοσύστημα open source
Ένα από τα πλεονεκτήματα του AI Scaler Toolkit είναι η σχεδιασμένη συμβατότητα με agentic εφαρμογές και πρακτικές, όπως OpenClaw, NemoClaw και Hermes Agentic. Αυτό σημαίνει ότι επιχειρήσεις που υλοποιούν αυτοματοποιημένες αλυσιδές λογικής και agent frameworks μπορούν να κάνουν scale workflows χωρίς να αλλάζουν ριζικά τη στοίβα τεχνολογιών τους.
Η επιλογή να δοθεί το Toolkit ως open source μειώνει το friction στην πειραματική χρήση και ενθαρρύνει την κοινότητα να συνεισφέρει βελτιώσεις, adapters για επιπλέον μοντέλα και βελτιστοποιήσεις I/O. Για την πράξη αυτό μεταφράζεται σε ταχύτερη διάδοση και σε περισσότερες επιλογές tuning για συγκεκριμένα workloads.
Τι σημαίνει για τους χρήστες και τις επιχειρήσεις
Η λύση της TRUSTA αλλάζει το παράδειγμα: αντί να κλιμακώνεις πάντα με πρόσθετα GPUs, μπορείς να σκεφτείς συνδυαστική κλίμακα μνήμης και storage. Αυτό δίνει επιχειρηματικά πλεονεκτήματα—χαμηλότερο κόστος εισόδου, ευκολότερο proof‑of‑concept, και μεγαλύτερο έλεγχο στα δεδομένα για λόγους συμμόρφωσης και ιδιωτικότητας.
Σε επίπεδο υποδομής, προϋποθέτει όμως τεχνογνωσία: σωστή αρχιτεκτονική I/O, monitoring για SSD wear, και προσεκτική παραμετροποίηση του software stack ώστε να διατηρείται αποδεκτή απόδοση. Για οργανισμούς που θέλουν να τρέξουν LLMs on‑prem ή σε edge sites, η προσέγγιση αυτή μπορεί να είναι η πιο βιώσιμη σήμερα, ειδικά όταν ο στόχος είναι συχνό inference ή περιορισμένο fine‑tuning χωρίς μεγάλες cloud δαπάνες.
Συνολικά, το AI Scaler Extended Memory δεν υπόσχεται την άμεση αντικατάσταση των ισχυρών GPUs· προσφέρει όμως ένα ρεαλιστικό, οικονομικά αποδοτικό μονοπάτι ώστε μεγάλες και μεσαίες επιχειρήσεις να φέρουν AI κοντά στη δεδομένη τους υποδομή και τις επιχειρησιακές απαιτήσεις.