Mastodon
Connect with us

Privacy

Η Google εισάγει το “implicit caching” για οικονομικότερη

Η Google εισάγει το “implicit caching” στο Gemini API, μειώνοντας το κόστος χρήσης AI έως και 75% για προγραμματιστές.

Published

on

Η Google εισάγει το “implicit caching” για οικονομικότερη

Η νέα δυνατότητα της Google

Η Google ανακοινώνει μια καινοτομία στο Gemini API, που υπόσχεται να μειώσει το κόστος χρήσης των τελευταίων μοντέλων τεχνητής νοημοσύνης για τρίτους προγραμματιστές. Η νέα αυτή δυνατότητα ονομάζεται “implicit caching” και, σύμφωνα με την Google, μπορεί να προσφέρει έως και 75% εξοικονόμηση κόστους σε “επαναλαμβανόμενα περιεχόμενα” που μεταφέρονται στα μοντέλα μέσω του Gemini API. Τα μοντέλα που υποστηρίζονται από αυτή τη δυνατότητα είναι τα Gemini 2.5 Pro και 2.5 Flash.

Πώς λειτουργεί το implicit caching

Η τεχνική του caching είναι ήδη διαδεδομένη στη βιομηχανία της τεχνητής νοημοσύνης, καθώς επιτρέπει την επαναχρησιμοποίηση συχνά προσπελασμένων ή προ-υπολογισμένων δεδομένων από τα μοντέλα, μειώνοντας έτσι τις απαιτήσεις σε υπολογιστική ισχύ και κόστος. Για παράδειγμα, οι caches μπορούν να αποθηκεύουν απαντήσεις σε συχνές ερωτήσεις, αποφεύγοντας την ανάγκη το μοντέλο να αναδημιουργεί απαντήσεις για τις ίδιες αιτήσεις.

Από το explicit στο implicit caching

Προηγουμένως, η Google προσέφερε μόνο “explicit prompt caching”, όπου οι προγραμματιστές έπρεπε να ορίζουν χειροκίνητα τις πιο συχνές αιτήσεις τους. Αν και υποτίθεται ότι προσέφερε εξοικονόμηση κόστους, απαιτούσε αρκετή χειροκίνητη εργασία, κάτι που δεν ήταν πάντα αποδοτικό. Ορισμένοι προγραμματιστές εξέφρασαν τη δυσαρέσκειά τους για την υλοποίηση του explicit caching στο Gemini 2.5 Pro, καθώς παρατηρήθηκαν απροσδόκητα υψηλοί λογαριασμοί API.

Η αυτόματη λύση του implicit caching

Σε αντίθεση με το explicit caching, το implicit caching ενεργοποιείται αυτόματα για τα μοντέλα Gemini 2.5. Αν μια αίτηση μέσω του Gemini API “χτυπήσει” μια cache, τότε οι εξοικονομήσεις κόστους μεταβιβάζονται αυτόματα στον χρήστη. Η Google εξηγεί ότι αν μια αίτηση μοιράζεται κοινό πρόθεμα με προηγούμενες αιτήσεις, τότε είναι επιλέξιμη για cache hit, κάτι που σημαίνει δυναμική εξοικονόμηση κόστους.

Οι λεπτομέρειες του caching

Η ελάχιστη απαίτηση σε tokens για το implicit caching είναι 1.024 για το 2.5 Flash και 2.048 για το 2.5 Pro. Τα tokens είναι οι βασικές μονάδες δεδομένων με τις οποίες εργάζονται τα μοντέλα, με χίλια tokens να ισοδυναμούν περίπου με 750 λέξεις. Η Google προτείνει στους προγραμματιστές να τοποθετούν το επαναλαμβανόμενο περιεχόμενο στην αρχή των αιτήσεων για να αυξήσουν τις πιθανότητες cache hits, ενώ το μεταβαλλόμενο περιεχόμενο θα πρέπει να προστίθεται στο τέλος.

Προκλήσεις και επιφυλάξεις

Παρά τις υποσχέσεις για εξοικονόμηση κόστους, υπάρχουν επιφυλάξεις. Η Google δεν έχει προσφέρει τρίτη επιβεβαίωση ότι το νέο σύστημα implicit caching θα παρέχει τις υποσχόμενες εξοικονομήσεις. Αναμένουμε να δούμε τις αντιδράσεις των πρώτων χρηστών για να διαπιστώσουμε την πραγματική απόδοση αυτής της δυνατότητας.

Advertisement