Τα μεγάλα γλωσσικά μοντέλα (LLMs) διαπρέπουν στην κατανόηση συμφραζομένων και στην παροχή λογικών απαντήσεων μέσω κειμενικής λογικής. Ωστόσο, συχνά δυσκολεύονται με υπολογιστικές εργασίες που θα επιλύονταν καλύτερα με χρήση κώδικα, όπως η σύγκριση δεκαδικών αριθμών ή η επίλυση προβλημάτων βελτιστοποίησης.
Για να αντιμετωπίσουν αυτόν τον περιορισμό, ερευνητές από το MIT ανέπτυξαν το CodeSteer, έναν έξυπνο βοηθό που λειτουργεί ως προπονητής για μεγαλύτερα γλωσσικά μοντέλα, καθοδηγώντας τα να εναλλάσσονται μεταξύ παραγωγής κειμένου και κώδικα μέχρι να απαντήσουν σωστά σε ένα ερώτημα.
"Εμπνευστήκαμε από τους ανθρώπους. Στα αθλήματα, ένας προπονητής μπορεί να μην είναι καλύτερος από τον αστέρα της ομάδας, αλλά μπορεί να δώσει χρήσιμες συμβουλές για να τον καθοδηγήσει. Αυτή η μέθοδος καθοδήγησης λειτουργεί και για τα LLMs," εξηγεί ο Yongchao Chen, μεταπτυχιακός φοιτητής στο Harvard και το MIT που εργάστηκε στο έργο.
Το CodeSteer, το οποίο είναι το ίδιο ένα μικρότερο LLM βελτιστοποιημένο πάνω στο μοντέλο Llama-3-8B, λειτουργεί εξετάζοντας ένα ερώτημα και αποφασίζοντας αν το κείμενο ή ο κώδικας είναι καταλληλότερος για την επίλυσή του. Στη συνέχεια δημιουργεί προτροπές για το μεγαλύτερο LLM, καθοδηγώντας το να χρησιμοποιήσει τη σωστή μέθοδο. Αν η απάντηση δεν είναι σωστή, το CodeSteer συνεχίζει να προτρέπει το LLM να δοκιμάσει διαφορετικές προσεγγίσεις μέχρι να φτάσει στη σωστή λύση.
Οι ερευνητές διαπίστωσαν ότι η ενίσχυση του GPT-4o με το CodeSteer αύξησε την ακρίβειά του σε συμβολικές εργασίες κατά πάνω από 30%, ανεβάζοντας τη μέση απόδοσή του από 53,3 σε 86,4 σε 37 εργασίες. Αυτή η βελτίωση του επέτρεψε να ξεπεράσει ακόμη και πιο προηγμένα μοντέλα όπως το OpenAI o1 (82,7) και το DeepSeek R1 (76,8). Αξιοσημείωτα, το CodeSteer επέδειξε επίσης ισχυρή γενικευσιμότητα, προσφέροντας κατά μέσο όρο αύξηση απόδοσης 41,8% όταν εφαρμόστηκε σε άλλα μοντέλα όπως τα Claude, Mistral και GPT-3.5.
Για την ανάπτυξη και δοκιμή του CodeSteer, οι ερευνητές δημιούργησαν το SymBench, ένα ολοκληρωμένο benchmark που περιλαμβάνει 37 συμβολικές εργασίες με ρυθμιζόμενη πολυπλοκότητα. Αυτές οι εργασίες καλύπτουν τα μαθηματικά, τη χωρική λογική, τη λογική, τη λογική σειράς και προβλήματα βελτιστοποίησης.
Αυτή η καινοτομία θα μπορούσε να βελτιώσει σημαντικά τις δυνατότητες της τεχνητής νοημοσύνης στην επίλυση σύνθετων προβλημάτων που είναι δύσκολο να λυθούν μόνο με κειμενική λογική, όπως η δημιουργία διαδρομών για ρομπότ σε αβέβαια περιβάλλοντα ή ο προγραμματισμός αποστολών σε διεθνείς εφοδιαστικές αλυσίδες.
"Ενισχύοντας ένα LLM με την ικανότητα να χρησιμοποιεί έξυπνα τον κώδικα, μπορούμε να πάρουμε ένα ήδη πολύ ισχυρό μοντέλο και να βελτιώσουμε ακόμη περισσότερο την απόδοσή του," σημειώνει ο Chen. Οι ερευνητές τώρα εργάζονται για να απλοποιήσουν το CodeSteer ώστε να επιταχύνουν τη διαδικασία επαναληπτικών προτροπών και εξερευνούν τρόπους βελτιστοποίησης ενός ενιαίου μοντέλου που θα μπορεί να εναλλάσσεται μεταξύ κειμενικής λογικής και παραγωγής κώδικα χωρίς να βασίζεται σε ξεχωριστό βοηθό.