Μία νέα πρόκληση κωδικοποίησης AI ανέδειξε τον πρώτο της νικητή — και έθεσε ένα νέο πρότυπο για μηχανικούς λογισμικού με τη βοήθεια AI.
Την Τετάρτη στις 5 μ.μ. PT, το μη κερδοσκοπικό Ινστιτούτο Laude ανακοίνωσε τον πρώτο νικητή του K Prize, μιας πολυεπίπεδης πρόκλησης κωδικοποίησης AI που ξεκίνησε από τον Databricks και τον συνιδρυτή της Perplexity, Andy Konwinski. Ο νικητής ήταν ένας Βραζιλιάνος μηχανικός προτροπών με το όνομα Eduardo Rocha de Andrade, ο οποίος θα λάβει $50,000 για το βραβείο. Αλλά πιο εκπληκτικό από τη νίκη ήταν η τελική του βαθμολογία: Κέρδισε με σωστές απαντήσεις σε μόλις 7,5% των ερωτήσεων της δοκιμής.
«Χαιρόμαστε που δημιουργήσαμε ένα σημείο αναφοράς που είναι πραγματικά δύσκολο», δήλωσε ο Konwinski. «Τα σημεία αναφοράς πρέπει να είναι δύσκολα αν θέλουμε να έχουν σημασία», συνέχισε, προσθέτοντας: «Οι βαθμολογίες θα ήταν διαφορετικές αν τα μεγάλα εργαστήρια είχαν συμμετάσχει με τα μεγαλύτερα μοντέλα τους. Αλλά αυτό είναι το νόημα. Το K Prize λειτουργεί εκτός σύνδεσης με περιορισμένη υπολογιστική ισχύ, έτσι ευνοεί μικρότερα και ανοιχτά μοντέλα. Το λατρεύω αυτό. Ισοπεδώνει το πεδίο ανταγωνισμού.»
Ο Konwinski έχει υποσχεθεί $1 εκατομμύριο στο πρώτο μοντέλο ανοιχτού κώδικα που μπορεί να πετύχει σκορ πάνω από 90% στη δοκιμή.
Παρόμοια με το γνωστό σύστημα SWE-Bench, το K Prize δοκιμάζει μοντέλα σε θέματα που έχουν επισημανθεί από το GitHub ως δοκιμή για το πόσο καλά μπορούν τα μοντέλα να αντιμετωπίσουν πραγματικά προβλήματα προγραμματισμού. Αλλά ενώ το SWE-Bench βασίζεται σε ένα σταθερό σύνολο προβλημάτων που τα μοντέλα μπορούν να εκπαιδευτούν πάνω τους, το K Prize έχει σχεδιαστεί ως μια «έκδοση χωρίς μόλυνση του SWE-Bench», χρησιμοποιώντας ένα σύστημα χρονισμένης εισόδου για να αποτραπεί οποιαδήποτε εξειδικευμένη εκπαίδευση για το σημείο αναφοράς. Για τον πρώτο γύρο, τα μοντέλα έπρεπε να παραδοθούν μέχρι τις 12 Μαρτίου. Οι οργανωτές του K Prize στη συνέχεια δημιούργησαν τη δοκιμή χρησιμοποιώντας μόνο θέματα του GitHub που επισημάνθηκαν μετά από εκείνη την ημερομηνία.
Το κορυφαίο σκορ του 7,5% ξεχωρίζει έντονα σε αντίθεση με το ίδιο το SWE-Bench, το οποίο δείχνει αυτή τη στιγμή ένα κορυφαίο σκορ 75% στη πιο εύκολη δοκιμή “Επαληθευμένο” και 34% στη πιο δύσκολη δοκιμή “Πλήρης”. Ο Konwinski ακόμα δεν είναι σίγουρος αν η διαφορά οφείλεται σε μόλυνση στο SWE-Bench ή απλά στην πρόκληση της συλλογής νέων θεμάτων από το GitHub, αλλά αναμένει ότι το έργο K Prize θα απαντήσει σύντομα στο ερώτημα.
«Καθώς θα έχουμε περισσότερες εκτελέσεις του πράγματος, θα έχουμε καλύτερη εικόνα», είπε στο TechCrunch, «επειδή αναμένουμε ότι οι άνθρωποι θα προσαρμοστούν στη δυναμική του ανταγωνισμού σε αυτό κάθε λίγους μήνες.»
Ίσως να φαίνεται παράξενο σημείο για να υπολείπονται, δεδομένου του ευρέος φάσματος των εργαλείων κωδικοποίησης AI που είναι ήδη δημόσια διαθέσιμα — αλλά με τα σημεία αναφοράς να γίνονται πολύ εύκολα, πολλοί επικριτές βλέπουν έργα όπως το K Prize ως ένα απαραίτητο βήμα προς την επίλυση του αυξανόμενου προβλήματος αξιολόγησης του AI.
«Είμαι αρκετά αισιόδοξος για τη δημιουργία νέων δοκιμασιών για υπάρχοντα σημεία αναφοράς», λέει ο ερευνητής του Princeton, Sayash Kapoor, ο οποίος πρότεινε μια παρόμοια ιδέα σε πρόσφατο άρθρο του. «Χωρίς τέτοια πειράματα, δεν μπορούμε πραγματικά να πούμε αν το ζήτημα είναι η μόλυνση, ή ακόμα και αν απλά στοχεύουμε τον πίνακα κατάταξης του SWE-Bench με έναν άνθρωπο στον κύκλο.»
Για τον Konwinski, δεν είναι μόνο ένα καλύτερο σημείο αναφοράς, αλλά μια ανοιχτή πρόκληση για το υπόλοιπο της βιομηχανίας. «Αν ακούτε τη διαφημιστική εκστρατεία, είναι σαν να πρέπει να βλέπουμε AI γιατρούς και AI δικηγόρους και AI μηχανικούς λογισμικού, και αυτό απλώς δεν είναι αλήθεια», λέει. «Αν δεν μπορούμε καν να πετύχουμε περισσότερο από 10% σε ένα SWE-Bench χωρίς μόλυνση, αυτός είναι ο έλεγχος πραγματικότητας για μένα.»