Meta* FAIR va Edinburg universiteti olimlari nafaqat til modeli qanchalik to‘g‘ri mulohaza yuritayotganini aniqlash, balki xatoni tuzatish uchun jarayonga aralashish imkonini beruvchi usulni yaratdilar. Yondashuv Circuit-based Reasoning Verification (CRV) deb nomlangan va model ichida yashirin algoritmlarni amalga oshiradigan neyronlarning kichik graflari - "hisoblash zanjirlari"ni tahlil qilishga asoslangan.
CRV modelni hisoblash grafigini quradi va muammoni hal qilishda belgilar o‘rtasidagi qaysi aloqalar faollashishini kuzatib boradi. Agar bu bog‘lanishlarning tuzilishi nosozlikni ko‘rsatsa, u holda usul xatolikni qayd etadi va hisoblashning aynan qayerda buzilganligini aytib berishi mumkin. Bu, aslida, modelning ichki "mexanikasi"ni ochadigan va uning nima uchun noto‘g‘ri xulosaga kelganini tushunishga imkon beradigan diagnostika vositasidir.
Bunday "ichki diagnostika"ni amalga oshirish uchun tadqiqotchilar LLM arxitekturasini, xususan, Llama 3.1 8B Instructni o‘zgartirib, transformatorning zich qatlamlarini o‘rgatilgan transkoderlarga almashtirdilar. Ushbu komponentlar modelni oraliq hisoblashlarni shaffof bo‘lmagan sonli vektorlar sifatida emas, balki siyraklashtirilgan belgilar to‘plami sifatida taqdim etishga majbur qiladi. Natijada, CRV model ichida ma’lumot qanday tarqalishini kuzatish va to‘g‘ri va noto‘g‘ri fikrlash qadamlarining o‘ziga xos tarkibiy "izlarini" qayd etish imkoniyatiga ega bo‘ladi.

Shu asosda mulohazaning har bir qadamini to‘g‘ri yoki noto‘g‘ri deb tasniflaydigan diagnostik model yaratiladi. Sintetik va real masalalarda (mantiqiy, arifmetik, GSM8K) CRV modelning tashqi xatti-harakati yoki oddiy faollashtirish sinovlari bilan cheklangan mavjud qora quti va kulrang quti usullariga qaraganda yuqori aniqlikni ko‘rsatdi.
Asosiy natija - CRV nafaqat korrelyatsiyani aniqlaydi, balki xatolarning sabablarini ham aniqlaydi. Misollardan birida tizim "ko‘paytiruvchi" belgining muddatidan oldin faollashuvini qayd etdi, buning natijasida model amallar tartibida xatoga yo‘l qo‘ydi. Ushbu alomatni tahrirlashdan so‘ng, model ifodani to‘g‘ri qayta hisobladi.
Tahlil shuni ko‘rsatdiki, xatolarning tabiati masalaning turiga bog‘liq: mantiqiy mulohazalar va arifmetikadagi uzilishlar turli xil hisoblash namunalarida namoyon bo‘ladi. Bu shuni anglatadiki, diagnostik tasniflagichni har bir vazifalar sinfi uchun alohida o‘rgatish kerak, garchi transkoderlarning o‘zi umumiy bo‘lib qolsa ham. Agar bunday vositalar amaliyotga aylansa, til modellari yanada ishonchli ishlay oladi va hatto mantiqiy xatolar yuzaga kelganda o‘z mulohazalarini mustaqil ravishda to‘g‘rilay oladi - deyarli inson kabi.