San Francisco merkezli startup Goodfire, yapay zeka dünyasında çığır açacak yeni bir araç tanıttı: Silico. Bu araç, araştırmacıların ve mühendislerin bir yapay zeka modelinin içine girip, davranışlarını belirleyen ayarları yani parametreleri eğitim sırasında bile ayarlamasına olanak tanıyor. Goodfire, Silico’nun veri setinden eğitime, tüm LLM geliştirme aşamalarında yapay zeka hata ayıklama sürecine yardımcı olan ilk hazır araç olduğunu belirtiyor. Şirketin misyonu, yapay zeka modeli oluşturmayı simyadan bilime dönüştürmek.

Yapay Zeka Modellerini Anlamak Artık Daha Kolay

ChatGPT ve Gemini gibi büyük dil modelleri (LLM'ler) inanılmaz şeyler yapabiliyor. Ancak kimse bunların tam olarak nasıl ve neden çalıştığını bilmiyor. Bu durum, hatalarını düzeltmeyi veya istenmeyen davranışları engellemeyi zorlaştırıyor. Goodfire CEO'su Eric Ho, Silico'nun lansmanı öncesinde MIT Technology Review'a verdiği röportajda, "Modellerin ne kadar iyi anlaşıldığı ile ne kadar yaygın kullanıldığı arasındaki uçurum genişliyordu," dedi. Ho, birçok laboratuvarın daha fazla ölçek ve veriyle yapay genel zekaya (AGI) ulaşılacağını düşündüğünü, ancak kendilerinin farklı bir yol izlediğini vurguluyor.

Goodfire, Anthropic, OpenAI ve Google DeepMind gibi sektör liderleriyle birlikte, mekanistik yorumlanabilirlik olarak bilinen bir tekniğe öncülük ediyor. Bu teknik, bir yapay zeka modeli bir görevi yerine getirirken içerde neler olup bittiğini, nöronlarını ve aralarındaki bağlantıları haritalandırarak anlamayı amaçlıyor. Goodfire, bu yaklaşımı sadece eğitilmiş modelleri denetlemek için değil, aynı zamanda en baştan modelleri tasarlamak için de kullanmak istiyor. Ho, "Deneme yanılma yöntemini ortadan kaldırmak ve model eğitimini hassas mühendisliğe dönüştürmek istiyoruz," diyor. Bu, eğitim sürecinde kullanılabilecek "düğmeleri ve kadranları" ortaya çıkarmak anlamına geliyor.

Goodfire, kendi tekniklerini ve araçlarını kullanarak LLM'lerin davranışlarını zaten değiştirdi. Örneğin, ürettikleri halüsinasyon sayısını azalttılar. Şimdiyse Silico ile bu şirket içi tekniklerin çoğunu bir ürün olarak sunuyorlar. Araç, karmaşık işlerin büyük bir kısmını otomatikleştirmek için yapay zeka ajanlarını kullanıyor. Ho, "Ajanlar artık insanlarla yaptığımız yorumlanabilirlik işlerinin çoğunu yapabilecek kadar güçlü," diye ekliyor. Amsterdam Üniversitesi'nden araştırmacı Leonard Bereska, Silico'nun faydalı bir araç olduğunu düşünüyor ancak Goodfire'ın daha iddialı hedeflerine ihtiyatlı yaklaşıyor. Bereska, "Gerçekte, simyaya hassasiyet katıyorlar. Buna mühendislik demek, olduğundan daha ilkeli gösteriyor," yorumunu yapıyor.

Silico Nasıl Çalışıyor: Nöronlara Yakından Bakış

Silico, eğitilmiş bir modelin belirli bölümlerine, örneğin tek tek nöronlara veya nöron gruplarına yakınlaştırmanıza olanak tanır. Böylece bu nöronların ne yaptığını görmek için deneyler yapabilirsiniz. Tabii bunun için modelin iç işleyişine erişiminiz olması gerekiyor. Çoğu kişi Silico'yu ChatGPT veya Gemini'nin içini kurcalamak için kullanamaz, ancak birçok açık kaynaklı modelin parametrelerine bakmak mümkün. Daha sonra hangi girdilerin farklı nöronları tetiklediğini kontrol edebilir, bir nöronun yukarı ve aşağı akışındaki yolları izleyebilirsiniz.

Örneğin, Goodfire açık kaynaklı Qwen 3 modelinin içinde "tramvay problemi" ile ilişkili bir nöron buldu. Bu nöronu etkinleştirmek, modelin yanıtlarını değiştirdi ve çıktılarını açık ahlaki ikilemler olarak çerçevelemesine neden oldu. Ho, "Bu nöron aktif olduğunda her türlü tuhaf şey oluyor," diyor. Bu tür garip davranışların kaynağını belirlemek artık standart bir uygulama. Ancak Goodfire, bu davranışı ayarlamayı kolaylaştırmak istiyor.

Silico'yu kullanarak geliştiriciler, belirli davranışları artırmak veya bastırmak için bireysel nöronlara bağlı parametreleri ayarlayabiliyor. Goodfire araştırmacıları, bir yapay zekanın %0,3 oranında yanıltıcı davrandığı ve 200 milyon kullanıcıyı etkilediği bir senaryoda, açıklama yapılıp yapılmaması gerektiğini sordu. Model, olumsuz iş etkisini gerekçe göstererek "hayır" cevabı verdi. Araştırmacılar, şeffaflıkla ilişkili nöronları güçlendirerek yanıtı 10 kezden 9'unda "evet"e çevirdi. Ho, "Model zaten etik akıl yürütme devrelerine sahipti, ancak ticari risk değerlendirmesi buna ağır basıyordu," diye açıklıyor.

Bir modelin değerlerini bu şekilde ayarlamak, tek yaklaşım değil. Silico, istenmeyen parametre değerlerinin en baştan ayarlanmasını önlemek için belirli eğitim verilerini filtreleyerek eğitim sürecini yönlendirmeye de yardımcı olabiliyor. Örneğin, birçok model size 9.11'in 9.9'dan büyük olduğunu söyleyecektir. Modelin içine bakmak, bunun İncil'deki 9.9 ayetinin 9.11'den önce gelmesinden veya ardışık güncellemelerin 9.9, 9.10, 9.11 şeklinde numaralandırıldığı kod depolarından etkilenen nöronlardan kaynaklandığını ortaya çıkarabilir. Bu bilgiyi kullanarak, model matematik yaparken "İncil" nöronlarından kaçınacak şekilde yeniden eğitilebilir.

Yapay Zeka Geliştirmeyi Demokratikleştiren Yeni Araç

Silico'yu piyasaya sürerek Goodfire, daha önce yalnızca birkaç üst düzey laboratuvarın erişebildiği teknikleri, kendi modellerini oluşturmak veya açık kaynaklı bir modeli uyarlamak isteyen daha küçük firmaların ve araştırma ekiplerinin eline geçirmek istiyor. Araç, müşterilerin gereksinimlerine göre vaka bazında belirlenen bir ücret karşılığında sunulacak. Ho, "Model eğitimini yazılım geliştirmeye çok daha fazla benzetebilirsek, ihtiyaçlarına uygun modeller tasarlayan çok daha fazla şirket olmaması için hiçbir neden yok," diyor.

Bereska da Silico gibi araçların firmaların daha güvenilir modeller oluşturmasına yardımcı olabileceği konusunda hemfikir. Ona göre bu teknikler, sağlık ve finans gibi güvenlik açısından kritik uygulamalar için temel olabilir. Bereska, "Öncü laboratuvarların zaten dahili yorumlanabilirlik ekipleri var," diye ekliyor. "Silico, yorumlanabilirlik araştırmacıları işe almak zorunda kalmayacak olan bir sonraki şirket grubunu silahlandırıyor." Bu, özellikle küçük ve orta ölçekli teknoloji şirketleri için büyük bir avantaj sağlıyor.