ChatGPT ve benzeri yapay zeka servisleri hayatımızın bir parçası oldu. Ama bu servislerin iki büyük dezavantajı var: Sürekli internet bağlantısı gerektiriyorlar ve yazdığınız her şeyi kendi sunucularına gönderiyorlar. Peki, gizliliğinizden ödün vermeden veya internetiniz kesildiğinde bile bu teknolojiyi kullanmak mümkün mü? Cevap evet. İşte size adım adım LLM yerel bilgisayarda internetsiz nasıl çalıştırılır sorusunun cevabı. Bu rehberle, yapay zeka kontrolünü tamamen kendi elinize alacaksınız.

Bu işin sırrı, büyük dil modellerini bulut sunucuları yerine doğrudan kendi bilgisayarınızın donanımı üzerinde çalıştırmakta. Bu sayede hem internete bağımlılığınız ortadan kalkıyor hem de verileriniz bilgisayarınızdan dışarı çıkmıyor. Üstelik sanıldığı kadar karmaşık bir işlem de değil. Doğru araçlarla, birkaç tıkla kendi yerel yapay zeka asistanınızı kurabilirsiniz. Gelin, nasıl yapıldığına bakalım.

Adım 1: Donanım Kontrolü: Bilgisayarınız Bu İşe Hazır mı?

Her şeyden önce, bilgisayarınızın bu yükü kaldırıp kaldıramayacağını kontrol etmemiz gerekiyor. Yerel yapay zeka modelleri, özellikle iki donanım bileşenine fena halde yüklenir: Ekran kartı belleği (VRAM) ve sistem belleği (RAM). En kritik olanı VRAM. Model ne kadar büyükse, o kadar fazla VRAM'e ihtiyaç duyar. 8 GB VRAM'e sahip bir NVIDIA veya AMD ekran kartı, küçük ve orta ölçekli modeller için iyi bir başlangıç noktasıdır.

Eğer 12 GB, 16 GB veya daha fazla VRAM'e sahipseniz, çok daha yetenekli ve büyük modelleri rahatlıkla çalıştırabilirsiniz. RAM ise VRAM'den sonraki en önemli ikinci bileşen. Özellikle modelin tamamı VRAM'e sığmadığında, sistem RAM'i devreye girer ve bu da performansı düşürür. Minimum 16 GB RAM önerilir, ancak 32 GB RAM çok daha konforlu bir deneyim sunar. Apple'ın M serisi işlemcili bir Mac'iniz varsa, birleşik bellek mimarisi sayesinde RAM ve VRAM ayrımı olmadığı için bu konuda çok daha şanslısınız.

Adım 2: Arayüz Seçimi: LM Studio mu, Ollama mı?

Donanım tamam ise sıra geldi bu modelleri çalıştırmamızı sağlayacak yazılımı seçmeye. Neyse ki kod yazmanıza gerek kalmadan bu işi yapan harika arayüzler var. En popüler iki seçenek LM Studio ve Ollama. İkisi de aynı amaca hizmet etse de kullanım tarzları biraz farklı. Seçim, teknik bilginize ve ne istediğinize bağlı.

LM Studio, özellikle bu işe yeni başlayanlar için biçilmiş kaftan. Tamamen görsel bir arayüze sahip. Programı kurduktan sonra içinde dahili bir model arama motoru buluyorsunuz. Buradan istediğiniz modeli aratıp, tek tıkla indirebilir ve hemen sohbete başlayabilirsiniz. Ayrıca modelin ne kadar RAM ve VRAM kullandığını anlık olarak gösteren panelleri sayesinde donanımınızın sınırlarını kolayca görebilirsiniz. Kısacası, her şey elinizin altında.

Ollama ise biraz daha teknik kullanıcıları hedefliyor. Kurulumu basit olsa da kullanımı komut satırı (terminal) üzerinden yapılıyor. Örneğin, `ollama run llama3` gibi basit bir komutla Llama 3 modelini anında çalıştırabiliyorsunuz. En büyük avantajı, bir kez kurduktan sonra arka planda bir servis olarak çalışması. Bu sayede birçok farklı üçüncü parti uygulama, yerel yapay zeka gücü için doğrudan Ollama'ya bağlanabiliyor. Eğer amacınız sadece sohbet etmek değil, aynı zamanda bu teknolojiyi başka projelerinize entegre etmekse, Ollama kesinlikle daha esnek bir çözüm.

Adım 3: Model İndirme ve Kurulum: Hangi Modeli Seçmeli?

Yazılımı kurduk, şimdi sıra geldi yapay zekanın beynini, yani modeli indirmeye. Modellerin yetenekleri "parametre" sayılarıyla ölçülür: 7B (7 milyar), 13B, 70B gibi. Parametre sayısı arttıkça modelin zekası ve yeteneği artar ama aynı zamanda ihtiyaç duyduğu donanım gücü de fırlar. Yerel kullanım için genellikle 7B ve 13B modeller idealdir. Bu modelleri bulabileceğiniz en büyük platform ise Hugging Face. LM Studio zaten arama sonuçlarını buradan çeker.

İndireceğiniz modelin formatı da çok önemli. Yerel çalıştırma için en optimize format GGUF formatıdır. Bu format, modelleri "kuantizasyon" adı verilen bir işlemle sıkıştırarak daha az VRAM kullanmalarını sağlar. Model indirirken Q4_K_M, Q5_K_M gibi farklı kuantizasyon seviyeleri görürsünüz. Rakam yükseldikçe kalite artar ama dosya boyutu da büyür. Genel kullanım için Q4_K_M seviyesi, kalite ve performans arasında harika bir denge sunuyor. Model seçimi olarak, genel sohbet için Meta'nın Llama 3 8B modeli mükemmel bir başlangıç. Kodlama yardımı için ise Code Llama modellerini tercih edebilirsiniz.

LM Studio üzerinden model indirmek ve çalıştırmak için izlemeniz gereken adımlar şunlar:

  • LM Studio programını açın ve sol menüdeki büyüteç ikonuna (Search) tıklayın.
  • Arama kutusuna "Llama 3 8B Instruct" yazın ve aratın.
  • Çıkan sonuçlar arasından, dosya adında "GGUF" geçen bir modeli, örneğin "meta-llama/Meta-Llama-3-8B-Instruct-GGUF" gibi bir repoyu seçin.
  • Sağ tarafta açılan dosya listesinden "Q4_K_M" gibi orta seviye bir kuantizasyon dosyasını bulun ve "Download" butonuna basın.
  • İndirme tamamlandıktan sonra sol menüden sohbet balonu ikonuna (Chat) tıklayın. Üst ortadaki menüden indirdiğiniz modeli seçin ve yüklenmesini bekleyin. Artık sohbete hazırsınız.

İpuçları ve Sık Karşılaşılan Sorunlar

Bu sistemi kurarken ve kullanırken aklınızda bulundurmanız gereken birkaç önemli nokta var. İlk olarak, performansın anahtarı modeli tamamen ekran kartı belleğine sığdırmaktır. LM Studio'da model yüklendikten sonra sağdaki panelde VRAM kullanımını görebilirsiniz. Eğer modelin bir kısmı sistem RAM'ine taşıyorsa (RAM Offload), cevap süreleri ciddi şekilde yavaşlar. Bu durumda daha düşük bir kuantizasyon seviyesine sahip (daha küçük boyutlu) bir model denemeniz gerekir.

Bir diğer önemli ipucu, ilk cevap süresiyle ilgili. Modeli yükledikten sonra yazdığınız ilk soruya cevap almanız biraz zaman alabilir. Bu normaldir, çünkü model o anda belleğe tam olarak yerleşmeye çalışır. Sonraki cevaplar çok daha hızlı gelecektir. Eğer genel olarak bir yavaşlık yaşıyorsanız, ekran kartı sürücülerinizin güncel olduğundan emin olun. Özellikle NVIDIA kartlar için en son CUDA sürücülerini kurmak, performansta gözle görülür bir fark yaratır.

Unutmayın, bu modeller bir kez indirildikten sonra internete kesinlikle ihtiyaç duymaz. Uçakta, dağ başında veya internet altyapısının olmadığı bir yerde bile kendi kişisel yapay zeka asistanınızı kullanmaya devam edebilirsiniz. Bu yöntem, size sadece internet bağımsızlığı değil, aynı zamanda dijital dünyada nadir bulunan bir şeyi de veriyor: tam gizlilik.