Açık Kaynak AI Güvenliği · #01

Llama ve DeepSeek Kurumsal Self-Host Güvenliği
Açık Ağırlıklı Modellerin Kurum İçi Mimarisi

Modeli kendi sunucunuzda çalıştırmak veri egemenliğini geri kazandırır; ama bulutun sizin için yaptığı işlerin tamamını üstlenmenizi de zorunlu kılar.

Enes Deniz AltaySec Co-Founder · AI Security & LLM Security

Mayıs 2026 · altaysec.com.tr

📌 Kısa Özet

Meta'nın Llama'sı, DeepSeek serisi, Mistral, Qwen ve daha pek çok açık ağırlıklı model artık kurumsal düzeyde kullanıma yeterli kapasitede. Bu modelleri kurum içinde barındırmak veri egemenliği, KVKK uyumu, gizli içerik için sözleşmesel garantilere bağlı kalmama ve uzun vadede maliyet kontrolü gibi avantajlar sunar. Karşılığında kurumun üstlenmesi gereken sorumluluklar büyüktür: model indirme bütünlüğünü doğrulamak, çıkarım altyapısını izole etmek, GPU kaynaklarını yönetmek, model güncellemelerini denetlemek, kullanıcı erişimini sınırlandırmak ve sıkı operasyonel disiplini sürdürmek. Yazı; açık ağırlıklı model self-host'unun mimari kararlarını, lisans tarafını, izolasyon kalıplarını, operasyonel disiplini ve sık karşılaşılan tuzakları ele alıyor.

Neden Self-Host?

Bir kurum açık ağırlıklı bir modeli kendi altyapısında barındırmaya karar verdiğinde, bu kararı genellikle birkaç farklı motivasyonla alır. Bunların hangisinin ön planda olduğu, kurumun sektörü, regülasyon yükü ve teknik kapasitesine göre değişir.

En sık öne çıkan motivasyon veri egemenliğidir. Üçüncü taraf bir bulut sağlayıcısına gönderilen her prompt, sağlayıcının altyapısında işlenir ve sözleşme garantilerine rağmen kurumun fiili kontrolü dışında kalır. KVKK Madde 9 yurt dışına aktarım hükümleri, sağlık ve finans gibi sektörlerin ek hassasiyetleri ve banka sırrı, savunma sırrı gibi özel kategoriler self-host'u stratejik bir tercihe dönüştürür.

İkinci motivasyon gizli içerik güvenliğidir. Bazı kurumların prompt'larında kurumsal sırlar, henüz yayımlanmamış ürün bilgileri, müşteri sözleşme ayrıntıları ya da iç stratejik kararlar bulunabilir. Bu içerikleri dış bir API'ye göndermek, ne kadar güvenli olursa olsun bir risk taşır. Self-host bu riski tamamen ortadan kaldırır.

Üçüncü motivasyon maliyet kontrolüdür. Belirli bir ölçeğin üzerindeki kurumsal kullanımda, model API ücretleri yıllık milyonlarca lirayı bulabilir. Kendi GPU altyapısını kurmak başlangıç yatırımı gerektirir ama uzun vadede maliyetli olmayabilir; özellikle yüksek hacimli ve sürekli kullanım senaryolarında self-host ekonomik açıdan kazançlı çıkar.

Dördüncü motivasyon özelleştirme ve fine-tune kontrolüdür. Modeli kurumun kendi verisiyle ince ayardan geçirmek, açık ağırlıklı modellerde tam kontrolle yapılabilir; kapalı modellerde bu süreç sağlayıcının izniyle ve sınırlı bir biçimde mümkündür. Beşinci motivasyon stratejik bağımsızlık: kurum, bir tedarikçinin fiyat politikalarına, kullanım koşullarına ya da iş kararlarına bağımlı olmadan kendi yapay zekâ kapasitesini sürdürebilir.

Bu beş motivasyon güçlüdür, ancak self-host kararı maliyetsiz değildir. Aşağıdaki bölümlerde bu maliyetin neye karşılık geldiğini ele alacağız.

Açık Ağırlıklı Model Manzarası

2026 itibarıyla açık ağırlıklı modeller sektörel düzeyde ciddi alternatifler haline geldi. Bir kurumun seçim yapacağı temel aile sayısı tek elin parmaklarını geçmiyor; ancak her ailenin içinde farklı boyut ve uzmanlık alanları var.

Meta Llama serisi, açık ağırlıklı model ekosisteminin amiral gemisidir. 3 ve 4 sürümleriyle çok dilli yetenekleri, kod yazma kapasitesi ve genel akıl yürütme açısından ticari modellere yaklaşan performans sergiler. Kurumsal kullanım için lisans kısıtlamaları görece esnek olsa da belirli koşullar vardır.

DeepSeek serisi, son dönemde özellikle muhakeme yeteneği ve verimlilik tarafıyla dikkat çekti. Çıkarım maliyeti açısından sektörde önemli bir referans noktası oldu; kurumların kapasite yatırımlarını verimlilik üzerinden hesaplamasına olanak tanıyor.

Mistral AI ailesi, özellikle Avrupa pazarında stratejik bir konum kazanmıştır. AB veri egemenliği vurgusunu önceleyen kurumlar için tercih edilen seçeneklerden biri. Qwen serisi, çok dilli yetenek ve özelleşmiş alt alanlarda güçlü; ancak Çin merkezli olması bazı kurumlarda jeopolitik kaygı doğurabiliyor.

Daha küçük model aileleri de var: Phi serisi (Microsoft) küçük boyut ve verimlilik odağıyla, Gemma (Google) çok dilli ve sade yapısıyla, StableLM ve diğer açık alternatifler farklı kullanım senaryoları için seçilebilir. Görüntü ve çoklu mod tarafında Llama Vision, DeepSeek-VL ve benzeri modeller kurumsal kullanım için olgunlaşıyor.

Seçim yapılırken üç faktör birlikte değerlendirilir: performans (kurumun kullanım senaryosunda akademik benchmark'lardan çok pratik test sonucu), lisans (kurumsal kullanım ve dağıtım açısından sınırlar) ve donanım gereksinimi (kurumun GPU kapasitesiyle ne kadar uyumlu).

Lisans Tarafı

Açık ağırlıklı modellerin "açık" olması her zaman "kısıtsız ticari kullanım" anlamına gelmez. Her ailenin kendi lisans çerçevesi vardır ve bu çerçeveler önemli ölçüde farklılaşır.

Llama lisansı, Meta tarafından belirli koşullarla sunulur; kullanım hakkı genellikle ticari kullanıma açık olmakla beraber, belirli aylık aktif kullanıcı eşiğinin üzerindeki büyük kuruluşlar için ek izin gerekir. Modelin türevlerinin dağıtılması ve fine-tune edilmiş versiyonların yayımlanması belirli koşullara bağlıdır.

DeepSeek lisansı ticari kullanıma açık olmakla beraber, bazı kullanım kısıtlamaları ve atıf yükümlülükleri içerir. Mistral'in açık ağırlıklı modelleri Apache 2.0 ya da benzeri esnek lisanslarla sunulurken ticari odaklı modelleri ayrı koşullar taşır. Qwen serisi belirli sürümlerde Apache 2.0 kullanmakla beraber bazı sürümleri kendi özel lisansıyla dağıtılır.

Bu farklılıklar pratikte iki noktada kritik hale gelir. Birincisi, modelin üretim ortamına alınması: lisans hükümleri kurumun modeli ne kapsamda kullanabileceğini belirler. İkincisi, türev model üretimi: kurum modeli kendi verisiyle fine-tune edip yeni bir model üretirse, bu yeni modelin nasıl dağıtılabileceği orijinal lisansa bağlıdır.

Hukuki uyum açısından her modelin lisans metni hukuk müşaviriyle birlikte değerlendirilmelidir. "Açık ağırlıklı" terimi popüler kullanımda olduğu kadar net değildir; pratikteki anlamı modelden modele değişir. Bir tablo ya da hızlı bir okuma yerine doğru kararın temeli, sözleşmesel bir analizdir.

Mimari Kararlar

Self-host kararı verildikten sonra mimari tasarım birkaç temel soru etrafında şekillenir.

Birinci soru donanımdır. Modelin boyutuna ve kullanım hacmine göre tek bir GPU sunucusundan onlarca GPU içeren bir kümeye kadar farklı seçenekler değerlendirilir. Çıkarım için gerekli VRAM, eğitim için gerekli kapasiteden çok daha düşüktür ama hala önemli yatırım gerektirir. Yedeklilik, soğutma altyapısı ve güç kaynağı planlaması da bu sorunun bileşenleridir.

İkinci soru çıkarım altyapısı yazılımıdır. vLLM, Text Generation Inference, Ollama, llama.cpp gibi farklı seçenekler farklı kullanım senaryolarına uygundur. Performans tarafında her birinin kendi avantajları vardır; kurum trafik yoğunluğuna, beklenen yanıt süresine ve karmaşıklık seviyesine göre seçim yapar.

Üçüncü soru API katmanıdır. Çıkarım altyapısının önüne yerleşen API katmanı; kimlik doğrulama, yetkilendirme, oran sınırlandırması, log alma ve guardrail entegrasyonu görevlerini üstlenir. OpenAI uyumlu API'ler sunan ara katmanlar (LiteLLM, Helicone benzeri) mevcut uygulama kodunun değişmeden çalışmasını sağlar.

Dördüncü soru RAG ve agent altyapısıdır. Kurum yapay zekâyı yalnızca soru-cevap için değil, kurumsal bilgi tabanıyla beslenen bir asistan ya da agent olarak kullanacaksa, vektör veritabanı, embedding modeli ve orkestratör katmanları da self-host edilebilir. Bu durumda mimari ayrı bir karmaşıklık derecesine geçer.

Beşinci soru çoklu bölge ve yedekliliktir. Tek bir veri merkezindeki başarısızlık modelin çalışmasını durdurursa, kurum operasyonu da etkilenir. Çoklu bölge yedekliliği yüksek maliyet getirir ama kritik kullanım senaryolarında gereklidir.

İzolasyon ve Erişim

Self-host modellerin güvenlik tarafının en önemli noktası izolasyondur. Bulut sağlayıcısı bu işi sizin için otomatik yaparken, kendi altyapınızda her şey sizin sorumluluğunuzdadır.

Birinci izolasyon katmanı ağ düzeyindedir. Çıkarım altyapısı doğrudan internete açık olmamalı; özel bir ağ segmentinde yer almalı, API katmanı üzerinden erişim kontrol edilmelidir. Üretim, geliştirme ve test ortamları ayrı segmentlerde tutulmalı; ortamlar arası geçiş sıkı yetkilendirmeyle yapılmalıdır.

İkinci izolasyon tenant düzeyindedir. Aynı model birden çok iş birimine ya da uygulamaya hizmet veriyorsa, her tenant'ın prompt ve cevap akışı diğerlerinden izole olmalıdır. Aynı GPU üzerinde paralel çalışan farklı tenant'ların hafıza sınırı sağlam belirlenmelidir; çıkarım altyapısı bu izolasyonu otomatik sağlasa bile bağımsız doğrulama önemlidir.

Üçüncü izolasyon veri akışı düzeyindedir. Hangi kullanıcının hangi prompta erişebileceği, hangi kullanıcının hangi cevabı görebileceği API katmanında uygulanır. Bu yetkilendirme kullanıcı kimliğine, role ve mümkünse istek bağlamına bağlı olmalıdır. Sistem promptu sızıntısı, başka tenant'ların verisinin görünmesi gibi senaryolar bu katmanın boşluklarında ortaya çıkar.

Dördüncü izolasyon operasyonel erişimdir. Modelin çalıştığı sunuculara hangi sistem yöneticilerinin erişebileceği, hangi koşullarda erişim açılacağı ve her erişimin nasıl kayıt altına alınacağı disiplinli yönetilmelidir. Bir sistem yöneticisinin GPU sunucusuna doğrudan SSH erişimi, model ağırlıklarını çalmaktan eğitim verisini değiştirmeye kadar geniş bir tehdit yüzeyi açar.

Operasyonel Disiplin

Self-host yapay zekâ altyapısı klasik veri merkezi operasyonu kadar disiplin ister; üstelik birkaç ek başlık daha vardır.

Birinci başlık model güncelleme yönetimidir. Yeni bir model sürümü çıktığında bu sürümün kuruma alınması, mevcut sürümle paralel çalıştırılması, regresyon testlerinden geçirilmesi ve nihayet üretime alınması yazılı bir süreç olmalıdır. Eski sürümün ne zaman emekliye ayrılacağı planlanmalı; iki sürüm uzun süre paralel tutulmamalıdır.

İkincisi model ağırlığı bütünlüğüdür. İndirilen model dosyalarının kriptografik özet doğrulaması yapılmalı; resmî kaynaktan geldiğine dair imzaları kontrol edilmelidir. Bir sonraki yazıda daha ayrıntılı ele alacağımız HuggingFace tedarik zinciri başlığı bu konunun pratiğine değiniyor.

Üçüncüsü kaynak izlemedir. GPU kullanım yoğunluğu, sıcaklık, bellek tüketimi, gecikme süreleri ve maliyet metrikleri sürekli izlenmelidir. Anormal kalıplar (örneğin bir tenant'ın aniden 10 kat fazla token tüketmesi) hem güvenlik hem maliyet açısından erken uyarı sinyalidir.

Dördüncüsü yedekleme ve felaket kurtarma: model ağırlıkları, yapılandırma dosyaları, kullanıcı oturum verisi ve denetim kayıtları düzenli yedeklenmelidir. Bir felaket durumunda hizmetin ne kadar sürede geri yükleneceği taahhüdü tanımlanmalıdır.

Beşincisi güvenlik yaması ve zafiyet yönetimidir. Çıkarım altyapısı, GPU sürücüleri, container runtime'ları ve işletim sistemi düzenli olarak güncel tutulmalıdır. Bilinen zafiyetlerin uzun süre yamasız kalması self-host'un en büyük zaaflarından biridir.

Altıncısı operasyonel disiplin: yapılandırma değişiklikleri, model yapılandırma güncellemeleri, sistem promptu değişiklikleri sürüm kontrolü altında olmalı; her değişiklik gözden geçirme akışından geçmelidir. "Acil ihtiyaç vardı, doğrudan üretime baktım" yaklaşımı uzun vadede en pahalı disiplinsizliktir.

Sık Yapılan Hatalar

Açık ağırlıklı model self-host kararı veren kurumların düştüğü tipik tuzakların başında "buluttan ucuza geçeceğiz, sonra düşünürüz" yaklaşımı gelir. Self-host'un toplam sahip olma maliyeti GPU yatırımı, operasyonel maliyetler, güvenlik mühendisliği, izleme ve yedeklilik altyapısıyla birlikte hesaplandığında, çoğu zaman beklenenden yüksek çıkar. Karar, gerçek maliyet analizi üzerine kurulmalıdır.

İkinci klasik hata lisans okumadan üretime almaktır. Açık ağırlıklı modellerin lisansları aile bazında farklılaşır; üretime alındıktan sonra fark edilen bir lisans çakışması yeniden mimari değişiklik gerektirir.

Üçüncü tuzak izolasyonu yetersiz bırakmaktır. Self-host modelinin "bulut sağlayıcısı kadar güvenli" olabilmesi için sıkı izolasyon, yetkilendirme ve kayıt altyapısı kurulmalıdır. Bu altyapıyı kurmadan self-host'a geçen kurumlar veri egemenliği kazanırken güvenlik tarafında geriye düşebilir.

Dördüncüsü model güncellemesini takip etmemektir. Yeni bir model sürümü çıktığında kuruma alınmıyorsa, kurum hem performans hem güvenlik açısından geride kalır; eski sürümün bilinen zaafları kuruma karşı kullanılabilir.

Son olarak operasyonel disiplini geliştirici tarafına bırakmak: self-host yapay zekâ altyapısı bir DevOps ya da MLOps sorumluluğuna indirgenemez; klasik SRE pratiklerinin yanına model risk yönetimi, lisans takibi, güvenlik mühendisliği ve sürüm denetimi gibi konular eklenir. Bu sorumluluk dağılımı baştan netleştirilmelidir.

Sonuç

Açık ağırlıklı modellerin kurumsal self-host kullanımı, veri egemenliği, gizli içerik güvenliği, maliyet kontrolü ve stratejik bağımsızlık gibi güçlü motivasyonlarla destekleniyor. Llama, DeepSeek, Mistral ve diğer model aileleri bu kararı somut bir alternatif haline getirdi. Karşılığında kurumun üstlendiği sorumluluk büyük: lisans uyumu, mimari karar, izolasyon ve operasyonel disiplin baştan profesyonelce kurulmalıdır.

Self-host kararı verilirken sorulması gereken temel soru "verim alabilir miyim?" değil "bu sorumlulukları sürdürülebilir biçimde üstlenebilir miyim?" olmalıdır. Cevap evetse, açık ağırlıklı modeller kurumun yapay zekâ olgunluğuna kalıcı bir tabana dönüşür. AltaySec olarak açık kaynak AI ekosistemine yatırım yapan Türk kurumları için self-host mimarisini, izolasyon tasarımını ve operasyonel disiplini birlikte ele alıyoruz. Bir sonraki yazıda model ağırlıklarının kaynağına yöneliyoruz: HuggingFace Model Hub Tedarik Zinciri Riskleri.