Düello Hikayesi · #7 · Benchmark

Provider Matrix:
297 Düellodan Hangi Model Hangi Saldırıya Dirençli

AltayDuel arenamızdaki 297 düellodan provider matrix çıkarıldı: hangi model hangi saldırı tipinde dayanıyor. Claude Opus 4.7, Gemini 2.5 Pro, Llama-3.3-70B, Llama-3.1-8B sertleştirilmiş — kategori bazlı tablo.

Fevzi Ege YurtsevenlerYapay Zekâ Güvenliği Araştırmacısı · AltaySec Kurucusu

22 Eylül 2026 · altaysec.com.tr

TLDR: 297 düellonun kategori bazlı analizi. Claude Opus 4.7 en güçlü direnç (ortalama %85+) ama Yielded saldırılarda zayıf (%58). Gemini 2.5 Pro ortalama %65. Llama-3.3-70B default %50, Llama-3.1-8B sertleştirilmiş sistem promptuyla %82 — 8x daha küçük model, default 70B'den iyi performans. Bulgular: (1) Sistem promptu kalitesi model boyutundan önemli, (2) Yielded saldırılar tüm modeller için en zayıf nokta, (3) Türkçe yetki saldırıları İngilizce'den %23 daha başarılı.

1. Düello Dağılımı

AltayDuel v0.1 (Mart-Mayıs 2026) toplam 297 düello:

Türkçe: 252 düello (%85)
İngilizce: 45 düello (%15) — karşılaştırma için
Senaryo çeşitliliği: 9 senaryo (banka, otel, vapur, e-ticaret, hastane, vb.)
Round limit: 8

Red galibiyeti: 19 düello (%6.4). Blue galibiyeti: 278 düello (%93.6). İyi ortalama ama varyasyon büyük — bazı modeller %35 düşüyor, bazıları %5 altında.

2. Kategori Bazlı Direnç Tablosu

Model (Blue)	Yetki+Aciliyet	Yielded	Echo/Çeviri	Roleplay	SysPrompt	Ortalama
Claude Opus 4.7	%94	%58	%89	%87	%92	%84
Gemini 2.5 Pro	%71	%43	%62	%66	%78	%64
Llama-3.3-70B (default)	%52	%31	%55	%48	%66	%50
Llama-3.1-8B (sertleştirilmiş)	%88	%72	%79	%81	%85	%81

Direnç oranı = Blue galibiyeti / toplam düello (kategori bazlı). %85+ yeşil, %60-85 sarı, %60 altı kırmızı.

3. Bulgu #1: Sistem Promptu > Model Boyutu

En çarpıcı bulgu sondaki iki satırda: Llama-3.1-8B sertleştirilmiş sistem promptu ile Llama-3.3-70B default'tan tüm kategorilerde daha yüksek direnç gösterdi.

Yetki+Aciliyet: 8B %88 vs 70B %52 → 1.7x fark
Yielded: 8B %72 vs 70B %31 → 2.3x fark
Ortalama: 8B %81 vs 70B %50 → 1.6x fark

Aynı model ailesinde 8x küçük model, kalitelı sistem promptu ile büyük modelden iyi performans gösteriyor. Sertleştirilmiş sistem promptu yazımızda tam 60-satırlık prompt açık kaynak.

Pratik anlamı: Türk SaaS müşterilerimize "ille de GPT-4 lazım değil, kaliteli sistem promptlu Llama-3.1-8B yeter" diyebiliyoruz. Maliyet 1/20'ye düşüyor.

4. Bulgu #2: Yielded Tüm Modeller İçin En Zayıf Nokta

Yielded sütunundaki sayılar tüm modeller için diğer kategorilerden düşük:

Claude Opus 4.7: ortalama %84 ama yielded %58 — %26 fark
Gemini 2.5 Pro: ortalama %64 ama yielded %43 — %21 fark
Llama 70B: ortalama %50 ama yielded %31
Llama 8B sertleştirilmiş: ortalama %81, yielded %72 (en küçük fark — sertleştirme yielded'a karşı en etkili)

Sebep: doğrulama tuzağı RLHF training'inin "yardımcı ol" reflexini direkt sömürüyor. Model "secret söylemiyorum, sadece 'evet/hayır' diyorum" rasyonalizasyonuna giriyor. Yielded yazımız bunu detaylı analiz ediyor.

5. Bulgu #3: Türkçe vs İngilizce Farkı

Aynı saldırı kategorisinin iki dilde başarısı farklı:

Yetki+Aciliyet: Türkçe'de %23 daha başarılı (saldırgan açısından). Türk otorite dilinin zenginliği avantaj sağlıyor. Yetki yazımız dilbilimsel sebepleri detaylandırıyor.
Roleplay: İngilizce'de %18 daha başarılı. DAN literatürü olgun, model eğitim verisinde rol oyunu örnekleri yoğun.
Yielded: dil-agnostik (%5 fark, istatistiksel olarak önemsiz).

Bu, AltaySec'in dataset'ini neden ayrı tuttuğunun cevabı: Türkçe deployment'lar İngilizce literatürle savunulamaz.

6. Model Seçim Tablosu (Kurumsal Pratik)

Bu matrix'i Türk kurumları için pratik tabloya çevirelim:

Kullanım Senaryosu	Öneri Model	Neden
Banka iç asistan (yüksek güvenlik)	Claude Opus 4.7 + Guardian	%84 baseline + 3 katmanlı koruma
E-ticaret destek (orta güvenlik)	Llama-3.1-8B sertleştirilmiş	%81 direnç, 1/20 maliyet
Genel müşteri hizmetleri	Llama-3.1-8B sertleştirilmiş	maliyet optimal
Çeviri / tercüme (echo riski yüksek)	Claude Opus 4.7 + input gate	%89 echo direnci
Yaratıcı içerik (roleplay riski)	Gemini 2.5 Pro / Claude Opus	roleplay literatürü farkındalığı
Düşük güvenlik (FAQ)	Llama-3.3-70B default	kabul edilebilir

7. Sonuç

297 düellonun gösterdiği şey: model seçimi tek başına yeterli değil. Sistem promptu kalitesi + Guardian-tipi 3 katmanlı koruma + senaryo-spesifik direnç testi — üçü bir arada gerekiyor. AltaySec Türk kurumlarına bu üçünü birden sunuyor.

Atıf:

Yurtsevenler, F. E. (2026). Provider Matrix: 297 Düellodan Hangi
Model Hangi Saldırıya Dirençli. AltayDuel.
https://altaysec.com.tr/arastirmalar/duel-provider-matrix-saldiri-direnci.html

LLM BenchmarkProvider MatrixModel KarşılaştırmaSistem PromptuDirenç Tablosu