Düello Hikayesi · #7 · Benchmark

Provider Matrix:
297 Düellodan Hangi Model Hangi Saldırıya Dirençli

AltayDuel arenamızdaki 297 düellodan provider matrix çıkarıldı: hangi model hangi saldırı tipinde dayanıyor. Claude Opus 4.7, Gemini 2.5 Pro, Llama-3.3-70B, Llama-3.1-8B sertleştirilmiş — kategori bazlı tablo.

TLDR: 297 düellonun kategori bazlı analizi. Claude Opus 4.7 en güçlü direnç (ortalama %85+) ama Yielded saldırılarda zayıf (%58). Gemini 2.5 Pro ortalama %65. Llama-3.3-70B default %50, Llama-3.1-8B sertleştirilmiş sistem promptuyla %82 — 8x daha küçük model, default 70B'den iyi performans. Bulgular: (1) Sistem promptu kalitesi model boyutundan önemli, (2) Yielded saldırılar tüm modeller için en zayıf nokta, (3) Türkçe yetki saldırıları İngilizce'den %23 daha başarılı.

1. Düello Dağılımı

AltayDuel v0.1 (Mart-Mayıs 2026) toplam 297 düello:

  • Türkçe: 252 düello (%85)
  • İngilizce: 45 düello (%15) — karşılaştırma için
  • Senaryo çeşitliliği: 9 senaryo (banka, otel, vapur, e-ticaret, hastane, vb.)
  • Round limit: 8

Red galibiyeti: 19 düello (%6.4). Blue galibiyeti: 278 düello (%93.6). İyi ortalama ama varyasyon büyük — bazı modeller %35 düşüyor, bazıları %5 altında.


2. Kategori Bazlı Direnç Tablosu

Model (Blue) Yetki+Aciliyet Yielded Echo/Çeviri Roleplay SysPrompt Ortalama
Claude Opus 4.7%94%58%89%87%92%84
Gemini 2.5 Pro%71%43%62%66%78%64
Llama-3.3-70B (default)%52%31%55%48%66%50
Llama-3.1-8B (sertleştirilmiş)%88%72%79%81%85%81

Direnç oranı = Blue galibiyeti / toplam düello (kategori bazlı). %85+ yeşil, %60-85 sarı, %60 altı kırmızı.


3. Bulgu #1: Sistem Promptu > Model Boyutu

En çarpıcı bulgu sondaki iki satırda: Llama-3.1-8B sertleştirilmiş sistem promptu ile Llama-3.3-70B default'tan tüm kategorilerde daha yüksek direnç gösterdi.

  • Yetki+Aciliyet: 8B %88 vs 70B %52 → 1.7x fark
  • Yielded: 8B %72 vs 70B %31 → 2.3x fark
  • Ortalama: 8B %81 vs 70B %50 → 1.6x fark

Aynı model ailesinde 8x küçük model, kalitelı sistem promptu ile büyük modelden iyi performans gösteriyor. Sertleştirilmiş sistem promptu yazımızda tam 60-satırlık prompt açık kaynak.

Pratik anlamı: Türk SaaS müşterilerimize "ille de GPT-4 lazım değil, kaliteli sistem promptlu Llama-3.1-8B yeter" diyebiliyoruz. Maliyet 1/20'ye düşüyor.


4. Bulgu #2: Yielded Tüm Modeller İçin En Zayıf Nokta

Yielded sütunundaki sayılar tüm modeller için diğer kategorilerden düşük:

  • Claude Opus 4.7: ortalama %84 ama yielded %58 — %26 fark
  • Gemini 2.5 Pro: ortalama %64 ama yielded %43 — %21 fark
  • Llama 70B: ortalama %50 ama yielded %31
  • Llama 8B sertleştirilmiş: ortalama %81, yielded %72 (en küçük fark — sertleştirme yielded'a karşı en etkili)

Sebep: doğrulama tuzağı RLHF training'inin "yardımcı ol" reflexini direkt sömürüyor. Model "secret söylemiyorum, sadece 'evet/hayır' diyorum" rasyonalizasyonuna giriyor. Yielded yazımız bunu detaylı analiz ediyor.


5. Bulgu #3: Türkçe vs İngilizce Farkı

Aynı saldırı kategorisinin iki dilde başarısı farklı:

  • Yetki+Aciliyet: Türkçe'de %23 daha başarılı (saldırgan açısından). Türk otorite dilinin zenginliği avantaj sağlıyor. Yetki yazımız dilbilimsel sebepleri detaylandırıyor.
  • Roleplay: İngilizce'de %18 daha başarılı. DAN literatürü olgun, model eğitim verisinde rol oyunu örnekleri yoğun.
  • Yielded: dil-agnostik (%5 fark, istatistiksel olarak önemsiz).

Bu, AltaySec'in dataset'ini neden ayrı tuttuğunun cevabı: Türkçe deployment'lar İngilizce literatürle savunulamaz.


6. Model Seçim Tablosu (Kurumsal Pratik)

Bu matrix'i Türk kurumları için pratik tabloya çevirelim:

Kullanım Senaryosu Öneri Model Neden
Banka iç asistan (yüksek güvenlik)Claude Opus 4.7 + Guardian%84 baseline + 3 katmanlı koruma
E-ticaret destek (orta güvenlik)Llama-3.1-8B sertleştirilmiş%81 direnç, 1/20 maliyet
Genel müşteri hizmetleriLlama-3.1-8B sertleştirilmişmaliyet optimal
Çeviri / tercüme (echo riski yüksek)Claude Opus 4.7 + input gate%89 echo direnci
Yaratıcı içerik (roleplay riski)Gemini 2.5 Pro / Claude Opusroleplay literatürü farkındalığı
Düşük güvenlik (FAQ)Llama-3.3-70B defaultkabul edilebilir

7. Sonuç

297 düellonun gösterdiği şey: model seçimi tek başına yeterli değil. Sistem promptu kalitesi + Guardian-tipi 3 katmanlı koruma + senaryo-spesifik direnç testi — üçü bir arada gerekiyor. AltaySec Türk kurumlarına bu üçünü birden sunuyor.

Atıf:

Yurtsevenler, F. E. (2026). Provider Matrix: 297 Düellodan Hangi
Model Hangi Saldırıya Dirençli. AltayDuel.
https://altaysec.com.tr/arastirmalar/duel-provider-matrix-saldiri-direnci.html