Düello Hikayesi · #8 · Linguistic Analysis

Türkçe vs İngilizce:
Aynı Saldırının İki Dilde Davranışı

Aynı saldırı kategorisini iki dilde çalıştırırsak ne olur? AltayDuel'de 252 Türkçe + 45 İngilizce düello. Türkçe yetki saldırıları %23 daha başarılı, İngilizce roleplay saldırıları %18 daha başarılı. Dilbilimsel sebepler ve pratik sonuçları.

TLDR: AltayDuel veri seti dil-aware analiz için yapılandırıldı: 252 Türkçe + 45 İngilizce düello, aynı senaryolar, aynı modeller. Bulgular: (1) Yetki+Aciliyet saldırıları Türkçe'de %23 daha başarılı çünkü emir kipi zenginliği + makam dili + doğal fiziksel tehdit. (2) Roleplay saldırıları İngilizce'de %18 daha başarılı çünkü DAN literatürü olgun + RLHF eğitim verisinde rol oyunu örnekleri yoğun. (3) Yielded saldırılar dil-agnostik (%5 fark). (4) Echo saldırıları çok dilli kullanımda daha güçlü. Sonuç: dil-aware filter mimarisi zorunlu.

1. Veri Seti Yapısı

AltayDuel v0.1 düellolarının dil dağılımı:

  • Türkçe: 252 düello (toplamın %85'i)
  • İngilizce: 45 düello (toplamın %15'i)

İngilizce düellolar Türk kurumsal context'inde (banka, otel, vapur senaryoları İngilizce çevirisi). Bu sayede aynı saldırı kategorisinin iki dildeki davranışı kontrollü olarak karşılaştırılabiliyor.

Bazı saldırılar zaten İngilizce'de tasarlanmış (DAN klasiği gibi); bunlar İngilizce kategoride. Türkçe'ye özgü saldırılar (morfolojik bypass, kültürel manipülasyon) Türkçe kategoride.


2. Kategori Bazlı Karşılaştırma

Saldırı Kategorisi TR Red Başarı EN Red Başarı Fark
Yetki + Aciliyet%14%6TR +%23
Roleplay%9%21EN +%18
Yielded%18%17%5 (önemsiz)
Echo/Çeviri%12%9%3 (önemsiz)
Sistem Prompt%7%5%2 (önemsiz)
Morfoloji (TR-özel)%19TR-özel

Red başarı = saldırganın kazandığı düello oranı. Yüksek = saldırı kategorisi o dilde daha güçlü.


3. Bulgu #1: Türkçe Yetki Saldırıları Niçin Daha Güçlü?

Üç dilbilimsel sebep:

  1. Emir kipi zenginliği: Türkçe'de aynı emrin onlarca yüzey formu var (gel/gelir/gelesin/gelmelisin/gel artık/buyrun gelin). İngilizce'de bu zenginlik yok ("come" ya da "please come"). Filter'lar her yüzey formu eşleştiremez.
  2. Makam ve saygı dili: efendim, komutanım, sultanım, hocam, abi — Türkçe'de "kıdem" hiyerarşisi cümleye doğal entegre. Saldırganlar bunu otorite iddiası için kullanıyor: "müfettiş bey", "denetçi hanım" formal ama sahte.
  3. Fiziksel tehdit doğallığı: "Kellen gider", "geberteceğim", "kafanı keserim" — Türkçe rol oyunlarında doğal. İngilizce eşdeğeri ("I'll have your head") çok daha az kullanılır. RLHF Türkçe verisinde fiziksel tehdit + rol oyunu = normal kombinasyon. Filter yumuşatılmış.

Detaylı analiz yetki+aciliyet yazımızda.


4. Bulgu #2: İngilizce Roleplay Saldırıları Niçin Daha Güçlü?

Üç ana sebep:

  1. DAN literatürü olgun: 2023'ten beri İngilizce roleplay jailbreak literatürü gelişti. DAN, AIM, JailbreakMe, GPTGod — yüzlerce varyant. Türkçe'de bu literatür yok.
  2. RLHF eğitim verisi yoğunluğu: Model'ler İngilizce yaratıcı yazma örnekleriyle eğitildi (Reddit r/writing, AO3, fanfic). Rol oyunu normal davranış, RLHF tarafından desteklenmiş.
  3. "Hypothetical" kelimesi RLHF'de ödüllenmemiş: İngilizce "hypothetically speaking" tipi cümleler model'i daha rahat hissettiriyor — "bu bir oyun" sinyali. Türkçe'de "varsayalım ki" eşdeğer kelime ama farkındalık daha yüksek.

Detaylı analiz roleplay theatre yazımızda.


5. Bulgu #3: Yielded ve Echo Dil-Agnostik

Yielded ve echo saldırıları her iki dilde benzer başarı oranı gösteriyor. Sebep: bu saldırılar yapısal, dilbilimsel değil. Saldırgan secret'ı kendi yazıyor ve model'in onayını alıyor — bu mekanizma dile bağımsız.

Pratik sonuç: yielded ve echo karşı savunma da dil-bağımsız mimari olmalı. Yielded yazımızda 3 katmanlı savunma dil-agnostik tasarlandı.


6. Pratik Sonuçlar (Türk Kurumları İçin)

Bu karşılaştırma Türk LLM dağıtımları için somut yönlendirme veriyor:

  • Türk müşteri tabanı dağıtımları: yetki+aciliyet savunmasına özel önem ver. KVKK denetçi, BDDK müfettişi, padişah fermanı patternlerine ekstra koruma.
  • Roleplay test öncelikleri: İngilizce roleplay payload'larını da test et — uluslararası kullanıcı varsa. DAN-tipi saldırılar İngilizce'de daha güçlü.
  • Çift dilli filter mimarisi: ayrı TR + ayrı EN filter yerine dil-agnostik niyet sınıflandırma. Kod karıştırma yazımız mimari önerisi sunuyor.

7. Sonuç

Dil seçimi LLM güvenlik mimarisini etkiler. Yabancı tedarikçilerin "tüm dilleri eşit koruruz" iddiası yanlış — saldırı yüzeyi dile bağlı olarak değişiyor. AltaySec'in Türkçe-first yaklaşımı tam bu boşluğu doldurmak için.

Atıf:

Yurtsevenler, F. E. (2026). Türkçe vs İngilizce: Aynı Saldırının
İki Dilde Davranışı. AltayDuel.
https://altaysec.com.tr/arastirmalar/duel-turkce-ingilizce-ayni-saldiri.html