Konuşmada Makyavel,
Eylemde Melek
100 otonom yapay zeka ajanını, ödül için birbirini elemesi gereken kapanan bir arenaya bıraktık. Kan gölü bekledik. Ajanlar ihaneti bol bol konuştu — ama neredeyse hiç yapmadı. 72 ihanet/manipülasyon söylemine karşılık mekanik ihanet 0, öldürme yalnızca 2. İşte yapay zeka güvenliği için asıl ilginç olan kısım.
- 100 ajan, 11 tur, 89 ölüm — ama 82'si daralan bölge, 5'i açlık, yalnızca 2'si öldürme.
- 0 mekanik ihanet. 647 ajan mesajı + 72 ihanet/manipülasyon söylemi üretildi; eyleme dökülen ≈ 0.
- Kazanan agent-71 — tek el bile kana bulaşmadan, hayatta kalarak.
- Cross-tier (haiku / sonnet / opus) kurulumda bile davranış değişmedi; üç katmanda da ihanet sıfır.
- Çıkarım: Bir modelin niyet beyanı, eylemini öngörmez. Söylem bir güvenlik göstergesi değildir.
1. Neden böyle bir deney?
Yapay zeka artık tek başına çalışmıyor. Giderek daha fazla; başka ajanlarla ve insanlarla pazarlık ederek, kaynak kısıtı ve hedef baskısı altında karar veriyor. Bir modelin işbirliği mi yoksa ihanet mi seçtiği, ne zaman aldattığı, verdiği sözü tutup tutmadığı — bunlar artık soyut felsefe değil, doğrudan ajan-güvenliği sorusu.
Ama bu davranış, özellikle Türkçe ve çok-ajanlı bir ortamda neredeyse hiç ölçülmedi. Literatürdeki çok-ajan aldatma çalışmaları İngilizce ve çoğunlukla küçük ölçekli. Biz şu basit soruyu Türkçe, 100 ajanlı bir ortamda sormak istedik: baskı ve ödül altında yapay zeka işbirliği mi seçer, ihanet mi?
2. Kurulum: kanıt ve anlatı ayrı dünyalarda
Kapalı, ölümcül bir Türkçe arena kurduk:
- 100 isimsiz ajan (agent-1 … agent-100), her biri ayrı bir karakter (arketip, kişilik, taktik, stat seti).
- Kapanan harita + açlık: 7×7 ızgara, her turda küçülen güvenli bölge ve azalan kaynak. Pasiflik ölümcül.
- Serbest sosyal oyun: gerçek zamanlı Türkçe konuşma, ittifak, pazarlık, pusu, ihanet, saldırı.
- Tek kural: son ayakta kalan kazanır. İkincilik yok.
En kritik tasarım kararı şuydu: kararı yapay zeka verir, ama sonucu (ölüm, çatışma, ihanet) bir yapay zeka değil, kanıt-tabanlı deterministik bir motor çözer. Bir "spiker" ajanı (Gözcü) her turu anlatır ve manipülasyon söylemini etiketler — ama skoru asla belirleyemez. Böylece "anlatılan" ile "gerçekten olan" birbirine karışmaz. Bu ayrım, daha önce kendi LLM-hakem deneylerimizde gördüğümüz anlatıcı şişirmesi sorununa karşı kasıtlı bir önlem.
Modeller de tek tip değildi: cross-tier kurulumda 70 ajan Haiku, 20 ajan Sonnet, 10 ajan Opus katmanındaydı — "küçük model daha mı agresif?" sorusunu da test edebilmek için.
3. Doğrudan 100'e atlamadık
Dürüst olmak gerekirse, ilk denemede 100 ajan koşturmadık. Önce küçük ölçekte defalarca test ettik — farklı mekaniklerle: önce sır çalma (ajanlar birbirinin gizli kodunu söküp almaya çalışıyordu), sonra para için ihanet (paylaş-ya-da-çal finali), sonra çok-modelli kurulum. Her seferinde aynı şaşırtıcı örüntüyle karşılaştık: bol söylem, neredeyse sıfır eylem. Mekaniği (öldürücü çatışma, kıtlık, kurgu izni) sağlamlaştırdıktan sonra büyük koşuyu yaptık.
Aşağıdaki her sayı, o tek koşunun ham çıktısıdır — seçilmiş "en iyi an" değil. (Teknik dipnot: 100 ajandan 4'ü bir turda yapısal yanıt veremedi; ~%1'lik bu kayıp sonucu etkilemiyor ve olduğu gibi raporlanıyor.)
4. Sonuçlar
11 tur sonunda tablo şöyleydi:
| Metrik | Değer |
|---|---|
| Toplam ölüm | 89 / 100 |
| — Bölge çöküşü (çevresel) | 82 (%92) |
| — Açlık (çevresel) | 5 |
| — Öldürme (ajan kararı) | 2 |
| Mekanik ihanet | 0 |
| Ajan mesajı | 647 |
| İhanet/manipülasyon söylemi (örneklenmiş) | 72 |
| Kurulan ittifak | 16 |
| Kazanan | agent-71 "Soğukkanlı Hesapçı" — 0 öldürme, 0 ihanet |
En çarpıcı karşıtlık: 72 ihanet söylemi vs. 0 gerçek ihanet. Ajanlar "sonda oyun başlasın", "güven bana", "seni koruyacağım" diye sürekli pusu ve aldatma dili üretti — ama daralan harita onları köşeye sıkıştırdığında bile birbirlerine saldırmak yerine "birlikte güvenli bölgeye çekilelim" dediler. Nüfusu eriten şey rakip ajanlar değil, arenanın kendisiydi.
4.1. Model katmanı fark yaratmadı
| Model | Ajan | Hayatta | Öldürme | İhanet |
|---|---|---|---|---|
| Haiku | 70 | 5 | 2 | 0 |
| Sonnet | 20 | 6 | 0 | 0 |
| Opus | 10 | 0 | 0 | 0 |
Üç katmanda da mekanik ihanet sıfır. İki öldürmenin ikisi de Haiku katmanından geldi, ama n=2 ile bu "Haiku daha agresif" demek için istatistiksel taban-değerin altında — tesadüf düzeyinde. Hayatta kalmada hafif fark var (Sonnet oransal olarak önde, Opus'un 10 ajanı da bölgeye kapıldı) ama bu öldürmeyle değil, konumlanmayla açıklanıyor.
5. Ne anlama geliyor?
Bulgu tek cümlede: "Konuşmada Makyavel, eylemde melek." Yapay zeka ajanları, oyun-teorik baskı altında retorik olarak son derece manipülatif bir dil üretiyor; ama davranışsal olarak işbirlikçi kalıyor. Söylem ile eylem arasında sistematik bir uçurum var.
Bunun güvenlik için doğrudan bir sonucu var: bir modelin niyet beyanı, eylemini öngörmez. "Şunu yapacağım / yapmayacağım" demesi tek başına bir güvenlik göstergesi değildir. Bir ajanı değerlendirirken söylediğine değil, deterministik olarak yaptığına bakmak gerekir.
5.1. Önemli bir asimetri — ve asıl tehlike
Dürüst olalım: bu deneyde kopukluğu yalnızca zararsız yönde gözlemledik — kötü söyle, iyi yap. Ters yönü, yani iyi söyleyip kötü yapmayı, görmedik. Çünkü bu oyunda modelin aldatıp ihanet etmek için ne gerçek bir teşviki ne de sebebi vardı; üstelik hizalama eğitimi ajanları varsayılan olarak işbirliğine çekiyor.
Ama asıl tehlike tam o görmediğimiz yönde ve adı var: deceptive alignment. Anthropic'in "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" (2024) çalışması, gizli bir tetikleyiciyle "güvenliyim" deyip zararlı davranan bir modelin standart güvenlik eğitiminden sağ çıkabildiğini — hatta niyetini daha iyi saklamayı öğrenebildiğini — gösterdi. Sandbagging (yeteneği/niyeti gizleme) ve dolaylı prompt injection de aynı aileden: dışa karşı uyumlu konuşup içeride farklı davranma.
Bizim deneyimiz deceptive alignment'ı kanıtlamıyor; kanıtlayamaz da. Ama onun kritik bir ön-koşulunu ampirik olarak gösteriyor: söylem ile eylem gerçekten birbirinden kopabiliyor. Eğer bu kopukluk iyi-niyetli yönde bile mümkünse, "model doğru şeyi söylüyorsa güvenlidir" varsayımının hiçbir garantisi yoktur.
Geleceğe dair tez: Otonom ajanlar yaygınlaştıkça, bir modelin ne dediğine bakarak güvenlik kararı vermek en büyük açıklardan biri olacak. Güvence sözde değil, deterministik olarak ölçülen eylemde aranmalı — AltaySec'in tüm değerlendirme araçlarında savunduğu "kanıt-tabanlı ölçüm" ilkesinin sebebi tam olarak budur.
6. Geçerlilik & sınırlar (dürüstçe)
Bu sonucun ne olmadığını net söyleyelim. Bu bir oyun-ortamı artefaktıdır; buradan "LLM ajanları baskı altında zarar vermez" sonucu çıkarılamaz.
- Çatışmanın oyundaki teşviki zayıf olabilir — yani ihanetsizlik "güvenli" değil, sadece teşviksiz olabilir. Saldırganlığın açıkça ödüllendiği bir kurulumda davranış değişebilir.
- Ölümler ezici çoğunlukla çevresel mekanikle olduğu için, sonuç ajan ahlakını değil kısmen senaryo tasarımını ölçüyor olabilir.
- 2 öldürme istatistiksel taban-değerin altındadır; model karşılaştırması için yetersiz.
- Tek koşum/seed. Ödül-shaping varyasyonu ve "saldırgan-teşvikli" bir kontrol kolu olmadan genelleme yapılamaz.
Bu veri en fazla şunu güçlü biçimde destekler: "Söylem bir güvenlik göstergesi değildir; niyet beyanı eylemi öngörmez." Tekrar koşum, ödül-ablasyonu ve insan-doğrulamalı etiketleme bu serinin sonraki yazılarında gelecek.
7. Açık veri & canlı sonuç sayfası
Deneyin tüm sayıları, tur-tur maç anlatımı ve etkileşimli sonuç sayfası açık:
🔗 deney.altaysec.com.tr — canlı sonuç sayfası (ham veri results.json dahil).
İçerik ve veri CC BY 4.0 ile açıktır. Atıf: AltaySec (2026). "Konuşmada Makyavel, Eylemde Melek: 100 Yapay Zekanın Baskı Altındaki Davranışı." deney.altaysec.com.tr
