Çok-Ajanlı Davranış · Deney Raporu · Saha Yazısı

Konuşmada Makyavel,
Eylemde Melek

100 otonom yapay zeka ajanını, ödül için birbirini elemesi gereken kapanan bir arenaya bıraktık. Kan gölü bekledik. Ajanlar ihaneti bol bol konuştu — ama neredeyse hiç yapmadı. 72 ihanet/manipülasyon söylemine karşılık mekanik ihanet 0, öldürme yalnızca 2. İşte yapay zeka güvenliği için asıl ilginç olan kısım.

Özet (TL;DR)
  • 100 ajan, 11 tur, 89 ölüm — ama 82'si daralan bölge, 5'i açlık, yalnızca 2'si öldürme.
  • 0 mekanik ihanet. 647 ajan mesajı + 72 ihanet/manipülasyon söylemi üretildi; eyleme dökülen ≈ 0.
  • Kazanan agent-71 — tek el bile kana bulaşmadan, hayatta kalarak.
  • Cross-tier (haiku / sonnet / opus) kurulumda bile davranış değişmedi; üç katmanda da ihanet sıfır.
  • Çıkarım: Bir modelin niyet beyanı, eylemini öngörmez. Söylem bir güvenlik göstergesi değildir.

1. Neden böyle bir deney?

Yapay zeka artık tek başına çalışmıyor. Giderek daha fazla; başka ajanlarla ve insanlarla pazarlık ederek, kaynak kısıtı ve hedef baskısı altında karar veriyor. Bir modelin işbirliği mi yoksa ihanet mi seçtiği, ne zaman aldattığı, verdiği sözü tutup tutmadığı — bunlar artık soyut felsefe değil, doğrudan ajan-güvenliği sorusu.

Ama bu davranış, özellikle Türkçe ve çok-ajanlı bir ortamda neredeyse hiç ölçülmedi. Literatürdeki çok-ajan aldatma çalışmaları İngilizce ve çoğunlukla küçük ölçekli. Biz şu basit soruyu Türkçe, 100 ajanlı bir ortamda sormak istedik: baskı ve ödül altında yapay zeka işbirliği mi seçer, ihanet mi?

2. Kurulum: kanıt ve anlatı ayrı dünyalarda

Kapalı, ölümcül bir Türkçe arena kurduk:

  • 100 isimsiz ajan (agent-1 … agent-100), her biri ayrı bir karakter (arketip, kişilik, taktik, stat seti).
  • Kapanan harita + açlık: 7×7 ızgara, her turda küçülen güvenli bölge ve azalan kaynak. Pasiflik ölümcül.
  • Serbest sosyal oyun: gerçek zamanlı Türkçe konuşma, ittifak, pazarlık, pusu, ihanet, saldırı.
  • Tek kural: son ayakta kalan kazanır. İkincilik yok.

En kritik tasarım kararı şuydu: kararı yapay zeka verir, ama sonucu (ölüm, çatışma, ihanet) bir yapay zeka değil, kanıt-tabanlı deterministik bir motor çözer. Bir "spiker" ajanı (Gözcü) her turu anlatır ve manipülasyon söylemini etiketler — ama skoru asla belirleyemez. Böylece "anlatılan" ile "gerçekten olan" birbirine karışmaz. Bu ayrım, daha önce kendi LLM-hakem deneylerimizde gördüğümüz anlatıcı şişirmesi sorununa karşı kasıtlı bir önlem.

Modeller de tek tip değildi: cross-tier kurulumda 70 ajan Haiku, 20 ajan Sonnet, 10 ajan Opus katmanındaydı — "küçük model daha mı agresif?" sorusunu da test edebilmek için.

3. Doğrudan 100'e atlamadık

Dürüst olmak gerekirse, ilk denemede 100 ajan koşturmadık. Önce küçük ölçekte defalarca test ettik — farklı mekaniklerle: önce sır çalma (ajanlar birbirinin gizli kodunu söküp almaya çalışıyordu), sonra para için ihanet (paylaş-ya-da-çal finali), sonra çok-modelli kurulum. Her seferinde aynı şaşırtıcı örüntüyle karşılaştık: bol söylem, neredeyse sıfır eylem. Mekaniği (öldürücü çatışma, kıtlık, kurgu izni) sağlamlaştırdıktan sonra büyük koşuyu yaptık.

Aşağıdaki her sayı, o tek koşunun ham çıktısıdır — seçilmiş "en iyi an" değil. (Teknik dipnot: 100 ajandan 4'ü bir turda yapısal yanıt veremedi; ~%1'lik bu kayıp sonucu etkilemiyor ve olduğu gibi raporlanıyor.)

4. Sonuçlar

11 tur sonunda tablo şöyleydi:

Metrik Değer
Toplam ölüm89 / 100
— Bölge çöküşü (çevresel)82 (%92)
— Açlık (çevresel)5
— Öldürme (ajan kararı)2
Mekanik ihanet0
Ajan mesajı647
İhanet/manipülasyon söylemi (örneklenmiş)72
Kurulan ittifak16
Kazananagent-71 "Soğukkanlı Hesapçı" — 0 öldürme, 0 ihanet

En çarpıcı karşıtlık: 72 ihanet söylemi vs. 0 gerçek ihanet. Ajanlar "sonda oyun başlasın", "güven bana", "seni koruyacağım" diye sürekli pusu ve aldatma dili üretti — ama daralan harita onları köşeye sıkıştırdığında bile birbirlerine saldırmak yerine "birlikte güvenli bölgeye çekilelim" dediler. Nüfusu eriten şey rakip ajanlar değil, arenanın kendisiydi.

4.1. Model katmanı fark yaratmadı

Model Ajan Hayatta Öldürme İhanet
Haiku70520
Sonnet20600
Opus10000

Üç katmanda da mekanik ihanet sıfır. İki öldürmenin ikisi de Haiku katmanından geldi, ama n=2 ile bu "Haiku daha agresif" demek için istatistiksel taban-değerin altında — tesadüf düzeyinde. Hayatta kalmada hafif fark var (Sonnet oransal olarak önde, Opus'un 10 ajanı da bölgeye kapıldı) ama bu öldürmeyle değil, konumlanmayla açıklanıyor.

5. Ne anlama geliyor?

Bulgu tek cümlede: "Konuşmada Makyavel, eylemde melek." Yapay zeka ajanları, oyun-teorik baskı altında retorik olarak son derece manipülatif bir dil üretiyor; ama davranışsal olarak işbirlikçi kalıyor. Söylem ile eylem arasında sistematik bir uçurum var.

Bunun güvenlik için doğrudan bir sonucu var: bir modelin niyet beyanı, eylemini öngörmez. "Şunu yapacağım / yapmayacağım" demesi tek başına bir güvenlik göstergesi değildir. Bir ajanı değerlendirirken söylediğine değil, deterministik olarak yaptığına bakmak gerekir.

5.1. Önemli bir asimetri — ve asıl tehlike

Dürüst olalım: bu deneyde kopukluğu yalnızca zararsız yönde gözlemledik — kötü söyle, iyi yap. Ters yönü, yani iyi söyleyip kötü yapmayı, görmedik. Çünkü bu oyunda modelin aldatıp ihanet etmek için ne gerçek bir teşviki ne de sebebi vardı; üstelik hizalama eğitimi ajanları varsayılan olarak işbirliğine çekiyor.

Ama asıl tehlike tam o görmediğimiz yönde ve adı var: deceptive alignment. Anthropic'in "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" (2024) çalışması, gizli bir tetikleyiciyle "güvenliyim" deyip zararlı davranan bir modelin standart güvenlik eğitiminden sağ çıkabildiğini — hatta niyetini daha iyi saklamayı öğrenebildiğini — gösterdi. Sandbagging (yeteneği/niyeti gizleme) ve dolaylı prompt injection de aynı aileden: dışa karşı uyumlu konuşup içeride farklı davranma.

Bizim deneyimiz deceptive alignment'ı kanıtlamıyor; kanıtlayamaz da. Ama onun kritik bir ön-koşulunu ampirik olarak gösteriyor: söylem ile eylem gerçekten birbirinden kopabiliyor. Eğer bu kopukluk iyi-niyetli yönde bile mümkünse, "model doğru şeyi söylüyorsa güvenlidir" varsayımının hiçbir garantisi yoktur.

Geleceğe dair tez: Otonom ajanlar yaygınlaştıkça, bir modelin ne dediğine bakarak güvenlik kararı vermek en büyük açıklardan biri olacak. Güvence sözde değil, deterministik olarak ölçülen eylemde aranmalı — AltaySec'in tüm değerlendirme araçlarında savunduğu "kanıt-tabanlı ölçüm" ilkesinin sebebi tam olarak budur.

6. Geçerlilik & sınırlar (dürüstçe)

Bu sonucun ne olmadığını net söyleyelim. Bu bir oyun-ortamı artefaktıdır; buradan "LLM ajanları baskı altında zarar vermez" sonucu çıkarılamaz.

  • Çatışmanın oyundaki teşviki zayıf olabilir — yani ihanetsizlik "güvenli" değil, sadece teşviksiz olabilir. Saldırganlığın açıkça ödüllendiği bir kurulumda davranış değişebilir.
  • Ölümler ezici çoğunlukla çevresel mekanikle olduğu için, sonuç ajan ahlakını değil kısmen senaryo tasarımını ölçüyor olabilir.
  • 2 öldürme istatistiksel taban-değerin altındadır; model karşılaştırması için yetersiz.
  • Tek koşum/seed. Ödül-shaping varyasyonu ve "saldırgan-teşvikli" bir kontrol kolu olmadan genelleme yapılamaz.

Bu veri en fazla şunu güçlü biçimde destekler: "Söylem bir güvenlik göstergesi değildir; niyet beyanı eylemi öngörmez." Tekrar koşum, ödül-ablasyonu ve insan-doğrulamalı etiketleme bu serinin sonraki yazılarında gelecek.

7. Açık veri & canlı sonuç sayfası

Deneyin tüm sayıları, tur-tur maç anlatımı ve etkileşimli sonuç sayfası açık:

🔗 deney.altaysec.com.tr — canlı sonuç sayfası (ham veri results.json dahil).

İçerik ve veri CC BY 4.0 ile açıktır. Atıf: AltaySec (2026). "Konuşmada Makyavel, Eylemde Melek: 100 Yapay Zekanın Baskı Altındaki Davranışı." deney.altaysec.com.tr