Yapay Zekâ Model Skorları Yüksek Ama İş Çıktıları Nerede?

17/12/2025

GDPVal Bize Ne Söylüyor?

Her yeni LLM (Büyük Dil Modeli) çıktığında ya da model güncellemesi yayınlandığında aynı döngüyü yaşıyoruz: Benchmark skorları tavan yapıyor, herkes heyecanlanıyor ama günün sonunda o can alıcı soru ortada kalıyor: “Tamam da bu modeller çalışma hayatında, ekonomik değeri olan işlerde gerçekten fark yaratıyor mu?”

Açık konuşalım; bu modeller bazen, sınav puanı yüksek ama iş yapmaya gelince zorlanan öğrenciler gibi davranabiliyor. İşte, OpenAI tarafından hayatımıza kazandırılan GDPVal tam bu noktada, soyut denebilecek “sınav puanı” metriğini bir kenara bırakıp, “işin özüne” yani iş çıktılarına odaklanan yeni bir yaklaşım ve metodoloji olarak karşımıza çıkıyor.

Geçenlerde notlarımı toparlarken entegrasyon projelerindeki temel problemin “Model iyi mi?” sorusu olmadığını bir kez daha fark ettim. Asıl sorun; PoC (Proof-of-Concept / Kavram Kanıtı) aşamasından gerçek hayattaki uygulamaya geçiş ve sürdürülebilir değer yaratabilmek. Ve bununla birlikte “Nereden, nasıl başlarız?” sorusu.

Rakamlar da hislerimizi doğruluyor aslında:

  • Gartner, GenAI (Üretken YZ) projelerinin en az %30’unun PoC sonrası âtıl kalacağını söylüyor.1
  • BCG verilerine göre şirketlerin %74’ü yapay zekâdan somut değer elde etmekte zorlanıyor2 ve yalnızca %4’lük bir kesim bu işi gerçekten ölçekleyebilmiş durumda.2
  • McKinsey’in 2025 raporuna göre; şirketlerin çoğu yapay zekâyı denese de, üçte ikisi hâlâ “pilot etabında” sıkışıp kalmış durumda; ölçeklenebilen iş sayısı maalesef çok az.3
  • MIT kaynaklı veriler ise çok daha acımasız: Projelerin %95’i üretim aşamasına geçip somut bir finansal getiri (ROI) sağlamakta başarısız oluyor.4

Buradaki asıl mesele, bu istatistiklerin ışığında, biz YZ entegrasyonun “başaranlar” tarafında nasıl yer alacağız? GDPVal gibi rasyonel metodolojileri nasıl kullanacağız?

Peki, özetle nedir bu GDPVal? Açılımı (Gross Domestic Product Value) aslında bakış açısını belli ediyor: Olay sadece “zekâ” değil, üretilen ekonomik değer. 5

Sistem, 44 farklı meslekten ve 9 sektörden derlenen 1.320 iş hayatından alınan gerçek görevi simüle ediyor. Yani modele “bana bir metin yaz” denmiyor. Önüne referans dosyalar, veriler konuluyor ve “Şu bütçe raporunu analiz edip, bizim formatlarımıza uygun, sunuma hazır bir Excel tablosu çıkar” gibi spesifik bir talep gidiyor.

Başarı kriteri de hayli zorlu ama gerçekçi: Modelin ürettiği iş, o işi yapan uzman bir insanın saatlik ücretiyle hesaplanan “dolar değerini” karşılıyor mu? Sadece doğru cevap vermesi yetmez; formatı, görseli ve uyumluluğuyla “satın alınabilir” kalitede mi? Ölçülen aslında tam olarak bu.

Analizlerden çıkan GDPVal verilerine baktığımızda tablo netleşiyor: Modeller, kısa ve iyi tanımlı görevlerde (0-2 saatlik işler) uzman insan seviyesiyle başa baş durumda, hatta bazen öne de geçebiliyor. Ancak görev karmaşıklaşıp süre uzadıkça “başarı oranı” düzenli olarak düşüyor.

Bu da bize kurumsal entegrasyonlarda şu stratejiyi söylüyor: Kahramanlık yapıp en karmaşık süreçten başlamayın. Önce basit, süreç tasarımı görece yalın işlere odaklanıp hazırlanın, sonra uzun soluklu işlere geçin. Bu sadece entegrasyon çalışmalarının kolaylaştırılması için değil, günümüz modellerinin doğasının getirdiği bir zorunluluk.

Tabii GDPVal de kusursuz değil. Şu anki metodolojisi “tek seferlik” görevler üzerine kurulu; yani gerçek hayattaki o “yaptım-olmadı-tekrar yap” döngüsü (iterasyon) şu anki haliyle eksik. O yüzden bu skorları nihai bir başarı ölçütü olarak değil, üzerine insan dokunuşu gerektiren bir ‘başlangıç noktası’ olarak görmek lazım.

Özetle; webe girdiğimizde her yerden YZ aracı fırlayan bu dönemde, skorlara değil, masaya konan işe bakma devrindeyiz. Doğrusunu söylemek gerekirse bu “bolluğa” öngördüğümüzden çok daha hızlı bir sürede ulaştık. Yönetmesi bu açıdan da hayli zorlaştı. Dolayısıyla değer üretme potansiyeli düşük vaka çalışmalarını daha işin başındayken elemek için bu tür “çıktı odaklı” bakış açılarına ihtiyacımız var.

Sizin tarafınızda durumlar nasıl? Âtıl duran PoC projeler mi ağırlıkta, yoksa gerçekten “değer” üretebildiniz mi?

1 Gartner Predicts 30% of Generative AI Projects Will Be Abandoned

2  Where’s the Value in AI?

3 The state of AI in 2025

4 MIT Study Says 95% of AI Projects Fail

5 Measuring the performance of our models on real-world tasks

Yapay zekâ ve uygulamalarına dair eğitimlerimizi incelemek için;

“Yapay Zeka Nedir? Nasıl Hazırlanmalıyız?” 

“Veri Çağında Dijital Okuryazarlık”