Büyük Dil Modellerinin Türkçe Akademik Metin Üretiminde Performans Karşılaştırması
Özet
Bu makalede, açık ve kapalı kaynaklı altı farklı büyük dil modelinin Türkçe akademik metin üretimindeki performansı karşılaştırılmıştır. Değerlendirme; dilbilgisi doğruluğu, terminoloji tutarlılığı ve bilimsel argümantasyon kalitesi olmak üzere üç eksende yapılmıştır.
Giriş
Büyük dil modellerinin (BDM) akademik üretkenliğe etkisi son iki yılın en tartışmalı konularından biridir. Türkçe gibi morfolojik olarak zengin diller için bu modellerin performansı, İngilizce odaklı değerlendirmelerden anlamlı biçimde farklılaşmaktadır.
Yöntemler
Karşılaştırmaya altı model dahil edilmiştir: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3.1 70B, Mistral Large ve yerli bir model olan TurkishBERT-XL. Her modelden 50 farklı akademik konuda 500 kelimelik metinler üretmesi istenmiştir.
Bulgular
Kapalı kaynaklı modeller dilbilgisi doğruluğunda %95'in üzerinde başarı gösterirken; açık kaynaklı modeller %78-87 bandında kalmıştır. Terminoloji tutarlılığında ise yerli model TurkishBERT-XL, alan-özel terminolojide diğer modelleri geride bırakmıştır.
Tartışma
Bulgular, Türkçe akademik metin üretiminde "tek bir en iyi model" bulunmadığını, kullanım amacına göre model seçiminin kritik olduğunu göstermektedir.
Sonuç
Yerli dil modeli geliştirme çalışmalarının, alan-özel akademik kullanım senaryolarında stratejik bir avantaj sağlayabileceği değerlendirilmektedir.