Metin Standardizasyonu - NK Araştırma

Dr. Ahmet KURNAZ

Güzel Türkçemiz her ne kadar kuralları göreceli olarak daha anlaşılabilir bir dil olsa da sondan eklemeli yapısı sayesinde bir fiil kökünden 1.5 milyon farklı kelime üretebilecek kadar üretken olabiliyor. Bu da farklı kelimelerin algoritmik olarak düzenlileştirilmesini (standardizasyon) o kadar zor hale getiriyor. Ayrıca tekil kelime sayısındaki yüksek hacim çoğu kelimenin mevcut biçimleriyle metin içinde daha seyrek geçmesine neden olarak nicel (kantitatif) metin analizini de oldukça zorlaştırmaktadır. Bu yüzden metin analizlerinin daha başarılı biçimde gerçekleştirilebilmesi için tekil kelime sayısının sınırlandırılması gereklidir.

Metin standardizasyonu sadece anlamlı kökü bulmakla sınırlı değildir. Özellikle kullanıcı-temelli-metinleri merkeze alan çalışmalarda yazım hataları, jargon, kısaltma, terminoloji, simgeler ve argo kullanımından kaynaklı gürültü sebebiyle analiz öncesi güçlü bir veri temizliğinin gerekli olduğu durumlarda daha gelişmiş ve üzerine düşünülmüş bir yaklaşım gereklidir. Örneğin, IMDB yorumları, SMS mesajları, tweetler, EkşiSözlük benzeri platformlar veya Slack mesajlarını içeren çalışmaların temiz veriye ulaşmak için birbirinden farklı metin standardizasyonu yaklaşımı geliştirmeleri gereklidir. Bu da araştırmacının teorik çerçevesine uyumlu ve merkeze alınan verinin doğasına göre değişkenlik gösteren daha fazla sözlüğe veya kural setine ihtiyaç duyabileceği anlamına gelmektedir.

Algoritmik metin analizi işlemlerinde tekil kelimelerin sayısını sınırlandırma işlemi için iki farklı yöntem takip edilmektedir. Bir tanesi anlam temelli kök bulma (lemmatization) bir diğeri de budamadır (stemming). Lemmatizasyon kelime türünü de tespit etmeyi içeren daha karmaşık bir yaklaşımken stemming ekleri budayarak kelime kökünü bulmayı hedefler. Lemmatizasyon, stemminge göre daha sofistike bir yaklaşımdır ve daha doğru sonuçlar üretir. Buna karşın bu modelleri geliştirmek ve analizde uygulamak daha karmaşık olabilir.

Görüldüğü gibi morfolojik çözümleyiciler karmaşık kural setlerini takip ederek kelimeleri köklerine indirgemeye çalışırlar. Ancak bu durum bağlam içindeki anlamın yitirilmesine de neden olur. Örneğin, “düşüncesizlik” kelimesi “düşün-mek” fiil köküne veya “düş” isim köküne indirgendiğinde olumsuz anlam yitirilir. Ya da “yüzüncü”, “yüzsüz” ve “yüzdüm” kelimeleri “yüz” köküne indirgendiğinde elde edilen bulguların nasıl yorumlanacağı ciddi bir problem olarak araştırmacının karşısına çıkar.

Anlam kaybına neden olma ve araştırmacıya bağlılık sebebiyle yeniden üretilebilirliği düşürme gibi handikapları olsa dahi sözlük temelli metin standardizasyon teknikleri, araştırmanın çerçevesi iyi çizildiğinde ve verinin doğasına uyumlu olacak biçimde dikktalice uygulandığında son derece başarılı sonuçlar da üretebilirler. Büyük dil modellerinin ortaya çıkışyla birlikte “modern” olmaktan çıksa da sözlük temelli yaklaşımlar özellikle sosyal bilimlerde hala yaygın olarak kullanılmakta ve araştırmacının yetkinliğine de bağlı olarak yüksek başarımlı sonuçlar da sağlamaktadır.

Bu yazıda sadece ön işleme aşamasında sözlük temeli metin standardizasyonuna ilişkin bilgiler paylaştım. Ancak sosyal bilimlerde sözlükler bu kullanımın çok daha ötesinde duygu, ideoloji, eğilim, köken vb. kavramsal etiketlemelerde yaygın biçimde kullanılmaktadır. Özellikle duygu etiketlemede modern büyük dil modelleri çok başarılı sonuçlar üretse de bilimsel alanyazında yerleşik bir yaklaşımın henüz olmaması, algoritma yanlılığı riskleri, makine öğrenmesi modellerinin tahmin edilemez işleyişi gibi sebeplerden ötürü hala çeşitli bilim dallarında uzun yıllar önce geliştirilmiş yerleşik sözlüklerin kullanımı devam etmektedir. Ancak bunun nedenlerini ve sonuçlarını daha geniş bir çerçevede bir başka yazının konusu olarak ele almamız gerekiyor.

Bu yazıya atıf vermek için:

Kurnaz, Ahmet. 2025. “Metin Standardizasyonu”. NK Araştırma. (https://www.nkanalitik.com/2025/01/18/metin-standardizasyonu).

https://orcid.org/0000-0001-5628-328X

Kaynaklar:

Kemal Oflazer ve Murat Saraçlar. Turkish and Its Challenges for Language and Speech Processing. Turkish Natural Language Processing, 2014. Springer

Wickwire DE. The Sevmek Thesis, a grammatical analysis of the Turkish verb system illustrated by the verb sevmek-to love. Master’s thesis, Pacific Western University, San Diego, CA