Dr. Ahmet Kurnaz
Merhabalar,
Bu yazıda, TDK sözlüklerinden seçtiğim isim ve sıfatlara dair ayrıntıları paylaşıyorum. Aşağıdaki videoda gerçekleştirdiğim işlemin teknik detaylarını bilimsel bir yöntemle ele alacağım. Sonuç olarak yaklaşık 40 bin isim ve sıfattan oluşan dosyayı GitHub üzerinden erişiminize açtım. Bu CSV belgesini bilimsel çalışmalarınızda kullanmak isterseniz, yöntem kısmını ayrıntılı şekilde aşağıda bulabilirsiniz. Her türlü soru veya araştırmanızla ilgili destek talepleriniz için bana bilgi@nkanalitik.com adresinden ulaşabilir ya da site üzerinden ücretsiz ön görüşme randevusu oluşturabilirsiniz.
Bu yazıya atıf vermek için:
Kurnaz, Ahmet. 2025. “TDK Türkçe Sözlükte Geçen 40bin İsim ve Sıfat”. NK Araştırma. (https://www.nkanalitik.com/2025/01/18/tdk-sozluk-40bin-isim-ve-sifat).
Yazar ORCID: https://orcid.org/0000-0001-5628-328X
YÖNTEM
1. Veri Kaynakları
Bu çalışmada kullanılan veri, Türk Dil Kurumu’na ait 1998 yılında yayınlanmış Türkçe Sözlük’ün PDF dosyasından elde edilmiştir. Her iki cilt de (A-J ve K-Z) toplamda 2542 sayfa içermekte ve taranmış hâlde sunulmaktadır.
2. Metin Çıkarımı ve Ham Verinin Elde Edilmesi
PDF dosyalarındaki ham metin, sayfa bazlı taranarak elde edilmiştir. Bu aşamada, her sayfadaki satırlar ayrıştırılmış ve yalnızca sözlük biçimine uygun görünen kayıtlar (örneğin “(i)*s.” kalıbını içeren) seçilmiştir. Seçilen satırlar, sayfa numarası ve cilt bilgisiyle birlikte geçici bir veri tablosuna aktarılmıştır. Bu sayede her girişin kaynağı da korunmuştur.
3. Regex Tabanlı Filtreleme ve Temizleme
Ham verinin sözlük biçimine uygun hâle getirilmesi için düzenli ifadeler (regex) kullanılarak çeşitli aşamalar uygulanmıştır. Başlıca amaçlar, istenmeyen karakterleri temizlemek, anlamsız boşluk ve satır sonu bölünmelerini gidermek ve hatalı ayrışan kelimeleri düzeltmektir.
3.1. Hedef Desenlerin Belirlenmesi
Öncelikle sözlük tanımında sıkça geçen veya satırda ayırt edici rol oynayan kalıplar belirlenmiştir (örneğin, içeriğinde (i)*s. ifadesi geçen satırların çekilmesi). Böylece, istenen satırları doğrudan yakalamak ve geri kalan sayfa alt bilgisi, görsel açıklama gibi veri seti dışı unsurları elden çıkarmak mümkün olmuştur.
3.2. İstenmeyen Karakterlerin Silinmesi
Hedef satırları elde ettikten sonra, sayfa numaraları veya standart dışı semboller içeren kısımlar, düzenli ifadeler yardımıyla ayıklanmıştır. Bu aşamada:
Rakamlar (bazı durumlarda [2-9] veya “10” vb.),
Özel noktalama işaretleri (., &, *, •, —, vb.),
Yabancı dildeki harfler veya hatalı OCR kaynaklı harfler
gibi unsurlar temizlenmiştir.
3.3. Sözcük Birleştirme ve Boşluk Düzenleme
PDF’lerin tarama ya da satır sonu kaymaları nedeniyle Türkçe sözcüklerin yanlış hecelenmesi veya bölünmesi sık rastlanan bir sorundur. Bu adımda şu işlemler öne çıkmaktadır:
Gereksiz boşlukların kaldırılması:
Sözcük ortasındaki boşluklar (ör. “m ak” → “mak”, “am aç” → “amaç”)
Cümle sonunda ya da başında çoklu boşluklar (ör. “ kelime” → “kelime”)
Boşluk kodlarının veya görünmez karakterlerin silinmesi:
Satır sonu kesilmeleri sonucu ortaya çıkan gizli “\n” veya benzeri semboller.
Hece veya ek yanlış bölünmelerinin düzeltilmesi:
“abartm asız” → “abartmasız”
“aktarm asız” → “aktarmasız”
“ağ ır” → “ağır”
“anahtar ı” → “anahtarı”
“maym un” → “maymun”
“am aç” → “amaç” vb.
Tek harfli ek ve bağlaçların kaldırılması veya bitiştirilmesi:
“ve” bağlacının gereksiz tekrarlarından kurtulma (“v ve” vb.)
“(i)*s.” benzeri kalıpları ayıklarken ek boşlukların yok edilmesi
Bütün bu adımlar sırasında, ASCII dışı karakterlerin ve özellikle Türkçe karakterlerin (ğ, ü, ş, ı, ö, ç gibi) korunmasına özen gösterilmiştir.
3.4. Özel İstisnaların Giderilmesi
Türkçe’de bazı sözcükler veya ek kullanımları, genel kalıplarla tam olarak yakalanamadığından ek müdahalelere ihtiyaç duymuştur. Özellikle el ile düzeltme ya da daha karmaşık regex kalıplarıyla temizleme gerektiren örnekler şu şekilde özetlenebilir:
Yanlış bölünmüş veya birden çok kez geçen örnekler:
“kum kum” → “kumkum”
“dem ir” → “demir”
“yum urta” → “yumurta”
“ce rrah î” → “cerrahî”
Özel tamlamalar ya da ek alan kelimeler:
“sıfat-fiili” kalıbı veya benzeri dilbilgisel ifadelere ait satırların çıkarılması
Bazı Arapça veya Farsça kökenli sözcüklerde çift eklenmiş imlerin temizlenmesi (örn. “basübadelm evt” → “basübadelmevt”)
Punctation, kısaltma, ve sembol birleşimleri:
“\.v\.ve”, “is\.”, “vd\b|vc\b” gibi özel kısaltmaların kaldırılması
Virgüller veya tirelerle (örn. -, .) bölünmüş varyant formların doğru birleştirilmesi
Tekil harf kısaltmaları veya simgeler:
“am ip” → “amip”
“m on” → “mon”
Görünürde anlamını yitirmiş kısa harf gruplarının silinmesi (“m asyon” → “masyon” vb.)
Bu düzeltmeler tamamlandıktan sonra, elde edilen veri tablolarındaki son satırlar tekrar gözden geçirilmiş ve anlamlı bir bütün oluşturduğu onaylanmıştır. Her bir kaydın hangi PDF cildinden ve sayfasından geldiği bilgisi korunarak, araştırmacıların geri dönük doğrulama yapabilmeleri de sağlanmıştır.
4. Liste Hâlinde Silinen veya Düzeltilen Başlıca Patternler
Satır Filtreleme:
(i)*s\. ifadesini içeren satırları seçmek, [2-9] içeren satırları çıkarmak vb.
Ek Boşluklar:
“\s+”, “\n”, hece bölünmesi (“m ak”, “am aç”, “abartm asız” vb.)
Özel Karakterler:
“[\\.\\&\\*\\•\\—]”, “\(.*\)”, “:.*”, “; “, “<“, “>”, “- ”
Türkçe Ekler ve Yanlış Ayrılmış Heceler:
“(lık|luk|lik|lük)”, ‘ ve\b’, ‘\\bvd\\b|\\bvc\\b’, “\\bm ak\\b”, “\\bam aç\\b”, “ağ ır”, “maym un”, “dem ir”
Özel İsimler veya Kısaltmalar:
“\.v\.ve”, “is\.”, “v\.ve”, “\\b[a-zğüşıöç]{1,3}\\.” gibi kısaltmaların silinmesi veya düzenlenmesi
Bu aşamaların tamamlanması, farklı PDF sayfalarından gelen satırların tutarlı bir biçimde birleştirilmesini olanaklı kılmış ve sonrasında gerçekleştirilecek kelime sıklığı analizleri, morfolojik çözümlemeler ve benzeri uygulamalar için temiz bir veri seti oluşturmuştur. Sonuçta 39241 isim ve sıfattan oluşan CSV verisi GitHub üzerinden araştırmacılarla paylaşılmıştır.