Dr. Ahmet KURNAZ
Kelime Torbası (Bag-of-Words) yaklaşımıyla yapılan çalışmalarda en sık yapılan ön işleme (text preprocessing) adımlarından bir tanesi elimizdeki metnin durak kelimelerden (stopwords) temizlenmesidir. Bu işlem genellikle çalışmamızın daha temiz görünmesine yardımcı olmakla kalmayıp analiz sürecimizi de hızlandırır.
Peki neden durak kelimeleri silmek istiyoruz? Durak kelimelerin frekansları çok yüksek olduğu için genellikle olduklarından daha önemli görünürler ancak çalışmalarımızla ilgili çok az bilgi verirler. Örneğin “ve” bağlacını ele alalım. Türkçe’de belki de en sık geçen kelimelerin başında yer alır. Ancak bağlama ilişkin çok az bilgi içerir. Bunun yanı sıra ngram oluşturuken anlamlı isimlerin arasına girerek önemli bulguları aktarmamıza zorluk da çıkarabilir. “gül ve diken” ifadesini ele alalım. Eğer “ve” bağlacını ifadeden çıkartmazsak oluşturacağımız ikililer (bigram) şu şekilde olur: “gül_ve”, “ve_diken”. Oysa stopwords listesi kullaranak “ve” bağlacını çıkartmış olsaydık ikilmiz (bigram) “gül-diken” olacaktı. Gördüğünüz üzere standart bir liste kullanarak anlam olarak değeri düşük kelimeleri çalıştığımız metinden çıkartmak oldukça faydalı olabilir.
Standart bir stopwords listesinin yanı sıra özelleştirilmiş bir ikinci durak kelime listesi de kullanılabilir. Bu ikinci liste genellikle çalıştığımız metinde sıkça geçen bağlama ilişkin anlam üretmeyen kelimelerdir. Örneğin, bir markanın reklam analizini yapıyorsak bu markanın adı sürekli geçse bile bunun çalışma için bir anlamı yoktur. Ya da İstanbul’daki hayat pahalılığını incelediğimiz metinleri içeren çalışmada sürekli geçen “İstanbul” çalışmaya bir değer katmayacaktır. Bu şekilde sık geçen ancak değer katmayan kelimelerin de araştırmacının oluşturacağı ikinci bir özel durak kelime listesiyle çalışmadan çıkartılması oldukça faydalı olacaktır.
Aşağıda ChatGPT ile ürettiğim standart Türkçe durak kelime listesini bulabilirsiniz.
Bu yazıya atıf vermek için: