Daha önce veri madenciliğinden bahseden bir yazı yazmıştım. Hemen sonrasında bu yazıyı yazmayı planlamıştım ama çeşitli nedenlerden dolayı geç kaldı.Bu yazıdaki konu ise başlıktan da anlaşılacağı gibi Metin madenciliği. Amacım eğer bir gün karşınıza bu kavram çıkarsa ne olduğu hakkında kısa bir fikir sahibi olabileceğiniz bir yazı yazmak.
Veri madenciliği hakkındaki yazımda da belirttiğim gibi teknolojinin gelişmesi ile veri miktarı inanılmaz derecede artmaya başladı ve bilgiye erişim problemleri artmaya başladı. Bu problemlerden dolayı bu zorluğu aşmak amacıyla yeni yöntemler ortaya çıkmaya başladı. Metin madenciliği de ortaya atılan bu yöntemlerden biridir. Özellikle 2000 yılından sonra ortaya çıkmıştır ve metinlerden veri elde etmeyi amaçlar.
Metin madenciliğinin yaygın olarak kullanılan tanımı, "belirli bir formatta olmayan, yazı tipindeki veriler içerisinde gizli olan nitelikli bilginin çıkarılması, düzensiz haldeki verinin formatlanması süreci" şeklindedir. Metin madenciliği metinlerin sınıflandırılması, kümelendirilmesi, metinlerden konu çıkarılması , sınıf taneciklerinin üretilmesi, duygusal analiz, metin özetleme , varlık ilişki modellemesi gibi çalışmaları hedefler. Veri madenciliğinde kullanılan yöntemlerin hepsi burada da kullanılmaktadır. Veri madenciliğinde kullanılan yöntemlere buradan ulaşabilirsiniz.
Metin Madenciliği, metin içindeki kalıpları tanımlayıp bilinmeyen bilgiyi ortaya çıkararak, var olan yapısı ile metinleri bilgiye dönüştüren anahtar bir süreçtir. Bu süreçte metin ilk başta bir ön işlemden (cümle ve kelime analizleri) geçer, anlamsız kelimeler çıkarılır, metinler kategorilendirilir ve sonuçta geleneksel veri madenciliği yöntemleri kullanılarak (kümeleme, yapay sinir ağları, karar ağaçları, regresyon analizleri vb.) geniş hacimli metinler analiz edilir ve daha sonra elde edilen sonuçlar değerlendirilir. Farklı dillerde binlerce doküman, web sayfa içerikleri, yayınlar ve özetler göz önüne alındığında erişilmek istenen bilgilere ulaşmanın güçlüğü bilinmektedir. Araştırmacılar düzenli haldeki verileri analiz ettikleri gibi (yaş, cinsiyet, kilo, kolesterol, nabız, tansiyon vb); tıbbi raporlardan, internet sayfalarından, makalelerden, fatura bilgilerinden buldukları metin verileri de analiz edebilmektedirler . Bu metinlerin kısa sürede analiz edilmesi ve nitelikli bilgilere çok kısa sürede erişilmesi için metin madenciliği yöntemi kullanılmaktadır.
Metin madenciliği genel olarak beş adımdan oluşmaktadır. Bu adımlar;
1. Metin toplama: İlgilenilen konularda bilgi erişim sistemleri kullanılarak metin koleksiyonu oluşturma sürecidir. Bu süreç, günümüzde genel olarak internet üzerinden, özellikle Google arama motoru kullanılarak gerçekleştirilmektedir. Tıp alanında ise metin toplama süreci yaygın olarak PubMed çevrim içi veritabanı üzerinden yapılmaktadır.
2. Metin önişleme: Metni kelimelere ayırma, kelimelerin anlamsal değerlerini bulma (isim, sıfat, fiil, zarf, zamir vb.), kelimeleri köklerine ayırma ve gereksiz kelimeleri ayıklama, dokümanı fazlalıklardan arındırmak, gereksiz bilgileri çıkarmak, yazım kurallarına uygunluğunu tespit etmek, ekleri ve genel kelimeleri çıkarmak, kelime köklerini belirlemek, önek ve sonekleri ayırmak, kelime anlamlarını belirlemek ( Kelimenin hangi anlamı kullanılıyor?), ilişki analizi (A’nın B ile bir ilişkisi varsa, B’nin
de C ile bir ilişkisi varsa, A ile C arasında da potansiyel bir ilişki vardır) yapmak gibi metin belgelerin yapıtaşı olan kelimelerle ilgili işlemleri içeren süreçtir.
3. Özellik seçme: Bu aşamada ön işlemden geçen metinlerdeki önemli kelimeleri (varlıkları) belirleme (isimler, tamlamalar, bileşik kelimeler, kısaltmalar, sayılar, tarihler, para birimleri vb.) ve ilişkili olmayan özelliklerin çıkarılması (sadece birkaç dokümanda gözlemlenen özelliklerin çıkarılması, birçok dokumanda gözlemlenen özellikleri azaltma) işlemleri yapılmaktadır.
4. Veri madenciliği: Yapılandırılmış format haline getirilen metinlerin geleneksel veri madenciliği teknikleriyle (karar ağaçları, yapay sinir ağları, kümeleme vb.) analizi sürecidir. Hem veri madenciliğinde hem de metin madenciliğinde gizli bilgilere bakılmakta ve genel yapay zeka, makine öğrenme ve istatistik algoritmaları kullanılmaktadır. Veri madenciliğinde yapılandırılmış numerik veri kullanılırken metin madenciliği yapılandırılmamış metinlerle ilgilidir. Veri madenciliğinde kullanılan veriler veri ambarlarında çıkartılmış, dönüştürülmüş ve yüklenmiş durumda bulunan verileri kullanırken metin madenciliği kesin olmayan verileri modellemeye çalışmaktadır.
5. Görselleştirme : Elde edilen sonuçların kullanıcıya sunumunda en etkin ve anlaşılır görselleştirmenin yapılması aşamasıdır.
6. Değerlendirme : Genel olarak sistemlerin değerlendirilmesinde duyarlılık (precision), anma (recall) ya da ikisinin birleşiminden oluşan F-score ölçütü kullanılmaktadır. Duyarlılık, erişim çıktısındaki ilgili belge sayısının erişim çıktısındaki belge sayısına oranıdır. Anma ise, erişim çıktısındaki ilgili belge sayısının belgeler kümesinde ilgili belgeler sayısına oranıdır.
Metin madenciliğinin teknikleri genel olarak bilgi çıkarma, bilgi erişim, doğal dil işleme alanlarında kullanılmaktadır. Bilgi Çıkarma, metin verilerden yapılandırılmış bilginin otomatik olarak çıkartılmasıdır. Bilgi erişim, kullanıcıların anahtar kelimeleri kullanarak bilgi ihtiyaçlarını karşılaması muhtemel derlemdeki ilgili belgelerin tümüne erişmek, ilgili olmayanlarıda ayıklamaktır. Diğer önemli uygulama alanlarından biri olan Doğal Dil İşleme teknikleri ise, yapılandırılmamış metinsel bilgilerin analizi ve otomatik olarak işlenmesi ile ilgilidir. Konuşma tanıma, yazılı dokümanların otomatik çevrilmesi, otomatik konuşma ve komut anlama, konuşma sentezi, konuşma üretme, otomatik metin özetleme gibi önemli alanlarda kullanılmakta ve doğal dilin makine tarafından anlaşılmasını sağlayan teknikleri içermektedir.
Sonuç olarak metin madenciliğinde amaç yapılandırılmamış ya da yarı yapılandırılmış metinlerin formatlanıp yapılandırılmış hale dönüştürülmesi, analiz edilmesi ve nitelikli bilgilere kısa sürede erişilmesini sağlamaktır.
Hiç yorum yok:
Yorum Gönder