11 Nisan 2015 Cumartesi

Veri madenciliği nedir?

Bilgisayar ve İnternet gün geçtikçe gelişmektedir. Buna bağlı olarak bu ortamdaki veri miktarı da çok hızlı bir biçimde artmıştır. Artan bu veri miktarı bilgiye erişimi zorlaştırmaktadır. Örneğin arama motorlarında basit bir şeyi aradığımızda bile karşımıza bir çok site çıkıyor ve bu sitelerden bir kaç tanesini okuyarak aradığımız sonuca ulaşabiliyoruz. Yada bir deney sonuçlarını bulduğunuzda bu veriyi anca analiz ederek bilgiye ulaşabiliyoruz. Verilen örneklerden de anlaşılacağı gibi veriden bilginin elde edilmesi giderek artan bir sorun haline gelmekte. Veri madenciliği bu sorunun çözümünde bize yardımcı oluyor.



Veri madenciliğini tanımlayacak olursak "bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranması" diyebiliriz. Veri madenciliği literatürde, veritabanlarında bilgi madenciliği (knowledge mining from databases), bilgi çıkarımı (knowledge extraction), veri ve örüntü analizi (data/pattern analysis), veri arkeolojisi gibi isimlerlede bulunmaktadır.

Veri madenciliğinin adımlarını kısaca şu şekilde sıralayabiliriz.
  1. Problemin belirlenmesi
  2. Verilere erişim
  3. Verilerin yapılandırılması ve veri ambarının oluşturulması
  4. Uygun teknik ve algoritmanın seçimi
  5. Uygulama aşaması
  6. Sonuçların değerlendirilmesi ve sunumu
Problemin eldeki verilerle çözülebilmesi için uygun teknik ve algoritma seçilmesi oldukça önemli. Fazla sayıda algoritma mevcut. Genel olarak hazır algoritmalar kullanılıyor ve kendi algoritmasını yazan ve bununda veri madenciliği yapanlar çok az miktarda. Bu yüzden şimdi genel olarak uygulanan tekniklerden bahsedeceğim;

1) Bağıntı
Sepet analizi olarak da bilinir. Sepet Analizi genellikle alışverişlerde birlikte satın alınma ihtimali olan ürünleri belirlemek için yapılır. Sepet analizinin çıktılarına göre pazarlama stratejileri veya internetteki otomatik tavsiye motorları şekillendirilir.

Örneğin bebek bezi alan biri bebek maması da alır.

2) Sınıflandırma
En popüler veri madenciliği çeşitlerinden birisidir. Temel olarak yaptığı şey yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktadır. Burada önemli olan ,bir sınıfın özelliklerinin önceden net bir şekilde belirtilmiş olması gerektiğidir. Bir malın özellikleriyle müşteri özelliklerini eşleştirebiliriz. Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir.

Örneğin Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır.

3) Regresyon
Regresyon verinin bazı özelliklerini kullanarak diğer özelliklerini tahmin etmek yada veriyi kullanarak belli sonuçlar çıkarmak için kullanılır.

Örneğin bilgisayar mühendisi olan 40 yaşını aşmamış evi ve arabası olan yakışıklı erkekler bir regresyondur.

4) Zaman içinde sıralı örüntüler
Sıralı bir şekilde ilerleyen değerlerin bulunduğu veri örnekleri arasında, istatiksel olarak uygun örüntüleri bulmayı amaçlar.

Örneğin bir mağazada alışveriş yapan müşterilerin 3 ay içerisinde önce bebek bezi, sonraki tarihlerde bebek maması ve en son oyuncak araba yada oyuncak bebek satın almaları.

5) Kümeleme
Kümeleme analizi veriyi anlamlı, yararlı yada hem anlamlı hem de yararlı gruplara(kümelere) ayırır. Kümeleme analizi sonucunda aynı kümenin içinde olan birimler birbirlerine diğer kümeler içerisinde yer alan birimlerden daha çok benzerler.

Örneğin bir “film” sorgusu sonuçları eleştiri, fragman, yıldızlar ve tiyatrolar şeklinde kümelere ayırabilir. Her küme tekrardan kümelere ayrılabilir böylece kullanıcının sonuçları daha iyi irdelemesine yardımcı olabilir.

Sizde bu teknikleri,  biyolojik veriler içerisinde nerede kullanabileceğimizi düşünerek yeni örnekler bulabilirsiniz. Hatta bulduğunuz örnekleri bizimle paylaşabilirsiniz. 


Unutmayın, bilgi paylaştıkça güzelleşir. Paylaşarak öğrenmek dileğiyle.

Osman

Hiç yorum yok:

Yorum Gönderme