Veri Madenciliği Nedir? Veri Bilimcisi Ne Kadar Kazanır?

Bu makalemizde Veri Madenciliği tanımı ile birlikte bu işi yapacak olan kişiler olan Veri Bilimcisi olmak için gerekenleri inceleyeceğiz.

Veri Madenciliği Nedir? Veri Bilimcisi Ne Kadar Kazanır?
30.09.2020
193
A+
A-

Son yılların en fazla dile gelen ve muhtemelen önümüzdeki yıllarda hem adından daha fazla söz edileceği garanti olan veri madenciliği nedir sorusuna cevap vermeye çalışacağız. Teknolojinin baş döndürecek şekilde hızlı bir şekilde ilerlemesi tahmin edilenin çok ötesinde verinin üretilmesi ve iletilmesini de kolaylaştırdı. Üretilen bu ham aslında işe yaramaz verilerin anlamlandırılması hale getirilmesi ihtiyacı data mining ya da veri madenciliği tekniğini de beraberinde getirdi.

Tanım olarak verilmek istenirse; veri madenciliği büyük miktarlarda tek başına çok da işe yaramayan verilerin toplanması ve içerisinden anlamlı bilgilerin ayrıştırılması işlemidir. Değersiz verilerin tek başına depolanması çok başına bir anlam ifade etmediği gibi boşuna alan işgal ederler. Yığınlar halindeki bu tüm veriler çeşitli kurallar çerçevesinde işlenerek anlamlı ve işe yarar bilgi haline dönüştürülerek, kullanılır ve işe yarar hale getirilir. Bu anlamlı veriler karar verici yöneticiler için doğru tahminlerde bulunmaları ve yönetime destek olmaları açısından büyük önem taşır.

Veri Nedir?

Veri, ham gerçek enformasyon parçacığına verilen isimdir. Veriler genel olarak ölçüm, sayım, deney veya gözlem yolu ile elde edilir. Toplanan veriler sayısal bir değer bildiriyorsa nicel veriler, sayısal bir değer bildirmiyorsa nitel veriler olarak isimlendirilmektedir.

Veriler Nasıl Toplanır?

Verileri toplamanın birçok yolu ve yöntemi bulunmaktadır. Veri madenciliğine esas veriler toplanırken veriler 2 farklı biçimde toplanmaktadır. Şimdi veri toplama biçimlerini detaylı bir şekilde inceleyelim. Aslında bunlara ana veri toplama ve operasyonel veri toplama işlemi olarak nitelendirebiliriz ancak biz literatürde olduğu şekli ile açıklamaya devam edelim.

Açık veri toplama biçimi: Bu veri toplama biçimi bir sistemin kurulduğu temel verilere ait verilerin toplanması işidir. Örnek olarak vermek gerekirse; bir e-ticaret sitesine, herhangi bir sisteme üye olma aşamasında, üyeliğe başvuranlardan talep edilen temel verilerdir. Ad, yaş, yaşadığınız bölge gibi veriler toplanır. Bunlar ana veri niteliğinde olan, veri madenciliği sürecinde segmente edilecek en kritik ve önemli verilerdir. Bu veriler sisteme kayıt edilir ve işlenmek için kenarda durur.

Kapalı veri toplama biçimi: Kapalı veri toplama veri toplama biçiminde siz kendinizce verileri oluşturmazsınız. Sistem otomatik bir şekilde verileri sizin davranışlarınıza göre üretir ve depolar. Yine bir e-ticaret sitesinden örnek vermek istersek, sizin dolaştığınız sayfalar, incelediğiniz ürünler, sepete eklediğiniz ürünler, sepete ekleyip satın aldığınız ya da almaktan vazgeçtiğiniz ürünlere ait verilerin toplanış biçimidir. Bu veriler ile açık veri toplama biçimi ile toplanan veriler ileride işlenerek dijital pazarlama için kullanılabilecek kıymetli bilgiler haline gelecektir.

Veri Madenciliği Süreci Nasıl İşler?

Verilerin üretilmesi ile başlayan süreç, verilerin anlamlı ve kullanılır bir hale getirilmesi ile son bulur. Ancak bu sürecin doğru bir şekilde ilerleyebilmesi için, işletmenin ihtiyaçlarını net bir şekilde belirleyebilmesi ve sonrasında da buna uygun olarak veri madenciliği sürecini işletmesi beklenir. Şimdi bu adımları inceleyelim.

Veri Madenciliği Nedir?

  • Veri Seçimi Aşaması: Burada yapılacak işlem, bilgiye ulaşmak amacıyla kullanılacak verilerin seçilmesidir. Bunu yapabilmek için yukarıda da bahsettiğimiz gibi, ihtiyaç duyulan bilgi çok iyi analiz edilmeli, problemi çözmek için gerekli veri setlerinin seçimi için doğru bir şekilde ilişkilendirilmelidir. Bu aşama en dikkat gerektiren ve en uzun süren aşamadır. Bu aşamada doğru alanlar seçilerek bir sonraki aşamaya geçilir.
  • Ön İşleme ve Temizleme: Veri seçimi aşamasından sonra seçilen verilerin kullanışlı hale getirilmek için ön işlemeler yapılır. İlk yapılan kontroller sonrasında, eksik, yanlış ya da anlamsız veriler içeren satırlar temizlenir. Örnek vermek gerekirse; illere göre satışlar ile ilgili bir madencilik işlemi için kullanıcının il satırının dolu olmadığı ya da serbest metin ve zorunlu alan olmamasından dolayı “sadada” gibi bir değerlere sahip satırlar silinir.
  • Veriyi Dönüştürme: Çok zaman sistemde yer alan veriler olduğu gibi modellemelerde kullanılamaz. Modelin doğru bir şekilde çalışabilmesi için dönüştürme ihtiyaçları doğabilir. Örnek vermek gerekirse; veritabanında yer alan mantıksal bir alan sayısal bir tipe dönüştürülebilir. Kullanılan bazı veri madenciliği algoritmalarının integer veri tipiyle Boolean veri tipine göre daha başarılı sonuçlar üretmesidir
  • Veri Madenciliği: Bu aşama veri madenciliğinin yapıldığı, modelin kurulup çalıştırıldığı aşamadır. Veri bu aşama bittiğinde artık kullanılabilir bilgi haline gelmiştir. Bu bilgiye erişmek amacıyla çeşitli veri madenciliği yöntemleri kullanılmaktadır. Başta gelen veri madenciliği yöntemlerini kümeleme, sınıflandırma ve karar destek ağaçları olarak da sıralayabiliriz. Daha kompleks bilgi ihtiyaçları için farklı veri madenciliği yöntemleri birleştirilir.
  • Yorumlama ve Doğrulama: Veri madenciliği sonrasında elde edilen bilgi, edinim sonrasında yorumlanır ve doğru sonuçların elde edilip edilmediği kontrol edilerek yorumlanır. Gerektiğinde farklı uygulamalar ile tüm sonuçlar mukayese edilerek en kullanışlı hale getirilir.

Veri Madenciliği Temel Bileşenleri Nelerdir?

Veri madenciliği temel bileşenlerini aşağıdaki gibi sıralayabiliriz:

  • Veri tabanı ya da veri ambarları
  • Veri ambarı sunucusu,
  • Bilgi tabanı,
  • Data mining motoru,
  • Kullanıcı Arayüzü

Veri Madenciliği Neden Gereklidir?

İşin açıkçası, aklınıza gelebilecek birçok alanda veri madenciliği yapmak artık gerekli hale gelmiştir. Teknolojinin ilerlemesi, veri toplama ile ilgili şirketlerin önündeki tüm bariyerlerin ortadan kalması ile birlikte bilgiye erişim hem kolay hale gelmiş hem de şirketlerin bilgiyi kullanmaları ile birlikte bilginin ne kadar önemli olduğu ortaya çıkmıştır.

Veri madenciliği, verilerin arasında saklı kalmış bilgilerin çeşitli kural, model ve istatiksel yöntemler ile birlikte ortaya çıkarılması sonrasında işin profesyonelleri tarafından yapılan analiz ve yorumlar ile tahminlerin ötesinde değerli hale gelmesinden dolayı şirketler için artık bir ihtiyaç değil gereklilik haline gelmiştir.

Veri madenciliğini ihtiyaçtan öte bir gerekliliği haline getirmesinin arkasında yer alan unsurları aşağıda sıraladık:

  • Veri kayıtlarının kolaylaşması, veri toplamak için teknolojik altyapıların kolay erişilebilir olması, cisimlerin interneti ile birlikte internet üzerinden verilerin transferinin kolaylaşması,
  • Veri tabanlarının ve sunuculardaki performansların artması ile birlikte daha kolay veri sınıflandırılması ve gruplandırılması,
  • Kesin bilginin azalması, hipotezler oluşturma ve karar alma gerekliliğinin sürekli artması,
  • Bilimin de ilerlemesi ile birlikte daha hızlı ve kaliteli hesaplamalar, benzetimler ve modellemelerin geliştirilmiş olması,
  • Uydu ve uzaktan algılama sistemlerinin geliştirilmesi,

Nasıl Veri Bilimcisi Olunur?

Veri madenciliği işlemlerini yerine getirebilecek kişilere veri bilimcisi denilmektedir. Data Mining yapacak kişilerin, veritabanları, veri yapıları hakkında net bilgi sahibi olmasının yanın işletmenin bu sistemde tuttuğu süreçleri de bilmesi gerekmektedir. Bunların yanında iyi derece yazılım bilgisi, matematik, istatisk modelleri ve optimizasyon konularında bilgi sahibi olması beklenmektedir.

Sistemin kurulduğu yapıya uygun olarak veri tabanları ne ise o konuda uzman olması beklenirken; veri madenciliği yazılımlarında hali hazırda piyasada Pazar payı yüksek olan Phyton ve R dilleri bilgisi veri bilimcileri tarafından sıklıkla kullanılan yazılımlardır. Tabii ki madencilik sonrasında ortaya çıkan raporları yorumlayabilmelidir.

Veri Madenciliği Hangi Alanlarda Kullanılır?

Ham veri kıymetsiz ve anlamsızdır. Ham veri işletmeler açısından çok şey ifade etmemektedir. Data mining bu anlamsızlığı ortadan kaldırarak değerli ve kullanışlı hale getirir. Veri madenciliği son yıllarda hemen her sektörde yaygın bir şekilde kullanılmaktadır. Asıl önemli olan verinin bilgiye olan yolculuğunda, sektörünüzde neye ihtiyacınız olduğudur. Aşağıdaki sebeplerden dolayı birçok şirket veri madenciliği yapmak istemektedir:

  • Müşterilerin davranışlarının modellenmesi amacıyla,
  • Müşterilerin satın alma durumlarına göre sınıflandırılması
  • Kampanya hazırlanması
  • Yasa dışı para trafiğinin tespit edilmesi, e-nakit ya da kredi kartı dolandırıcılığı
  • Kredi taleplerinin değerlendirilmesinin kolaylaştırılması,
  • Kişiselleştirilmiş ürün veya hizmet sunulmasının kolaylaştırılması,
  • Sağlık sektöründe, hastalıklar için tanı konulmasına destek olunması ve hastaya özel tedavi yöntemi belirlenmesi
  • Spor sektöründe, rakip taktiklerinin belirlenmesine yardımcı olunması gibi sayabiliriz.
  • Müşterileri ya da potansiyel müşterileri daha iyi tanımak amacıyla
  • Müşterin sınıflandırılması,

Veri Madenciliği Modelleri Nelerdir?

Veri madenciliği modelleri, predictive ve descriptive olmak üzere iki ana başlık altında toplanmaktadır.

Tahmin Edici Modeller için; regresyon ve sınıflandırma alt başlıklarında incelenir. Sınıflandırma modelleri için; karar ağaçları, karar destek makinaları, yapar sinir ağları, genetik algoritma, zaman serilerini sayabiliriz.

Tanımlayıcı Veri Madenciliği modelleri için ise; kümeleme, birliktelik kuralları, sıralı örüntü analizi, uç değer analizini sayabiliriz.

Bu modellerin hangisinin kullanılacağı işletmenin ya da şirketi ihtiyacına ve elindeki veri setine göre değişiklik göstermektedir.

Veri Madenciliği hangi sektörlerde kullanılır?

Veri madenciliği teknik ve modellerini her sektörde kullanabilirsiniz.

Bu Alanda Alanında Kimler Çalışabilir?

Bu alanda, bilgisayar ve yazılım alanında kendi yetiştirmiş herkes çalışabilir. Ancak bu alanda yetişmek için ileri matematik bilgisine sahip olmak ve analiz etme yeteneğinin geliştirilmesi gerekmektedir. Kişisel olarak sabır ve dikkatli olmak çok önemlidir.

Veri Bilimciler Ne Kadar Kazanmaktadır?

Daha önce yapılan araştırmalara göre, Amerika Birleşik Devletlerinde yeni bir veri bilimcinin ortalama maaşı 121.000 USD veya üzerinde olmaktadır. Bu da her ay yaklaşık olarak 10.000 ABD Dolarının üzerinde kazandığını göstermektedir.

 

Bu makale sizler için yararlı oldu mu? Konu hakkında görüşleriniz bizim için çok önemlidir. Girişimcilik Blogu kategorimizde buna benzer onlarca makalemiz yer almaktadır.

YORUMLAR

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.

Girişim Haber @ 2020