Veri Bilimine Giriş
Bu yazımızda “Veri bilimi nedir?” sorusuna genel ve teknik olmayan bir cevap vereceğiz.

Dikkatinizi çektiyse günümüzde veri bilimi hayli popüler, hatta veri bilimciliği Harvard Business Review tarafından “21. yüzyılın en seksi mesleği” ilan edilmiş durumda. Ta 2009 yılında Google baş ekonomisti Prof. Hal Varian “Veri elde etme, veriyi anlayabilme, işleyebilme, veriden değer çıkarabilme, veriyi görselleştirebilme ve aktarabilme kabiliyetleri önümüzdeki on yılda son derece önemli yetenekler olacaklar,” diyerek veri biliminin bugün kanıtlanmış önemini öngörmüştür. Peki veri bilimini bu denli hayati kılan ne? Veri bilimi nedir, nasıl yapılır ve insanlığa neler vaat ediyor? Takip eden bölümlerde bu konularda bilgiler vererek veri bilimini okuyucuya tanıtmaya çalışacağız.
Veri Bilimi Nedir, Ne Değildir?
Kabaca tanımlayacak olursak, veri bilimi sürekli biriken verilerin barındırdığı bilgi ve anlayışı açığa çıkarmak için bilimsel yöntem, matematik, istatistik, programlama ve yapay zekâ iş birliğinden faydalanan çok-disiplinli bir bilim dalıdır.
Devam etmeden önce bir kavram karışıklığına değinelim. Şöyle ki veri bilimi, makine öğrenmesi ve veri madenciliği kavramlarının birçok yerde aynı şeyi ifade etmek için kullanıldığını sıkça görüyoruz. Bu disiplinlerin ortak yönü, veri analizi vasıtasıyla daha iyi kararlar almaya hizmet etmeleridir. Veri bilimi bu gruptaki en genel tabir olup aralarında en geniş kapsamlı olanıdır; sıklıkla makine öğrenimi ve veri madenciliğinden beslenir. Makine öğrenmesi, verideki (istatistiksel) örüntüleri yakalayıp bunlara dayanarak tahminler üretme kısmını ifade eder. Veri madenciliği belirli türde verilerin işlenmesi ve kullanılabilir verilerin çıkarılmasıdır. Veri bilimi kapsamında ise bu bahsedilen konuların hepsiyle uğraşılabilir.
Veri Biliminde İş Akışı
Veri bilimde, herhangi bir projenin genel olarak dört aşaması vardır. İlk olarak uygun kaynaklardan gerekli veri toplanır; bu anket verisi, web trafiği metrikleri, sosyal medya gönderileri, finansal işlemler vb. olabilir. Verileri toplandıktan sonra güvenli ve erişilebilir bir şekilde saklanır.
Veri biliminde iş akışı
Çoğu zaman topladığımız veriler ham haldedir, dolayısıyla sıradaki aşama verilerin uygun işlemlerden geçirilerek hazırlanmasıdır. Bu aşamada duruma göre veriyi “temizlemek”, birleştirmek, belli işlemlere uygun hale getirmek gibi işlemlerden bazılarını veya hepsini yapmak gerekebilir. Örneğin eksik yahut tekrarlanmış değerleri bulmak, veriyi daha düzenli bir hale getirmek gibi işlemler sıklıkla gerekli olur.
Sonraki aşamada hazırlanmış veriler incelenir ve görselleştirilir. Bu aşamada verinin zamanla nasıl değiştiğini gösteren paneller yapmak veya iki veri seti arasında karşılaştırma yapmaya imkân verecek grafikler oluşturmak yaygın işlemlerdendir.
Son aşamada veri üzerinden deneyler ve tahminler yürütülür. Bu amaçlara uygun algoritmaların, analitik yöntemlerin ve yapay zekâ modellerinin geliştirilmesini ve kullanılması gerekir. Ardından tahminlerin isabetliliği bilimsel test ve deneyler aracılığıyla doğrulanmalıdır. Örneğin, ne tür değişikliklerin bir web sitesine daha çok kullanıcı çekeceğine dair bir test yahut tarihi verilere göre hava tahmini yapan bir sistem düşünülebilir. Sonuçlar veri görselleştirme araçlarının etkin kullanımı ile raporlanmalı ve ilgili kişilerin tespit edilen örüntü ve trendleri kolayca kavraması sağlanmalıdır.