Veri Kaynakları

Veri kaynaklarına aşina olmak ve ne tür veriler alabileceğimizi bilmek veri bilimi analizleri için doğru girdileri elde etmemizi sağlayacaktır. Bu yazımızda başlıca veri kaynaklarını tanıtacağız.

Veri Kaynakları

Verilerden tahmin elde etmeden önce farklı kaynaklardan veri toplamamız gerekir. Hepimiz sırf internette gezinerek, adımlarımızı kaydederek veya bir mağazada kartla ödeme yaparak günlük olarak muazzam miktarda veri üretiyoruz. Kullandığımız bu hizmetlerin sağlayan şirketler bu verileri toplayıp biriktirir. Bunu, veriye dayalı kararlar vermelerine yardımcı olmak için kullanırlar. Öte yandan birçok ücretsiz, açık veri kaynağı da mevcuttur. Bu veriler herkes tarafından serbestçe kullanılabilir, paylaşılabilir ve üzerine ekleme yapılabilir. Bazen şirketlerin verilerin bir bölümünü daha geniş kitleler ile paylaştığını da unutmamak gerekir. Yazının devamında farklı veri kaynaklarını gözden geçireceğiz.

Internet pek çok farklı kaynaktan veriye erişmemize olanak sağlar

1. Şirket Verileri

Bir şirketin en yaygın veri kaynaklarına göz atacak olursak: web etkinlikleri, anket verileri, müşteri verileri, lojistik verileri ve finansal işlemler diyebiliriz.

2. Web Verileri

Bir web sayfasını ziyaret ettiğinizde veya bir bağlantıya tıkladığınızda, genellikle bu bilgiler dönüşüm oranlarını hesaplamak veya farklı içerik parçalarının popülerliğini gözlemlemek için şirketler tarafından izlenir.  Bu izlemde şu bilgiler yakalanır: ziyaret edilen sayfanın URL’ si veya tıklanan öğrenin tanımlayıcısı, olayın zaman damgası ve eylemi gerçekleştiren kullanıcının tanımlayıcısı anlamına gelebilecek etkinliğin adı.

3. Anket Verileri

Veriler, kişilerin görüşleri istenerek yapılan anketlerde de toplanabilir. Bu, örneğin yüz yüze görüşme, çevrimiçi anket veya odak grubu şeklinde olabilir.

Net Tavsiye Skoru

Bir siteyi veya uygulamayı kullandıktan sonra ne kadar memnun kaldığınıza dair sorular sorulduğuna rastlamışsınızdır. Bunlara verilen yanıtlar şirketler tarafından yaygın olarak kullanılan anket verisi türünü oluşturur; net tavsiye skoru (İng: net promoter score, NPS) olarak bilinir. Müşterilerin bir ürünü arkadaşlarına, meslektaşlarına, tanıdık çevresine önerip önermeyeceğini bir ya da daha çok soruya verdikleri cevaplara göre ölçer. Bu tür anketler kullanıcının ürünü başkalarına önerme ihtimalinin ne olduğunu saptamaya çalışır.

4. Açık Veriler

Açık verilere ulaşmanın birden çok yolu vardır. İlk akla gelen iki yol API’lar ve kamusal kayıtlardır.

Halka açık veri API’ları

API’larla başlayalım. API, Uygulama Programlama Arayüzü (İng: Application Programing Interface) anlamına gelir. İnternet üzerinde, üçüncü bir taraftan veri istemenin kolay bir yolu. Birçok şirket, herkesin verilerine erişmesine izin vermek için herkese açık API’lara sahiptir. Dikkate değer bazı API’lar arasında Twitter, Wikipedia, Yahoo! Finans ve Google Haritalar sayılabilir ancak çok daha fazlası mevcuttur.

Bir hashtag’ i inceleme

Twitter API’ının bir örneğine bakalım. İzlemek istediğimiz tweetleri inceleyeceğimiz bir hashtag belirlediğimizi varsayalım. Bu hashtag ile tüm tweetleri istemek için Twitter API’ını kullanabiliriz. Bu noktada analiz için birçok seçeneğimiz var. Her tweet’ in metni üzerinde bir duygu analizi yapabilir ve insanların düşünceleri hakkında bir fikir edinebiliriz. Hashtag'in her hafta ne sıklıkta göründüğünü basitçe takip edebiliriz. Ayrıca bu verileri indirme verilerimizle birleştirebilir ve olumlu tweetlerin daha fazla indirmeyle ilişkili olup olmadığını görebiliriz.

5. Kamuya Açık Kayıtlar

Kamusal kayıtlar, veri toplamanın bir başka güzel yoludur. Bu tür veriler Dünya Bankası, BM veya DTÖ gibi uluslararası kuruluşlar, nüfus sayımı ve anket verilerini kullanan ulusal istatistik ofisleri veya örneğin hava durumu, çevre veya nüfus hakkında bilgileri kamuya açık hale getiren devlet kurumları tarafından toplanabilir ve paylaşılabilir. Örneğin, data.tuik.gov.tr’den Türkiye için nüfus, eğitim, ticaret vb. pek çok konuda verilere ücretsiz olarak erişilebilir. Avrupa Birliği ise data.europa.eu sitesinde benzer veriler sunmaktadır.

6. Sonuç

Görüldüğü üzere veri toplanabilecek pek çok farklı kaynak mevcuttur. Bu kaynaklara aşina olmak ve ne tür veriler alabileceğimizi bilmek veri bilimi analizleri için doğru girdileri elde etmemizi sağlayacaktır.