Ev Ses Büyük verilerde çok fazla veri olabilir mi?

Büyük verilerde çok fazla veri olabilir mi?

Anonim

S:

Büyük verilerde çok fazla veri olabilir mi?

A:

Sorunun cevabı kocaman bir EVET. Büyük bir veri projesinde kesinlikle çok fazla veri olabilir.

Bunun olabileceği sayısız yol ve profesyonellerin doğru sonuçları elde etmek için verileri herhangi bir şekilde sınırlaması ve seçmesi için çeşitli nedenler vardır. (Büyük Veri Hakkında 10 Büyük Efsane okuyun.)

Genel olarak, uzmanlar bir modeldeki “sinyali” “gürültü” den ayırmaktan bahsederler. Başka bir deyişle, büyük bir veri denizinde, ilgili içgörü verilerinin hedeflenmesi zorlaşır. Bazı durumlarda, samanlıkta bir iğne arıyorsunuz.

Örneğin, bir şirketin, müşteri tabanının bir segmentinde belirli öngörüler ve belirli bir zaman dilimi içinde yaptığı satın alımlar için büyük veriler kullanmaya çalıştığını varsayalım. (Büyük veriler ne işe yarar?)

Çok büyük miktarda veri varlığı almak, ilgili olmayan rastgele verilerin alınmasına neden olabilir, hatta verileri bir yönde ya da başka bir yönde eğrilten bir önyargı üretebilir.

Ayrıca, bilgi işlem sistemleri daha büyük ve daha büyük veri kümeleriyle boğuşmak zorunda olduğu için süreci önemli ölçüde yavaşlatır.

Pek çok farklı türde projede, veri mühendislerinin verileri kısıtlı ve spesifik veri setlerine göre küratörleştirmeleri son derece önemlidir - yukarıdaki durumda, yalnızca incelenen müşterilerin bu segmentine ait veriler, sadece o zamanın verileri incelenen bir çerçeve ve şeyleri karıştırabilecek veya sistemleri yavaşlatabilecek ek tanımlayıcıları veya arka plan bilgilerini ayıklayan bir yaklaşım. (Okuma Rolü: Veri Mühendisi.)

Daha fazlası için, bunun makine öğrenimi sınırında nasıl çalıştığına bakalım. (Machine Learning 101'i okuyun.)

Makine öğrenimi uzmanları, aşırı öğrenme modelinin, makine öğrenme programı yeni üretim verileri üzerinde gevşek hale getirildiğinde daha az etkili sonuçlara yol açtığı "aşırı sığdırma" adı verilen bir şeyden bahseder.

Aşırı sığdırma, karmaşık bir veri noktası kümesi bir başlangıç ​​egzersiz setiyle çok iyi eşleştiğinde gerçekleşir ve programın yeni verilere kolayca uyum sağlamasına izin vermez.

Şimdi teknik olarak, aşırı sığdırma çok fazla veri örneğinin varlığından değil, çok fazla veri noktasının taç giymesinden kaynaklanmaktadır. Ancak çok fazla veriye sahip olmanın da bu tür bir soruna katkıda bulunan bir faktör olabileceğini iddia edebilirsiniz. Boyutsallığın laneti ile başa çıkmak, profesyoneller BT sistemlerini beslediklerini belirlemeye çalışırken daha önceki büyük veri projelerinde yapılan aynı tekniklerden bazılarını içerir.

Sonuç olarak, büyük veriler şirketler için çok faydalı olabilir veya büyük bir zorluk haline gelebilir. Bunun bir yönü, şirketin oyunda doğru verilere sahip olup olmadığıdır. Uzmanlar, tüm veri varlıklarını bir hazneye dökmenin ve bu şekilde öngörülerde bulunmanın tavsiye edilmediğini biliyor - yeni bulut-yerel ve gelişmiş veri sistemlerinde, daha doğru ve daha hassas olabilmek için verileri kontrol etme ve yönetme ve iyileştirme çabası var veri varlıklarının etkin kullanımı.

Büyük verilerde çok fazla veri olabilir mi?