Ev Ses Hadoop analizi: birden çok veri kaynağında o kadar kolay değil

Hadoop analizi: birden çok veri kaynağında o kadar kolay değil

İçindekiler:

Anonim

Hadoop, analitik işleme için verileri boşaltmak veya mevcut sistemlerle mümkün olmayan tek bir veri kaynağının daha büyük hacimlerini modellemek için harika bir yerdir. Bununla birlikte, şirketler birçok kaynaktan veriyi Hadoop'a getirdikçe, farklı kaynaklardaki verilerin analizi için artan bir talep vardır ve bu da elde edilmesi son derece zor olabilir. Bu yazı, kuruluşların karşılaştığı sorunları, Hadoop'taki farklı veri kaynaklarını ve türlerini analiz etmeye çalışırken ve bu zorlukların nasıl çözüleceğini açıklayan üç bölümlük bir dizinin ilkidir. Bugünkü gönderi, birden fazla dahili kaynağı birleştirirken ortaya çıkan sorunlara odaklanıyor. Sonraki iki yazı, dış veri kaynakları eklendikçe bu sorunların neden karmaşıklıkta arttığını ve yeni yaklaşımların bunları çözmeye nasıl yardımcı olduğunu açıklıyor.

Bağlanmak ve Haritalamak Zor Farklı Kaynaklardan Veriler

Farklı kaynaklardan gelen veriler, dahili kaynaklardan gelen veriler bile veri türlerini birbirine bağlamayı ve haritalamayı zorlaştıran farklı yapılara sahiptir. Müşterilerin birden fazla hesap numarası varsa veya bir kuruluş başka şirketlerle birleşmişse veya birleşmişse, verileri birleştirmek özellikle zor olabilir. Son birkaç yıldır, bazı kuruluşlar Hadoop'ta depolanan birden çok kaynaktan veri analiz etmek için veri keşfi veya veri bilimi uygulamalarını kullanmaya çalıştı. Bu yaklaşım sorunludur çünkü çok fazla tahminde bulunur: kullanıcılar, çeşitli veri kaynaklarını bağlamak ve veri modeli yer paylaşımları oluştururken varsayımlar yapmak için hangi yabancı anahtarların kullanılacağına karar vermek zorundadır. Bu tahminlerin test edilmesi zordur ve ölçekte uygulandığında genellikle yanlıştır, bu da hatalı veri analizine ve kaynakların güvensizliğine yol açar.

Hadoop Uzmanları Verileri Birlikte Birleştirmeye Çalışıyor

Bu nedenle, veri kaynakları üzerindeki verileri analiz etmek isteyen kuruluşlar, veri kümelerini birleştirmek için özel, kaynağa özgü komut dosyaları oluşturmak üzere Hadoop uzmanlarını işe almaya başvurmuştur. Bu Hadoop uzmanları genellikle veri entegrasyonu veya varlık çözümleme uzmanları değildir, ancak kuruluşun acil ihtiyaçlarını karşılamak için ellerinden gelenin en iyisini yaparlar. Bu uzmanlar genellikle belirli kaynaklardan yapılandırılmış verilerin nasıl birleştirileceğini belirleyen sert veya hızlı kurallar yazmak için Pig veya Java kullanır; örneğin, bir hesap numarasına dayalı kayıtların eşleştirilmesi. İki kaynak için bir komut dosyası yazıldıktan sonra, üçüncü bir kaynağın eklenmesi gerekiyorsa, ilk komut dosyasının atılması ve üç belirli kaynağı birleştirmek için yeni bir komut dosyası tasarlanması gerekir. Başka bir kaynak eklenirse de aynı şey olur. Bu yaklaşım sadece verimsiz olmakla kalmaz, aynı zamanda ölçekte uygulandığında da başarısız olur, kenar durumlarını kötü işler, çok sayıda yinelenen kayıtla sonuçlanabilir ve çoğu zaman birleştirilmemesi gereken birçok kaydı birleştirir.

Hadoop analizi: birden çok veri kaynağında o kadar kolay değil