Ev It-İş Büyük ve küçük veri: gerçek değer nerede?

Büyük ve küçük veri: gerçek değer nerede?

İçindekiler:

Anonim

Büyük veri, büyük hacimli verilerin işlenmesini ifade etmek için kullanılan kapsamlı bir kelimedir. Hepimiz veri hacmi arttıkça daha karmaşık hale geldiğini biliyoruz. Geleneksel veritabanı çözümleri, karmaşıklıkları ve boyutları nedeniyle büyük hacimli verileri düzgün bir şekilde yönetemez. Bu nedenle, büyük miktarda veriyi yönetmek ve gerçek bilgileri elde etmek zor bir iştir. Aynı "değer" kavramı küçük veriler için de geçerlidir.

Büyük Veri Nasıl Kullanılır

RDBMS konseptine dayanan geleneksel veritabanı çözümleri, işlem verilerini çok iyi yönetebilir ve farklı uygulamalarda yaygın olarak kullanılır. Ancak, büyük bir veri kümesini (arşivlenmiş ve terabayt veya petabayt olan veriler) ele almak söz konusu olduğunda, bu veritabanı çözümleri genellikle başarısız olur. Bu veri kümeleri çok büyük ve çoğu zaman geleneksel veritabanlarının mimarisine uymuyorlar. Günümüzde, büyük veri, daha büyük veri kümelerinin işlenmesinde maliyet etkin bir yaklaşım haline gelmiştir. Organizasyonel bir bakış açısından, büyük verilerin kullanımı aşağıdaki kategorilere ayrılabilir, burada büyük verilerin gerçek değeri bulunur:

  • Analitik Kullanım

    Büyük veri analistleri, verilerin işlenmesi için çok maliyetli olan birçok önemli gizli yönünü ortaya çıkarmıştır. Örneğin, öğrencilerin yeni bir konudaki trend ilgisini kontrol etmek zorunda kalırsak, bunu günlük katılım kayıtlarını ve diğer sosyal ve coğrafi gerçekleri analiz ederek yapabiliriz. Bu gerçekler veritabanında yakalanır. Bu verilere verimli bir şekilde erişemezsek, sonuçları göremeyiz.

  • Yeni Ürünleri Etkinleştir

    Yakın geçmişte, Facebook gibi birçok yeni Web şirketi, büyük verileri yeni ürünler başlatmak için bir çözüm olarak kullanmaya başladı. Hepimiz Facebook'un ne kadar popüler olduğunu biliyoruz - büyük verileri kullanarak yüksek performanslı bir kullanıcı deneyimi başarıyla hazırladı.

Gerçek Değer Nerede?

Farklı büyük veri çözümleri, veri depoladıkları yaklaşımda farklılık gösterir, ancak sonuçta hepsi düz bir dosya yapısında veri depolar. Genel olarak, Hadoop dosya sistemi ve bazı işletim sistemi düzeyinde veri soyutlamalarından oluşur. Buna bir MapReduce motoru ve Hadoop Dağıtılmış Dosya Sistemi (HDFS) dahildir. Basit bir Hadoop kümesi, bir ana düğüm ve birkaç çalışan düğüm içerir. Ana düğüm aşağıdakilerden oluşur:

  • Görev İzleyici
  • İş Takibi
  • İsim Düğümü
  • Veri Düğümü
Çalışan düğümü aşağıdakilerden oluşur:
  • Görev İzleyici
  • Veri Düğümü

Bazı uygulamalarda yalnızca veri düğümü bulunur. Veri düğümü, verilerin bulunduğu gerçek alandır. HDFS, birden fazla makineye dağıtılan büyük dosyaları (terabayt ila petabayt aralığında) depolar. Her düğümdeki verilerin güvenilirliği, verilerin tüm ana bilgisayarlarda çoğaltılmasıyla elde edilir. Böylece, düğümlerden biri kapalı olsa bile veriler kullanılabilir. Bu, sorgulara karşı daha hızlı yanıt alınmasına yardımcı olur. Bu kavram Facebook gibi büyük uygulamalar için çok kullanışlıdır. Bir kullanıcı olarak, sohbet isteğimize, örneğin hemen hemen bir yanıt alırız. Kullanıcının sohbet ederken uzun süre beklemesi gereken bir senaryo düşünün. Mesaj ve sonraki yanıt hemen teslim edilmezse, bu sohbet araçlarını kaç kişi kullanacak?

Facebook uygulamasına geri dönersek, veriler kümeler arasında çoğaltılmazsa, çekici bir uygulamaya sahip olmak mümkün olmayacaktır. Hadoop, verileri daha büyük bir kümedeki makineler arasında dağıtır ve dosyaları bir dizi blok olarak depolar. Bu bloklar son blok hariç aynı boyuttadır. Bloğun boyutu ve çoğaltma faktörü ihtiyaca göre özelleştirilebilir. HDFS'deki dosyalar kesinlikle bir kez yaz yaklaşımını izler ve bu nedenle aynı anda yalnızca bir kullanıcı tarafından yazılabilir veya düzenlenebilir. Blokların çoğaltılmasına ilişkin kararlar isim düğümü tarafından verilir. Ad düğümü, veri düğümlerinin her birinden raporlar ve darbe yanıtları alır. Darbe yanıtları, karşılık gelen veri düğümünün kullanılabilirliğini sağlar. Rapor, veri düğümündeki blokların ayrıntılarını içerir.


Bir başka büyük veri uygulaması olan Cassandra da benzer bir dağıtım konsepti kullanıyor. Cassandra verileri coğrafi konuma göre dağıtır. Bu nedenle Cassandra'da veriler, veri kullanımının coğrafi konumuna göre ayrılır.

Bazen Küçük Veriler Daha Büyük (ve Daha Az Pahalı) Etki Yaratır

Açık Bilgi Vakfı'nın Rufus Pollock'a göre, büyük veriler etrafında aldatmaca oluşturmanın bir anlamı yoktur, küçük veriler hala gerçek değerin bulunduğu yerdir.


Adından da anlaşılacağı gibi, küçük veriler, daha büyük bir veri kümesinden hedeflenen bir veri kümesidir. Küçük veriler, odağı veri kullanımından kaydırmayı amaçlar ve aynı zamanda büyük verilere geçme eğilimine karşı koymayı amaçlar. Küçük veri yaklaşımı, daha az çaba harcayarak belirli gereksinimlere dayalı veri toplanmasına yardımcı olur. Sonuç olarak, iş zekasını uygularken daha verimli iş uygulamalarıdır.


Özünde, küçük veri kavramı, başka eylemler gerektiren sonuçlar gerektiren işletmeler etrafında dönmektedir. Bu sonuçların hızlı bir şekilde getirilmesi ve sonraki eylemin de derhal yürütülmesi gerekir. Böylece, büyük veri analizlerinde yaygın olarak kullanılan sistem türlerini ortadan kaldırabiliriz.


Genel olarak, büyük veri elde etmek için gereken belirli sistemlerden bazılarını düşünürsek, bir şirket çok sayıda sunucu depolama alanı kurmaya yatırım yapabilir, farklı veri parçalarını işlemek için gelişmiş üst düzey sunucular ve en son veri madenciliği uygulamalarını kullanabilir kullanıcı işlemlerinin tarihleri ​​ve saatleri, demografik bilgiler ve diğer bilgiler dahil. Bu veri kümesinin tamamı, verileri ayrıntılı raporlar şeklinde görüntülemek üzere sıralamak ve işlemek için karmaşık algoritmaların kullanıldığı merkezi bir veri ambarına taşınır.


Hepimiz biliyoruz ki bu çözümler ölçeklenebilirlik ve kullanılabilirlik açısından birçok işletmeye yarar sağlamıştır; bu yaklaşımları benimsemenin büyük çaba gerektirdiğini tespit eden kuruluşlar vardır. Bazı durumlarda benzer sonuçların daha az sağlam bir veri madenciliği stratejisi kullanılarak elde edildiği de doğrudur.


Küçük veriler, kuruluşların daha karmaşık iş süreçlerini destekleyen en yeni ve en yeni teknolojilere yönelik bir saplantıdan geri çekilmeleri için bir yol sağlar. Küçük verileri tanıtan şirketler, iş açısından kaynaklarının verimli bir şekilde kullanılmasının önemli olduğunu savunurlar, böylece teknolojiye fazla harcama yapmak bir ölçüde önlenebilir.


Büyük veri ve küçük veri gerçeklikleri hakkında çok tartıştık, ancak doğru kullanım için doğru platformun (büyük veri veya küçük veri) seçilmesinin tüm egzersizin en önemli parçası olduğunu anlamalıyız. Ve gerçek şu ki, büyük veriler birçok fayda sağlarken, her zaman en iyisi değildir.

Büyük ve küçük veri: gerçek değer nerede?