Ev Trendler 7 hadoop hakkında bilinmesi gerekenler

7 hadoop hakkında bilinmesi gerekenler

İçindekiler:

Anonim

Hadoop nedir? Sarı bir oyuncak fil. Ne bekliyordun? Buna ne dersiniz: Bu açık kaynaklı yazılım projesinin ortak yaratıcısı Doug Cutting, oyuncak fil Hadoop adını veren oğlunun adını ödünç aldı. Özetle, Hadoop, Apache Software Foundation tarafından geliştirilen ve veri yoğun, dağıtılmış bilgi işlem geliştirmek için kullanılan bir yazılım çerçevesidir. Ve bu, başka bir anahtar kelime okuyucusunun önemli bir bileşenidir. İşte bu benzersiz, özgürce lisanslanmış yazılım hakkında bilmeniz gereken yedi şey.

Hadoop nasıl başladı?

On iki yıl önce Google, topladığı devasa miktarda veriyi değiştirmek için bir platform oluşturdu. Şirketin sıklıkla yaptığı gibi Google, tasarımını iki belge şeklinde halka açık hale getirdi: Google Dosya Sistemi ve MapReduce.


Aynı zamanda Doug Cutting ve Mike Cafarella yeni bir arama motoru olan Nutch üzerinde çalışıyorlardı. İkisi de büyük miktarda verinin nasıl işleneceğiyle mücadele ediyordu. Sonra iki araştırmacı Google'ın makalelerini sundu. Bu şanslı kavşak, Cutting ve Cafarella'yı daha iyi bir dosya sistemine ve verileri takip etmenin bir yolunu sunarak her şeyi değiştirdi ve sonunda Hadoop'un yaratılmasına yol açtı.

Hadoop hakkında bu kadar önemli olan nedir?

Bugün veri toplamak hiç bu kadar kolay olmamıştı. Tüm bu verilere sahip olmak birçok fırsat sunar, ancak zorluklar da vardır:

  • Çok miktarda veri yeni işleme yöntemleri gerektirir.
  • Yakalanan veriler yapılandırılmamış bir biçimde.
Büyük miktarda yapılandırılmamış veriyi manipüle etme zorluklarının üstesinden gelmek için Cutting ve Cafarella iki parçalı bir çözüm buldu. Veri miktarı sorununu çözmek için, Hadoop dağıtılmış bir ortam kullanır - bir emtia sunucuları ağı - paralel bir işlem kümesi oluşturur ve bu da atanan göreve daha fazla işlem gücü getirir.


Daha sonra, yapılandırılmamış verileri veya standart ilişkisel veritabanı sistemlerinin işleyemediği biçimlerdeki verileri ele almak zorunda kaldılar. Kesme ve Cafarella, Hadoop'u her türlü veriyle çalışacak şekilde tasarladı: yapılandırılmış, yapılandırılmamış, görüntüler, ses dosyaları, hatta metin. Bu Cloudera (Hadoop entegratörü) tanıtım belgesi bunun neden önemli olduğunu açıklıyor:

    "Hadoop, yalnızca veri tabanlarınızdakileri değil, tüm verilerinizi kullanılabilir hale getirerek gizli ilişkileri ortaya çıkarmanıza ve her zaman erişilemeyen yanıtları ortaya çıkarmanıza olanak tanır. Önseziler yerine sabit verilere dayalı daha fazla karar vermeye başlayabilir ve bakabilirsiniz. yalnızca veri ve özetleri değil, eksiksiz veri kümelerinde. "

Okumada Şema nedir?

Daha önce de belirtildiği gibi, Hadoop'un avantajlarından biri, yapılandırılmamış verileri işleme yeteneğidir. Bir anlamda, "kutuyu yoldan tekmelemek". Sonunda verilerin analiz edilmesi için bir çeşit yapıya ihtiyacı vardır.


Burada okuma şeması devreye girer. Okumadaki şema, verilerin hangi formatta olduğu, verilerin nerede bulunacağı (verilerin birkaç sunucu arasında dağıldığını hatırlayın) ve verilere ne yapılması gerektiği - basit bir görev değil. Bir Hadoop sistemindeki verilerin manipüle edilmesinin bir iş analisti, bir istatistikçi ve bir Java programcısının becerilerini gerektirdiği söylenir. Ne yazık ki, bu niteliklere sahip çok fazla insan yok.

Kovan nedir?

Hadoop başarılı olacaksa, verilerle çalışmanın basitleştirilmesi gerekiyordu. Böylece, açık kaynak kalabalığı işe koyuldu ve Hive'ı yarattı:

    "Hive, HiveQL adlı SQL benzeri bir dil kullanarak yapıyı bu verilere yansıtmak ve verileri sorgulamak için bir mekanizma sağlar. Aynı zamanda bu dil, geleneksel harita / azaltma programcılarının uygunsuz olduğunda özel haritacılarını ve redüktörlerini takmalarına veya HiveQL'de bu mantığı ifade etmek yetersiz. "

Kovan her iki dünyanın da en iyisini sağlar: SQL komutlarına aşina olan veritabanı personeli verileri manipüle edebilir ve okuma işlemindeki şemaya aşina olan geliştiriciler hala özelleştirilmiş sorgular oluşturabilir.

Hadoop ne tür verileri analiz eder?

Web analitiği, web sitelerini optimize etmek için Web günlüklerini ve Web trafiğini analiz eden ilk akla gelen şeydir. Örneğin Facebook, şirketin topladığı terabaytlarca veriyi sıralamak için Hadoop'u kullanarak kesinlikle Web analitiğine giriyor.


Şirketler risk analizi, sahtekarlık tespiti ve müşteri bazında segmentasyon yapmak için Hadoop kümelerini kullanır. Kamu hizmeti şirketleri, elektrik şebekelerindeki sensör verilerini analiz etmek için Hadoop'u kullanarak elektrik üretimini optimize etmelerini sağlar. Target, 3M ve Medtronics gibi büyük şirketler Hadoop'u ürün dağıtımını, iş riski değerlendirmelerini ve müşteri tabanı segmentasyonunu optimize etmek için kullanıyor.


Üniversiteler de Hadoop'a yatırım yapıyor. Thomas St.Lisans Yazılım Lisansüstü Programlarında doçent olan Brad Rubin, Hadoop uzmanlığının üniversitedeki araştırma grupları tarafından derlenen bol miktarda veriyi sıralamaya yardımcı olduğunu belirtti.

Hadoop'a gerçek dünyadan bir örnek verebilir misiniz?

Daha iyi bilinen örneklerden biri TimesMachine'dir. New York Times gazetesinde 1851'den 1922'ye kadar terabaytlarca veri içeren tam sayfa gazete TIFF resimleri, ilişkili meta veriler ve makale metni bulunmaktadır. NYT'den Derek Gottfrid, bir EC2 / S3 / Hadoop sistemi ve özel kod kullanarak:

    "405.000 çok büyük TIFF görüntüsü, SGML'de 3.3 milyon makale ve 405.000 xml dosyası makaleleri TIFF'lerde dikdörtgen bölgelerle eşleştirdi. Bu veriler daha web dostu bir 810.000 PNG görüntüsüne (küçük resimler ve tam görüntüler) ve 405.000 JavaScript dosyasına dönüştürüldü. "

Amazon Web Services bulutundaki sunucuları kullanan Gottfrid, TimesMachine için gereken tüm verileri 36 saatten daha kısa sürede işleyebildiklerini belirtti.

Hadoop zaten eskimiş mi yoksa sadece dönüşüm mü yapıyor?

Hadoop on yılı aşkın bir süredir ortalıkta. Bunun çok eski olduğu söyleniyor. Bir uzman Dr. David Rico, "BT ürünleri kısa ömürlü. Köpek yıllarında Google'ın ürünleri yaklaşık 70, Hadoop 56'dır." Dedi.


Rico'nun söylediklerine dair bazı gerçekler olabilir. Görünüşe göre Hadoop büyük bir revizyondan geçiyor. Bu konuda daha fazla bilgi edinmek için Rubin beni bir Twin Cities Hadoop Kullanıcı Grubu toplantısına davet etti ve tartışma konusu YARN'a Giriş oldu:

    "Apache Hadoop 2, daha iyi ölçeklenebilirlik ve kaynak kullanımı da dahil olmak üzere önceki uygulamaya göre bir dizi avantaja sahip yeni bir MapReduce motoru içeriyor. Yeni uygulama, YARN adı verilen dağıtılmış uygulamaları çalıştırmak için genel bir kaynak yönetim sistemi üzerine inşa edilmiştir."
Hadoop, veritabanı ve içerik yönetimi çevrelerinde çok fazla vızıltı alır, ancak hala etrafında ve en iyi nasıl kullanılabileceği konusunda birçok soru var. Bunlar sadece birkaçı. Daha fazlasına sahipseniz, onları yolumuza gönderin. En iyilerini Techopedia.com'da cevaplayacağız.

7 hadoop hakkında bilinmesi gerekenler