İçindekiler:
Herkes, geliştiriciler arasında çok değerli olan ve dünyayı değiştirebilecek yeni teknoloji Hadoop hakkında konuşuyor. Ama sadece ne oldu? Bir programlama dili mi? Bir veritabanı mı? Bir işleme sistemi mi? Bir Hint çayı rahat?
Geniş cevap: Hadoop bunların hepsi (çay rahat hariç) ve daha fazlası. Başka bir modern moda sözcük olan büyük verilerin ucuz ve kullanışlı bir şekilde işlenmesi için bir programlama çerçevesi sağlayan bir yazılım kütüphanesidir.
Hadoop nereden geldi?
Apache Hadoop, görevi "kamu yararı için yazılım sağlamak" olan kar amacı gütmeyen bir kuruluş olan Apache Yazılım Vakfı'nın Vakıf Projesi'nin bir parçasıdır. Bu nedenle, Hadoop kütüphanesi tüm geliştiriciler için ücretsiz, açık kaynaklı bir yazılımdır.
Hadoop'a güç veren temel teknoloji aslında Google tarafından icat edildi. İlk günlerde, oldukça dev olmayan arama motorunun İnternet'ten topladıkları büyük miktarda veriyi endekslemenin ve kullanıcıları için anlamlı, alakalı sonuçlara dönüştürmenin bir yoluna ihtiyacı vardı. Pazarda gereksinimlerini karşılayabilecek hiçbir şey bulunmayan Google, kendi platformlarını oluşturdu.
Bu yenilikler, daha sonra Hadoop'un temel olarak kullandığı Nutch adlı açık kaynaklı bir projede yayınlandı. Esasen, Hadoop Google'ın gücünü büyük boyutlara her ölçekteki şirket için uygun bir şekilde uygular.
Hadoop nasıl çalışır?
Daha önce de belirtildiği gibi, Hadoop bir şey değil - çok şey. Hadoop olan yazılım kütüphanesi, dört ana parçadan (modüller) ve gerçek dünyadaki kullanımını geliştiren bir dizi eklenti çözümünden (veritabanları ve programlama dilleri gibi) oluşur. Dört modül:- Hadoop Common: Bu, Hadoop modüllerini destekleyen ortak yardımcı programların (ortak kütüphane) toplanmasıdır.
- Hadoop Dağıtılmış Dosya Sistemi (HDFS): Depolanmış veriler üzerinde herhangi bir kısıtlama bulunmayan (verilerin yapılandırılmış veya yapılandırılmamış ve şematik olabileceği anlamına gelen sağlam bir dağıtılmış dosya sistemi (burada birçok DFS, yedekli verilerle yüksek verimli erişim sağlar) HDFS, verilerin birden fazla makinede depolanmasına izin verir; bu nedenle, bir makine arızalanırsa, diğer makineler aracılığıyla kullanılabilirlik korunur).
- Hadoop İPLİK: Bu çerçeve iş planlaması ve küme kaynak yönetiminden sorumludur; yedekliliği sağlamak için verilerin birden fazla makineye yeterince yayılmasını sağlar. YARN, Hadoop'u büyük verileri işlemek için uygun maliyetli ve uygun maliyetli bir yöntem haline getiren modüldür.
- Hadoop MapReduce: Google teknolojisine dayanan bu YARN tabanlı sistem, büyük veri kümelerinin (yapılandırılmış ve yapılandırılmamış) paralel işlenmesini gerçekleştirir. MapReduce, MPP ve NoSQL veritabanları dahil günümüzün büyük veri işleme çerçevelerinin çoğunda da bulunabilir.
Büyük verilerle çalışmak için gereken işlem gücü miktarını işleyebilen donanım, hafifçe koymak pahalıdır. Bu, Hadoop'un gerçek yeniliğidir: her biri kendi yerelleştirilmiş hesaplama ve depolamasına sahip birden çok, daha küçük makinede büyük miktarlarda işlem gücünü parçalama yeteneği ve arızaları önlemek için uygulama düzeyinde yerleşik artıklık.
Hadoop ne yapar?
Basitçe ifade etmek gerekirse, Hadoop büyük verileri herkes için erişilebilir ve kullanılabilir hale getirir.
Hadoop'tan önce, büyük veri kullanan şirketler çoğunlukla ilişkisel veritabanları ve kurumsal veri depoları (büyük miktarda pahalı donanım kullanan) ile bunu yaptılar. Bu araçlar yapılandırılmış verileri (zaten yönetilebilir bir şekilde sıralanan ve organize edilen veriler) işlemek için mükemmel olsa da, yapılandırılmamış verileri işleme kapasitesi son derece sınırlıydı ve pratikte mevcut değildi. Kullanılabilir olması için verilerin önce tablolara düzgün bir şekilde sığacak şekilde yapılandırılması gerekiyordu.
Hadoop çerçevesi bu gereksinimi değiştirir ve bunu ucuza yapar. Hadoop ile, hem yapılandırılmış hem de yapılandırılmamış 10 ila 100 gigabayt ve üstü büyük miktardaki veriler, sıradan (emtia) sunucular kullanılarak işlenebilir.
Hadoop, her sektörde her büyüklükteki işletmeye potansiyel büyük veri uygulamaları getiriyor. Açık kaynaklı çerçeve, finans şirketlerinin portföy değerlendirmesi ve risk analizi için karmaşık modeller oluşturmalarına veya çevrimiçi perakendecilerin arama cevaplarına ince ayar yapmalarını ve müşterileri satın alma olasılıkları daha yüksek olan ürünlere yönlendirmelerini sağlar.
Hadoop ile olasılıklar gerçekten sınırsızdır.