İçindekiler:
- Büyük Veri Yapılandırılmamış veya Yarı Yapılandırılmış
- Büyük Veriyi İşleyemezsek Saklamanın Bir Anlamı Yok
- Hadoop Büyük Veri Problemini Nasıl Çözüyor?
- Hadoop için İş Davası
Büyük veri … iyi … büyük boyutlu! Tam olarak ne kadar verinin büyük veri olarak sınıflandırılabileceği çok kesin değildir, bu yüzden bu tartışmaya girmeyelim. Gigabayt cinsinden verilerle uğraşan küçük bir şirket için 10 TB veri BÜYÜK olurdu. Ancak Facebook ve Yahoo gibi şirketler için petabaytlar büyük.
Yalnızca büyük verilerin boyutu, veritabanları veya geleneksel dosyalayıcılar gibi geleneksel depolama alanında depolamayı imkansız hale getirir (veya en azından maliyet engelleyici). Gigabaytlarca veri depolamanın maliyetinden bahsediyoruz. Geleneksel depolama dosyalarının kullanılması, büyük verileri depolamak için çok paraya mal olabilir.
Burada büyük verilere, zorluklarına ve Hadoop'un bunları çözmeye nasıl yardımcı olabileceğine bakacağız. İlk olarak, büyük verilerin en büyük zorlukları.
Büyük Veri Yapılandırılmamış veya Yarı Yapılandırılmış
Birçok büyük veri yapılandırılmamıştır. Örneğin, tıklama akışı günlüğü verileri aşağıdaki gibi görünebilir:
zaman damgası, kullanıcı_kimliği, sayfa, yönlendiren_sayfası
Yapı eksikliği ilişkisel veritabanlarını büyük veri depolamak için çok uygun hale getirmez. Ayrıca, pek çok veritabanı milyarlarca veri satırı depolamakla baş edemez.
Büyük Veriyi İşleyemezsek Saklamanın Bir Anlamı Yok
Büyük verilerin depolanması oyunun bir parçasıdır. Bunu istihbarattan çıkarmak için işlemeliyiz. Geleneksel depolama sistemleri, sadece bitleri depolamaları açısından oldukça "aptal". Herhangi bir işlem gücü sunmuyorlar.
Geleneksel veri işleme modelinde, işlem için bir hesaplama kümesine kopyalanan bir depolama kümesinde depolanan veriler bulunur. Sonuçlar depolama kümesine geri yazılır.
Bununla birlikte, bu model büyük veriler için pek işe yaramaz çünkü bir hesaplama kümesine çok fazla veri kopyalamak çok zaman alıcı veya imkansız olabilir. Peki cevap nedir?
Bir çözüm, hesaplama kümesi olarak ikiye katlama gibi bir depolama kümesinde olduğu gibi büyük verileri yerinde işlemektir.
Yukarıda gördüğümüz gibi, büyük veriler geleneksel depolamaya meydan okuyor. Peki büyük verileri nasıl ele alacağız?
Hadoop Büyük Veri Problemini Nasıl Çözüyor?
Hadoop bir makine kümesinde çalışacak şekilde üretilmiştirBir örnekle başlayalım. Diyelim ki çok sayıda fotoğraf depolamamız gerekiyor. Tek bir diskle başlayacağız. Tek bir diski aştığımızda, bir makinede yığılmış birkaç disk kullanabiliriz. Tüm diskleri tek bir makinede maksimumda tuttuğumuzda, her biri bir grup diske sahip bir grup makine almamız gerekir.
Hadoop tam da böyle inşa edildi. Hadoop, en başından beri bir dizi makine üzerinde çalışacak şekilde tasarlanmıştır.
Hadoop kümeleri yatay olarak ölçeklenir
Bir Hadoop kümesine daha fazla düğüm eklenerek daha fazla depolama ve hesaplama gücü elde edilebilir. Bu, daha güçlü ve pahalı donanım satın alma ihtiyacını ortadan kaldırır.
Hadoop yapılandırılmamış / yarı yapılandırılmış verileri işleyebilir
Hadoop depoladığı veriler üzerinde şema uygulamaz. Rasgele metin ve ikili verileri işleyebilir. Böylece Hadoop yapılandırılmamış verileri kolayca sindirebilir.
Hadoop kümeleri depolama ve bilgi işlem sağlar
Ayrı depolama ve işleme kümelerine sahip olmanın büyük veriler için en uygun yöntem olmadığını gördük. Ancak Hadoop kümeleri, hepsi bir arada depolama ve dağıtılmış bilgi işlem sağlar.
Hadoop için İş Davası
Hadoop büyük veriler için makul maliyetle depolama sağlarGeleneksel verileri kullanarak büyük verileri depolamak pahalı olabilir. Hadoop emtia donanımı etrafında inşa edilmiştir, bu nedenle makul bir maliyetle oldukça büyük depolama sağlayabilir. Hadoop tarlada petabayt ölçeğinde kullanılmıştır.
Cloudera tarafından yapılan bir araştırma, işletmelerin genellikle terabayt başına yılda yaklaşık 25.000 ila 50.000 $ harcadığını öne sürdü. Hadoop ile bu maliyet yılda terabayt başına birkaç bin dolara düşer. Donanım gittikçe azaldıkça, bu maliyet düşmeye devam ediyor.
Hadoop yeni veya daha fazla verinin yakalanmasına izin verir
Bazen kuruluşlar bir tür veri yakalamaz, çünkü bunları depolamak çok maliyetli değildir. Hadoop makul bir maliyetle depolama sağladığından, bu tür veriler yakalanabilir ve saklanabilir.
Bir örnek web sitesi tıklama günlükleri olabilir. Bu günlüklerin hacmi çok yüksek olabileceğinden, birçok kuruluş bunları yakalamadı. Şimdi Hadoop ile günlükleri yakalamak ve saklamak mümkün.
Hadoop ile verileri daha uzun süre saklayabilirsiniz
Depolanan verilerin hacmini yönetmek için şirketler periyodik olarak eski verileri temizler. Örneğin, eski günlükler silinirken yalnızca son üç aylık günlükler saklanabilir. Hadoop ile geçmiş verileri daha uzun süre saklamak mümkündür. Bu, eski geçmiş veriler üzerinde yeni analizlerin yapılmasını sağlar.
Örneğin, bir web sitesinden tıklama günlüklerini alın. Birkaç yıl önce, bu günlükler popüler sayfalar gibi istatistikleri hesaplamak için kısa bir süre saklandı. Şimdi Hadoop ile bu tıklama günlüklerini daha uzun süre saklamak uygundur.
Hadoop ölçeklenebilir analitik sağlar
Analiz edemezsek tüm bu verileri depolamanın bir anlamı yoktur. Hadoop sadece dağıtılmış depolama sağlamakla kalmaz, aynı zamanda dağıtılmış işlem de sağlar, bu da büyük miktarda veriyi paralel olarak sıkıştırabileceğimiz anlamına gelir. Hadoop'un hesaplama çerçevesine MapReduce adı verilir. MapReduce petabayt ölçeğinde kanıtlanmıştır.
Hadoop zengin analitik sağlar
Yerel MapReduce, birincil programlama dili olarak Java'yı destekler. Ruby, Python ve R gibi diğer diller de kullanılabilir.
Tabii ki, özel MapReduce kodu yazmak Hadoop'taki verileri analiz etmenin tek yolu değildir. Daha yüksek seviyeli Harita Azaltma özelliği mevcuttur. Örneğin, Pig adlı bir araç İngilizce gibi veri akışı dilini alır ve bunları MapReduce'a çevirir. Başka bir araç olan Hive, SQL sorguları alır ve bunları MapReduce kullanarak çalıştırır.
İş zekası (BI) araçları daha da yüksek düzeyde analiz sağlayabilir. Bu tür analizler için de araçlar vardır.
Bu içerik Mark Kerzner ve Sujee Maniyam tarafından "Hadoop Illuminated" den alınmıştır. Creative Commons Atıf-NonCommercial-ShareAlike 3.0 Aktarılmamış Lisansı yoluyla kullanıma sunulmuştur.