Ev Donanım Büyük demir, büyük verileri karşılayın: hadoop ve kıvılcım ile ana bilgisayar verilerini özgürleştirme

Büyük demir, büyük verileri karşılayın: hadoop ve kıvılcım ile ana bilgisayar verilerini özgürleştirme

Anonim

Techopedia Staff tarafından, 2 Haziran 2016

Paket Servisi: Hadoop ekosistemi, ana verileri büyük veriyi hızlı ve verimli bir şekilde işlemek için kullanıyor.

Şu anda giriş yapmadınız. Lütfen videoyu görmek için giriş yapın veya üye olun.

Eric Kavanagh: Tamam bayanlar ve baylar, Perşembe günü saat dörtte Doğu ve bu günlerde elbette Sıcak Teknolojiler için zaman geldi. Evet, benim adım Eric Kavanagh. Bugünün web semineri için moderatörünüz olacağım. Bu iyi şeyler, millet, “Büyük Demir, Büyük Verilerle Tanışın” - Bu başlığa bayılıyorum - “Ana Gövde Verilerini Hadoop ve Spark ile Özgürleştirmek.” Eski buluşların yeni buluşlarından bahsedeceğiz. Vaov! Kurumsal BT'nin son 50 yılında bahsettiğimiz her şeyin kapsamını ele alıyoruz. Spark anabilgisayarla buluşuyor, bayıldım.

Senin hakkında gerçekten ve yeterince benim hakkımda bir nokta var. Yıl sıcak. Bu dizideki gündemdeki konular hakkında konuşuyoruz çünkü insanların bazı disiplinleri, belirli alanları anlamasına gerçekten yardımcı olmaya çalışıyoruz. Örneğin, analitik bir platforma sahip olmak ne anlama geliyor? Büyük verileri ana bilgisayarlardan kurtarmak ne anlama geliyor? Bütün bunlar ne anlama geliyor? Karışıma uydukları belirli teknolojileri ve bunları nasıl kullanabileceğinizi anlamanıza yardımcı olmaya çalışıyoruz.

Bugün iki analistimiz var ve elbette Syncsort'un Tendü Yogurtçu. Kendi Dez Blanchfield ve Dr. Robin Bloor ile, bugün onu çevrimiçi olarak görmekten çok memnun olan uzayımızda vizyoner. Birkaç hızlı söz söyleyeceğim. Birincisi, millet, bu süreçte büyük bir rol oynuyorsunuz, bu yüzden lütfen bazı iyi sorular sormaktan çekinmeyin. Web şovunun, genellikle gösterinin sonunda olan Soru-Cevap bileşeni sırasında onlara ulaşmak istiyoruz. Söylemem gereken tek şey çok iyi içeriğimiz var, bu yüzden bu çocukların söylediklerini duymaktan heyecan duyuyorum. Ve bununla, bunu Dez Blanchfield'a vereceğim. Dez, zemin senin, götür onu.

Dez Blanchfield: Teşekkürler, Eric ve bugün katıldığınız için herkese teşekkürler. Bu yüzden dünyadaki en sevdiğim şeylerden biri olan ana bilgisayarlar hakkında konuşma şansım olduğunda oldukça heyecanlanıyorum. Bu günlerde çok fazla sevmiyorlar. Benim görüşüme göre ana bilgisayar orijinal büyük veri platformu oldu. Bazıları o zamanlar tek bilgisayar olduklarını ve bunun adil bir nokta olduğunu iddia ediyorlardı, ancak 60 yıldan uzun bir süredir gerçekten büyük verilerin geç olduğu popüler olan makine odası haline gelmişlerdi. Ve neden böyle olduğuna inandığım konusunda sizi küçük bir yolculuğa çıkaracağım.

Ana ekranlar bağlamında teknoloji donanım yığınlarında artık ekranda gördüğünüz görüntüden bir yolculuk gördük. Bu eski bir FACOM anabilgisayarı, favorilerimden biri. Kendimizi büyük demir aşamasına, doksanların sonlarına ve dot-com patlamasına taşıdık. Bu Sun Microsystems E10000. Bu şey 96 CPU'da mutlak bir canavardı. Başlangıçta 64 ama 96 CPU'da yükseltilebilir. Her CPU 1.024 iş parçacığı çalıştırabilir. Her bir iş parçacığı aynı anda uygulama hızında olabilir. Sadece korkunçtu ve aslında dot-com patlamasını güçlendirdi. Bunları dediğimiz gibi tüm büyük tek boynuzlu atlar, şimdi sadece büyük işletmeler değil, bazı büyük web siteleri değil, çalışıyoruz.

Ve sonra bu ortak kullanıma hazır emtia PC modeli ile sonuçlandı. Çok sayıda ucuz makineyi bir araya getirdik ve bir küme oluşturduk ve büyük demir sorununa ve özellikle Nado adlı açık kaynak arama motorunu ortaya çıkaran Hadoop projesi şeklinde büyük veriye yaklaştık. Esasen ana çerçeveyi ve çok sayıda küçük CPU'yu birbirine yapıştırdık ve L-yolları gibi davranabildik ve ayrı işler veya iş bölümleri yürütmek şeklinde yeniden yarattık ve birçok yönden oldukça etkili oldular. Daha küçük başladıysanız daha ucuzdur, ancak bu büyük kümelerin çoğu, bir ana bilgisayardan daha pahalı hale gelmiştir.

Bu konudaki görüşüm nokta-com patlamasından Web 2.0 olana kadarki acelede ve şimdi tek boynuzlu atların peşinde koşarken, bu platformun hala görev açısından kritik en büyük sistemlerimizin çoğunu güçlendirdiğini unutmuştuk. Ana bilgisayar platformlarında neyin çalıştığını düşündüğümüzde. Bu büyük veri, özellikle veri işgücü, ama kesinlikle büyük veri. Özellikle bankacılık ve varlık yönetimi ve sigorta gibi geleneksel işletme ve devlet sistemlerini hepimiz her gün kullanıyoruz.

Havayolu rezervasyon ve uçuş yönetim sistemleri, özellikle gerçek zamanlı kritik durumlarda uçuş yönetimi. Neredeyse her eyalet ve federal hükümet bir zamanlar bir ana çerçeveye sahipti ve her zaman birçoğu hala onlara sahip. Perakende ve imalat. Daha yeni olan ve hiç gitmeyen eski yazılımlardan bazıları. Sadece üretim ortamlarına güç vermeye devam ediyor ve kesinlikle ölçekte perakende. Tıbbi sistemler. Savunma sistemleri, kesinlikle savunma sistemleri.

Bu son birkaç hafta, bazı füze kontrol sistemlerinin hala parça bulmakta zorlandıkları eski ana çerçevelerde çalıştığı hakkında birçok makale okudum. Yeni ana karelere nasıl yükseltileceğini anlıyorlar. Taşımacılık ve lojistik sistemleri. Bunlar seksi konular gibi gelmeyebilir, ancak bunlar günlük olarak ele aldığımız konulardır. Ve bazı çok büyük telekomünikasyon ortamları hala ana bilgisayar platformlarında çalışıyor.

Orada bulunan veri türlerini düşündüğünüzde, hepsi görev açısından kritiktir. Her gün için aldığımız gerçekten önemli platformlar ve platformlar ve birçok yönden hayatı mümkün kılıyorlar. Peki hala kim ana bilgisayar kullanıyor ve bu büyük platformlara tutunan ve tüm bu verileri tutan kim? Burada söylediğim gibi, medyanın büyük demirden, yaygın kullanıma hazır kümelerin veya ucuz PC'lerin veya x86 makinelerinin raflarına kaymasının, ana bilgisayarın öldüğünü ve kaybolduğunu düşünmesine aldatmanın kolay olduğuna inanıyorum. Ancak veriler, ana bilgisayarın asla gitmediğini ve aslında burada kaldığını söylüyor.

Son birkaç haftada burada bir araya getirdiğim araştırma, girişimin, özellikle de büyük işletmelerin yüzde 70'inin, hala bir tür ana bilgisayarda olduğunu gösteriyor. Fortune 500'lerin yüzde yetmiş biri hala bir yerlerde ana bilgisayarlarda temel iş sistemleri kullanıyor. Aslında, burada, Avustralya'da bir şehrin ortasında bir veri merkezi olan birkaç organizasyonumuz var. Bu etkili bir gerçek yeraltı bilgisayarı ve orada çalışan ana bilgisayarların sayısı, işliyor ve mutlu bir şekilde işlerini yapıyor. Ve çok az insan, şehrin belirli bir bölümünde ayaklarının hemen altında sokaklarda yürürken, ana karelerle dolu bu büyük veri merkezinin olduğunu biliyor. Dünyadaki her 100 bankadan doksan ikisi, ilk 100 banka, halen ana karelerde bankacılık sistemleri kullanıyor. Dünyanın en büyük 25 perakende zincirinin yirmi üçü, perakende yönetim sistemlerini EIP ve BI platformlarında çalıştırmak için ana çerçeveleri kullanıyor.

İlginç bir şekilde, en iyi 10 sigortacının 10'u hala platformlarını anabilgisayarda çalıştırıyor ve aslında bulut hizmetlerini anabilgisayarda çalıştırıyorlar. Bir arayüzün olduğu bir yerde bir web arayüzü veya mobil uygulama kullanıyorsanız, aslında arka uçta gerçekten ağır ve büyük bir şeyle konuşur.

Dünya çapında hala ana bilgisayar platformlarında çalışan 225'den fazla devlet ve yerel yönetim ajansı buldum. Eminim bunun için bir çok sebep vardır. Belki de yeni demiri göz önünde bulundurmak için bütçeleri yoktur, ancak bu, ana karede çok kritik verilerle çalışan çok büyük ortamların büyük bir ayak izidir. Daha önce de belirttiğim gibi, çoğu ülke hala ana savunma sistemlerinde ana savunma sistemlerini işletiyor. Eminim birçok yönden inmeye çalışıyorlar ama işte gidiyorsunuz.

2015 yılında IDC bir anket yürüttü ve ankete katılan 350 CIO, hala ana demir şeklinde büyük demir sahibi olduklarını ve yönettiklerini bildirdi. Ve şu anda dünya çapında üretimde çalışan büyük ölçekli Hadoop kümelerinin sayısından daha fazla olması ilginçti - orada ilginç bir küçük istatistik. Devam edip doğrulayacağım, ama çok büyük bir rakamdı. Üç yüz elli CIO, halen üretimde olan bir veya daha fazla ana kareye sahip olduklarını bildirdi.

Geçen yıl 2015, IBM bize ana bilgisayar platformunun 13. yinelemesini yapan güçlü Z13'ü verdi. Medya bu konuda çıldırdı, çünkü IBM'in hala ana kareler yaptığını hayrete düşürüyorlardı. Kaputu kaldırdıklarında ve şeyin altında ne olduğuna baktıklarında, büyük veri, Hadoop ve kesinlikle kümeler şeklinde heyecanlandığımız hemen hemen her modern platformla eşit olduğunu fark ettiler. Bu şey Spark'ı ve şimdi Hadoop'u doğal olarak çalıştırdı. Üzerinde binlerce ve binlerce Linux makinesi çalıştırabilir ve başka bir küme gibi görünüp hissedebilirsiniz. Oldukça şaşırtıcı bir makineydi.

Bazı organizasyonlar bu şeyleri üstlendi ve aslında bu makinelerin ne kadarını aldığını gösteren bazı veriler yaptım. Şimdi 3270 metin terminalinin bir süredir web tarayıcıları ve mobil uygulamalar ile değiştirildiği görüşüne sahibim ve bunu destekleyen çok fazla veri var. Sanırım şimdi, bu ana çerçevelerin gitmediğini ve üzerinde önemli miktarda veri olduğunu fark ettiğimiz bir döneme giriyoruz. Şimdi yaptığımız şey, hazır analiz araçları dediğim şeyi eklemektir. Bunlar özel olarak oluşturulmuş uygulamalar değildir. Bunlar bir kerelik ısmarlama şeyler. Bunlar tam anlamıyla sadece paketlenmiş bir kutuda satın alabileceğiniz ve ana çerçevenize takabileceğiniz ve bazı analizler yapabileceğiniz şeyler.

Daha önce de söylediğim gibi, ana bilgisayar aslında 60 yılı aşkın bir süredir var. Bunun ne kadar uzun olduğunu düşündüğümüzde, bu çoğu yaşayan BT profesyonellerinin kariyerlerinin aslında daha uzun sürüyor. Ve aslında hayatlarının bir kısmı, hatta. 2002 yılında IBM 2.300 ana bilgisayar sattı. 2013 yılında bu 2.700 ana kareye ulaştı. Bu, 2013'te bir yılda 2.700 ana çerçeve satışı. 2015'te doğru veri alamadım, ancak 2015, 2013'te yılda satılan 3.000 birime hızla yaklaştığını hayal ediyorum. Ve bunu doğrulamak için sabırsızlanıyorum.

Z13'ün piyasaya sürülmesiyle birlikte, ana bilgisayar platformunun 13. tekrarlaması, sıfırdan gelişmeleri için yaklaşık 1.2 veya 1.3 milyar dolara mal olduğunu düşünüyorum, IBM, işte diğer tüm kümelere benzeyen ve hisseden bir makine bugün var ve yerel olarak Hadoop ve Spark'ı çalıştırıyoruz. Ve kesinlikle diğer analitiklerden ve büyük veri araçlarından veya sürekli olarak mevcut veya yeni Hadoop kümelerinizden birine bağlanabilir. Büyük veri stratejinize anabilgisayar platformunu dahil etmenin bir zorunluluk olduğunu düşünüyorum. Açıkçası, eğer bir tane varsa, çok fazla veriniz var ve bunu nasıl elde edeceğinizi bulmak istiyorsunuz. Ve iş dünyasına kadar zihinsel ve duygusal olarak birçok şekilde toz toplamak için bırakılıyorlar, ancak burada kalmak için buradalar.

Tüm analitik araçlarınızın ana bilgisayar tarafından barındırılan verilerle bağlantısı ve arayüzleri, kuruluşunuzun ve özellikle de devletin büyük veri planlarının önemli bir parçası olmalıdır. Ve her zaman yazılım şimdi onları fark ediyor, onlara uzun bir göz atıyor ve bu şeylerin içinde ne olduğunu fark ediyor ve aslında kaputun altında olan şey için biraz içgörü ve biraz his vermeye başlayan zihinleri birbirine bağlıyor. Ve bununla sevgili meslektaşım Dr. Robin Bloor'a teslim edeceğim ve o küçük yolculuğa katacak. Robin, götürün onu.

Robin Bloor: Teşekkürler. Tamam, Dez anabilgisayarın şarkısını söylediği için, eski anabilgisayar dünyası ve yeni Hadoop dünyası açısından olduğunu düşündüğüm şeylere gireceğim. Sanırım buradaki büyük soru, tüm bu verileri nasıl yönetiyorsunuz? Ana çerçevenin büyük veri kapasitesi ile ilgili olarak zorlandığına inanmıyorum - Dez'in işaret ettiği gibi, büyük veri kapasitesi son derece yeteneklidir. Aslında Hadoop kümelerini üzerine koyabilirsiniz. Meydan okunduğu yer onun ekosistemi ve bunun üzerinde biraz ayrıntıya gireceğim.

İşte bazı anabilgisayar konumlandırma. Ana girişlerin popülaritesinin düşmeye başladığı 90'ların ortalarından beri, düşük ana maliyetini, ucuz ana bilgisayarlar satın almış olan insanları kaybetme eğilimindeydi ve değildi. bu insanlar için gerçekten ekonomik değil. Ancak, aslında ana karenin orta ve yüksek menzillerinde daha yüksek, hala inanılmaz derecede ucuz hesaplama idi.

Linux tarafından kurtarıldığı söylenmelidir, çünkü bir ana bilgisayarda uygulanan Linux elbette tüm Linux uygulamalarını çalıştırmayı mümkün kılmıştır. Büyük veri bile bir kelime veya sanırım iki kelime olmadan önce birçok Linux uygulaması oraya gitti. Aslında özel bulut için oldukça mükemmel bir platform. Bu nedenle hibrit bulut dağıtımlarına katılabilir. Sorunlardan biri, ana bilgisayar becerilerinin yetersiz olmasıdır. Varolan ana bilgisayar becerileri, insanların sektörden emeklilik için yıldan yıla ayrılmaları ve sadece insan sayısıyla değiştirilmeleri bakımından yaşlanıyor. Yani bu bir sorun. Ama yine de ucuz bir bilgi işlem.

Meydan okunduğu alan elbette bu Hadoop olayı. Bu orijinal Hadoop fili ile Doug Cutting'in bir resmi. Hadoop ekosistemi - ve kalacak - baskın büyük veri ekosistemidir. Ana çerçevenin gerçekte elde edebileceğinden daha iyi ölçeklendirme sunar ve bir veri deposu olarak uzun bir maliyetle daha düşük maliyetlidir. Hadoop ekosistemi evrim geçiriyor. Bunu düşünmenin en iyi yolu bir zamanlar belirli bir donanım platformudur ve onunla birlikte çalışma ortamı baskın hale gelir, o zaman ekosistem canlanır. Ve bu IBM anabilgisayarında oldu. Peki, daha sonra Dijital VAX ile oldu, Sun'ın sunucuları ile, Windows ile oldu, Linux ile oldu.

Ve olan şey, veri için bir tür dağıtılmış ortam olarak her zaman düşündüğüm ya da düşünmeyi düşündüğüm Hadoop'un ekosistemin inanılmaz bir hızla evrimleşmesidir. Demek istediğim, sadece açık kaynak, Spark, Flink, Kafka, Presto gibi çeşitli etkileyici katkılardan bahsediyor ve daha sonra şu anda Hadoop'ta oturan bazı veritabanları, NoSQL ve SQL yeteneklerini ekliyorsunuz. Hadoop, kesinlikle kurumsal bilgi işlemde var olan en aktif ekosistemdir. Ancak bir veritabanı olarak ele almak istiyorsanız, şu anda gerçek veri tabanları olarak, özellikle de veri ambarı alanında düşünmeye meyilli olduğum şeyle herhangi bir karşılaştırma yapmıyor. Ve bu, CouchDB gibi Hadoop üzerinde çalışmayan bazı büyük NoSQL veritabanlarının başarısını belli bir dereceye kadar açıklıyor.

Bir veri gölü olarak, diğer platformlardan çok daha zengin bir ekosisteme sahiptir ve bundan çıkarılamaz. Ekosistemi sadece açık kaynaklı ekosistem değildir. Şimdi temelde Hadoop için üretilen veya Hadoop'a ithal edilen ürünlere sahip dramatik sayıda yazılım üyesi var. Ve sadece genişliği açısından onunla rekabet edebilecek hiçbir şeyin olmadığı bir ekosistem oluşturdular. Bu da büyük veri yenilikçiliği için bir platform haline geldiği anlamına geliyor. Ama bence hala olgunlaşmamıştı ve diyelim ki, Hadoop ile operasyonel olarak olgunlaşmış olan ve olmayan uzun tartışmalar yapabiliriz, ancak bu bölgeye bakan çoğu insanın Hadoop'un ana çerçevenin onlarca yıl gerisinde olduğunun farkında olduğunu düşünüyorum. operasyonel yetenek açısından.

Gelişen veri gölü. Veri gölü, herhangi bir tanım gereği bir platformdur ve eğer şirket bilgi işleminde bir veri katmanı olduğunu düşünüyorsanız, şimdi sabit veritabanları artı veri katmanını oluşturan veri gölü açısından düşünmek çok kolaydır. Veri gölü uygulamaları çok çeşitlidir. Burada, Hadoop'u bir evreleme alanı olarak veya Hadoop ve Spark'ı bir evreleme alanı olarak kullanmanız durumunda yapılması gereken çeşitli veri düzenleme işlemlerinden geçen bir diyagramım var. Ve her şeye sahipsiniz - veri kökenleri, veri temizleme, meta veri yönetimi, meta veri keşfi - ETL'nin kendisi için kullanılabilir, ancak genellikle verileri getirmek için ETL gerektirir. Ana veri yönetimi, verilerin iş tanımları, hizmet yönetimi Hadoop'ta neler olduğunu, verilerin yaşam döngüsü yönetimini ve Hadoop'tan ETL'yi ve ayrıca Hadoop üzerinde çalıştırabileceğiniz doğrudan analiz uygulamalarınız var.

Ve bu yüzden çok güçlü hale geldi ve başarıyla uygulandığı ve uygulandığı yerde, normalde en azından üzerinde çalışan bu tür uygulamaların bir koleksiyonuna sahiptir. Ve bu uygulamaların çoğu, özellikle de bilgilendirildiklerim, şu anda ana bilgisayarda mevcut değiller. Ancak bunları ana bilgisayarda, ana bilgisayarın bir bölümünde çalışan bir Hadoop kümesinde çalıştırabilirsiniz.

Veri gölü, bence, hızlı veritabanı analizi ve BI için doğal evreleme alanı haline geliyor. İster kurumsal veriler ister harici veriler olsun, verileri alacağınız yer olsun, diyelim ki, kullanmak için yeterince temiz ve kullanmak için iyi yapılandırılmış ve sonra onu aktaracak şekilde karıştırın. Ve tüm bunlar hala emekleme aşamasında.

Benim görüşüme göre, anabilgisayar / Hadoop bir arada yaşama fikri ilk şey, büyük şirketlerin anabilgisayarı terk etme ihtimalinin düşük olmasıdır. Aslında, son zamanlarda gördüğüm endikasyonlar, ana kareye artan bir yatırım olduğunu ima ediyor. Ancak Hadoop ekosistemini de görmezden gelmeyecekler. Birçoğu sadece prototip ve deneme yapıyor olsa bile, Hadoop kullanan büyük şirketlerin yüzde 60'ını görüyorum.

O zaman muamma, “Bu iki şeyi bir arada nasıl var edersiniz?” Dir çünkü verileri paylaşmaları gerekir. Veri gölüne getirilen veriler, ana kareye aktarılması gerekir. Ana çerçevede bulunan verilerin, diğer verilere katılmak için veri gölüne veya veri gölüne gitmesi gerekebilir. Ve bu olacak. Bu da hızlı veri aktarımı / ETL kapasitesi gerektirdiği anlamına gelir. İş yüklerinin dinamik olarak bir ana bilgisayar ortamında veya bir Hadoop ortamında bir şeyle paylaşılması pek olası değildir. Paylaşılan veriler olacak. Ve verilerin çoğu kaçınılmaz olarak Hadoop'ta kalacak çünkü sadece bunun için en düşük maliyetli platform. Ve uçtan uca analitik işleme muhtemelen orada da olacaktır.

Özetle, nihayetinde birçok şirket için ana kareyi içerecek bir kurumsal veri katmanı açısından düşünmemiz gerekir. Ve bu veri katmanının proaktif olarak yönetilmesi gerekiyor. Aksi takdirde ikisi iyi bir şekilde bir arada bulunmayacaktır. Topu sana geri verebilirim Eric.

Eric Kavanagh: Yine, Tendü Seni sadece sunum yapan kişi yaptım, götür onu.

Tendü Yogurtçu: Teşekkürler Eric. Beni kabul ettiğin için teşekkürler. Selam millet. Müşterilerle, kuruluştaki bir varlık olarak verileri ana bilgisayardan analitik platformlarındaki büyük verilere yükseltildiğini gördüğümüzle ilgili olarak Syncsort deneyiminden bahsedeceğim. Umarım oturumun sonunda izleyicilerden sorular almak için de zamanımız olur çünkü bu gerçekten bu web yayınlarının en değerli kısmı.

Sadece Syncsort'un ne yaptığını bilmeyen insanlar için Syncsort bir yazılım şirketidir. Aslında 40 yılı aşkın bir süredir varız. Ana bilgisayar tarafında başlatılan ürünlerimiz, ana bilgisayardan Unix'e, hem yerinde hem de bulutta Hadoop, Spark, Splunk gibi büyük veri platformlarına kadar uzanır. Odak noktamız her zaman veri ürünleri, veri işleme ve veri entegrasyon ürünleri olmuştur.

Büyük veri ve Hadoop ile ilgili stratejimiz ilk günden itibaren ekosistemin bir parçası olmak oldu. Gerçekten çok hafif motorlarla veri işlemeye odaklanan satıcıların sahipleri olarak, Hadoop'un bir veri işleme platformu haline gelmesi ve kuruluş için bu yeni nesil veri ambarı mimarisinin bir parçası olması için büyük bir fırsat olduğunu düşündük. MapReduce'dan başlayarak 2011 yılından bu yana açık kaynaklı Apache projelerine katkıda bulunuyoruz. Hadoop Sürüm 2 için ilk on içinde olan ve aslında Spark paketleri de dahil olmak üzere birçok projeye katıldı, bazı bağlayıcılarımız Spark paketlerinde yayınlandı.

Tamamen düz dosya tabanlı meta veriler olan ve Hadoop Dağıtılmış Dosya Sistemi gibi dağıtılmış dosya sistemleriyle çok iyi oturan çok hafif veri işleme motorumuzdan yararlanıyoruz. Büyük veri ürünlerimizi ortaya koyduğumuzda, ana bilgisayardaki mirasımızı, algoritmalarla uzmanlığımızı geliştiriyoruz. Ve burada büyük satıcılarla, Hortonworks, Cloudera, MapR, Splunk dahil olmak üzere büyük oyuncularla çok yakın işbirliği yapıyoruz. Hortonworks geçtiğimiz günlerde Hadoop ile ETL'ye giriş için ürünümüzü tekrar satacaklarını açıkladı. Dell ve Cloudera ile ETL ürünümüzü büyük veri cihazlarının bir parçası olarak yeniden satan çok yakın bir ortaklığımız var. Aslında Splunk ile, Splunk gösterge panolarında bir ana çerçeve telemetrisi ve güvenlik verileri yayınlıyoruz. Yakın bir ortaklığımız var.

Her C düzeyi yöneticinin aklında ne var? Gerçekten, “Veri varlıklarıma nasıl ulaşabilirim?” Herkes büyük verilerden bahsediyor. Herkes iş çevikliği yaratmama ve yeni dönüştürücü uygulamalar açmama yardımcı olabilecek bir sonraki bilgisayar platformu Hadoop, Spark'dan bahsediyor. Pazara yeni fırsatlar. Her bir yönetici, “Veri stratejim nedir, veri girişimim nedir ve rekabetimin arkasında kalmamaya nasıl emin olabilirim ve önümüzdeki üç yıl içinde hala bu pazardayım” diye düşünüyor. bunu müşterilerimizle konuşurken görüyoruz, bir süredir varlığımızdan beri tahmin edebileceğiniz gibi oldukça büyük küresel müşteri tabanımızla konuşuyoruz.

Tüm bu kuruluşlarla konuştuğumuzda, bunu Hadoop ile yaşanan aksaklıktaki teknoloji yığınında da görüyoruz. Gerçekten bir varlık olarak verilerle ilgili bu talebi karşılamak için. Bir kuruluşun sahip olduğu tüm veri varlıklarından yararlanma. Kurumsal veri ambarı mimarisinin, Hadoop'un şimdi modern veri mimarisinin yeni merkezi parçası olacak şekilde geliştiğini gördük. Ve müşterilerimizin çoğu, ister finansal hizmetler, ister sigorta, perakendecinin telekomünikasyon, inisiyatifler genellikle ya bir hizmet olarak Hadoop'u ya da bir hizmet olarak veri buluyoruz. Çünkü herkes veri varlıklarını harici istemcileri veya dahili istemcileri için kullanılabilir hale getirmeye çalışıyor. Ve bazı kuruluşlarda müşterileri için neredeyse bir veri pazarı gibi girişimler görüyoruz.

Bunu başarmanın ilk adımlarından biri de kurumsal veri merkezi oluşturmaktır. Bazen insanlar buna veri gölü derler. Bu kurumsal veri hub'ını oluşturmak aslında göründüğü kadar kolay değildir, çünkü gerçekten kuruluştaki neredeyse tüm verilere erişmeyi ve bunları toplamayı gerektirir. Ve bu veriler artık mobil sensörler ve eski veritabanları gibi tüm yeni kaynaklardan geliyor ve toplu modda ve akış modunda. Veri entegrasyonu her zaman zorlu bir iş olmuştur, ancak ister toplu ister gerçek zamanlı akış olsun, veri kaynaklarının sayısı ve çeşitliliği ve farklı dağıtım stilleri ile, beş yıl önce, on yıl önce kıyasla daha da zorlayıcıdır. Bazen buna “Artık babanızın ETL'si değil” deriz.

Farklı veri varlıkları hakkında konuşuyoruz. İşletmeler yeni verilerden, mobil cihazlardan topladıkları verilerden, ister bir otomobil üreticisindeki sensörlerden isterse bir mobil oyun şirketinin kullanıcı verilerinden faydalanmaya çalıştıklarından, genellikle en kritik veri varlıklarına başvurmaları gerekir. örneğin, müşteri bilgileri olan işletme. Bu en kritik veri varlıkları genellikle ana bilgisayarda yaşar. Ana bilgisayar verilerini bulutta toplanan, mobil olarak toplanan, bir Japon otomobil şirketinin üretim hattında toplanan veya nesnelerin interneti uygulamalarında toplanan bu yeni kaynaklarla ilişkilendirmek, eski veri setlerine başvurarak bu yeni verileri anlamlandırmak zorundadır. Ve bu eski veri setleri genellikle ana bilgisayardadır.

Ve eğer bu şirketler bunu yapamazlarsa, ana bilgisayar verilerine dokunamazlarsa, kaçırılmış bir fırsat var. Daha sonra, bir hizmet olarak veri veya tüm kurumsal verilerinden yararlanmak, kuruluştaki en kritik varlıklardan gerçekten yararlanmıyor. Telemetri ve güvenlik veri kısmı da var, çünkü neredeyse tüm işlem verileri ana bilgisayarda yaşıyor.

Bir ATM'ye gittiğinizi düşünün, bence katılımcılardan biri, bankacılık sisteminin korunması için katılımcılara bir mesaj gönderdi, kartınızı kaydırdığınızda, işlem verilerinin neredeyse küresel olarak ana çerçevede olduğunu. Ayrıca, ana verilerinden güvenlik verilerinin ve telemetri verilerinin güvenliğinin sağlanması ve toplanması ve Splunk gösterge tabloları veya diğerlerinin Spark, SQL aracılığıyla erişilebilir hale getirilmesi, verilerin hacmi ve verilerin çeşitliliği nedeniyle artık her zamankinden daha kritik hale geliyor.

Beceri setleri en büyük zorluklardan biridir. Bir yandan hızla değişen büyük bir veri yığınına sahip olduğunuzdan, hangi projenin hayatta kalacağını, hangi projenin hayatta kalamayacağını bilmiyorsunuz, Hive veya Pig geliştiricilerini işe almalı mıyım? MapReduce veya Spark'a yatırım yapmalı mıyım? Ya da bir sonraki şey, Flink, dedi birisi. Bu bilgisayar platformlarından birine yatırım yapmalı mıyım? Bir yandan, hızla değişen ekosisteme ayak uydurmak zor ve öte yandan bu eski veri kaynaklarına sahipsiniz. Yeni beceri setleri tam olarak eşleşmiyor ve bir sorununuz olabilir, çünkü bu kaynaklar gerçekten emekli olabilir. Bu eski veri yığınlarını anlayan ve ortaya çıkan teknoloji yığınını anlayan insanların beceri setleri açısından büyük bir boşluk var.

İkinci zorluk yönetişim. Platformlardaki tüm kurumsal verilere gerçekten eriştiğinizde, “Verilerimin inmesini istemiyorum. Verilerimin birden fazla yere kopyalanmasını istemiyorum çünkü mümkün olduğunca çok kopyadan kaçınmak istiyorum. Ortanın ortasına inmeden uçtan uca erişim istiyorum. ”Bu verileri yönetmek zorlaşıyor. Diğer bir kısım ise, darboğaz oluşturan verilere erişiyorsanız, verilerinizin çoğunu bulutta topluyorsanız ve eski verilere erişip referans veriyorsanız, ağ bant genişliği bir sorun, bir küme platformu haline gelir. Bu büyük veri girişimi ve gelişmiş analitik platformlarına sahip olmak ve yine de tüm kurumsal verileri kullanmak açısından birçok zorluk var.

Syncsort'un sunduğu şey, biz sadece “en iyisi” olarak adlandırılıyor, çünkü biz sadece en iyisiyiz, ancak müşterilerimiz bizi ana bilgisayar verilerine erişim ve entegrasyonda gerçekten en iyisi olarak görüyor. Tüm veri formatlarını ana bilgisayardan destekliyoruz ve büyük veri analizleri için kullanılabilir hale getiriyoruz. İster Hadoop, ister Spark veya bir sonraki bilgisayar platformunda olsun. Çünkü ürünlerimiz bilgisayar platformunun karmaşıklıklarını gerçekten yalıtıyor. Bir geliştirici olarak, potansiyel olarak bir dizüstü bilgisayar üzerinde gelişiyorsunuz, veri boru hattına ve veri hazırlıkları nelerdir, analitik için oluşturulan bu verileri bir sonraki aşamaya getirmek ve aynı uygulamayı MapReduce'da almak veya Spark aynı uygulama.

Müşterilerimize YARN kullanılabilir olduğunda ve uygulamalarını MapReduce sürüm 1'den YARN'a taşımak zorunda kaldıklarında yardımcı olduk. Aynı şeyi Apache Spark ile yapmalarına yardımcı oluyoruz. Ürünümüz, yeni sürüm 9, Spark ile de çalışıyor ve bu uygulamaları gelecekteki bilgisayar çerçeveleri için yalıtacak dinamik bir optimizasyon ile geliyor.

Bu nedenle, VSAM dosyaları, DB2 olsun veya SMF kayıtları veya Log4j veya syslogs gibi Splunk gösterge panoları ile görselleştirilmesi gereken telemetri verileri olup olmadığı ana bilgisayar verilerine erişiyoruz. Ve bunu yaparken, kuruluş mevcut veri mühendislerinden veya ETL beceri setlerinden yararlanabildiği için geliştirme süresi önemli ölçüde azalır. Aslında Dell ve Cloudera ile sponsorlu bağımsız bir karşılaştırma ölçütü vardı ve bu karşılaştırma ölçütü el kodlaması veya Syncsort gibi diğer araçları kullanıyorsanız geliştirme süresine odaklandı ve geliştirme süresinde yaklaşık yüzde 60, 70 azalma oldu . Beceri arasında köprü kurmak, gruplar arasında, bu veri dosyası ana bilgisayarları ve ayrıca bu veri dosyası ana bilgisayarları arasında insanlar arasındaki boşluğu belirler.

Genellikle büyük veri ekibi veya veri alma ekibi veya bu verileri bir hizmet mimarisi olarak geliştirmekle görevli ekip, ana bilgisayar ekibiyle mutlaka konuşmaz. Neredeyse birçok organizasyonda bu etkileşimi en aza indirmek istiyorlar. Bu boşluğu kapatarak ilerledik. Ve en önemli kısım, tüm süreci gerçekten güvence altına almak. Çünkü kuruluşta bu tür hassas verilerle uğraşırken birçok gereksinim vardır.

Sigorta ve bankacılık gibi yüksek derecede düzenlenmiş endüstrilerde müşterilerimiz, “Bu ana bilgisayar veri erişimini sunuyorsunuz ve bu harika. Ayrıca, denetim gereksinimlerimi karşılayabilmem için bu EBCDIC kodlu kayıt biçimini orijinal biçiminde tutmamı önerebilir misiniz? ”Bu yüzden Hadoop ve Apache Spark'ın ana bilgisayar verilerini anlamasını sağlıyoruz. Verileri orijinal kayıt biçiminde tutabilir, işlem ve seviye distribütörü bilgisayar platformunuzu yapabilir ve geri koymanız gerekirse kaydın değişmediğini ve kayıt biçiminin değişmediğini gösterebilirsiniz, yasal gerekliliklere uyabilirsiniz .

Ve kuruluşların çoğu, veri merkezini veya veri gölünü oluştururken, bir Oracle veritabanındaki yüzlerce şemadan Hive tablolarına veya ORC veya Parke dosyalarına meta verileri eşleştirmek için bunu tek bir tıklamayla yapmaya çalışıyorlar. gerekli hale gelir. Araçları gönderiyoruz ve bunu tek adımlı veri erişimi, otomatik oluşturma işleri veya veri hareketi yapma ve veri eşleme yapmak için otomatik oluşturma işleri yapma araçları sağlıyoruz.

Bağlantı kısmı, uyumluluk, yönetişim ve veri işleme hakkında konuştuk. Ve ürünlerimiz hem yerinde hem de bulutta mevcuttur, bu da gerçekten çok basit hale getirir, çünkü şirketlerin önümüzdeki yıl ya da iki yıl içinde neler olacağını düşünmeye gerek duymazsa, hibrite karşı tamamen kamu bulutuna geçmeye karar veririm kümelerin bir kısmı şirket içinde veya bulutta çalışıyor olabilir. Ürünlerimiz hem Amazon Marketplace'de, EC2'de, Elastik MapReduce'da hem de Docker konteynerinde mevcuttur.

Sadece bir tür özetlemek için, Soru-Cevap için yeterli zamanımız var, bu gerçekten veri yönetimine erişmek, bunları entegre etmek ve bunlara uymakla ilgili, ancak bunların hepsini daha basit hale getiriyor. Ve bunu daha basit hale getirirken, açık kaynaklı katkılarımız sayesinde ürünümüz Hadoop veri akışında ve Spark ile doğal olarak çalışarak organizasyonları hızla değişen ekosistemden izole ederek gerçek anlamda “bir kez tasarlayın ve her yere konuşlandırın”. Hem yığın hem de akış için tek bir veri hattı, tek bir arayüz sağlar.

Ve bu aynı zamanda kuruluşların bazen bu çerçeveleri değerlendirmelerine yardımcı olur, çünkü aslında uygulamalar oluşturmak ve sadece Spark'a karşı MapReduce'da çalıştırmak ve kendiniz görmek için isteyebilirsiniz, evet, Spark bu sözü veriyor ve yinelemeli algoritmalardaki tüm ilerlemeyi en iyi makine öğrenimi için sağlıyor ve öngörücü analiz uygulamaları Spark ile çalışır, akış ve toplu iş yüklerimi bu bilgisayar çerçevesinde de yapabilir miyim? Ürünlerimizi kullanarak farklı bilgisayar platformlarını test edebilirsiniz. İster bağımsız bir sunucuda, ister dizüstü bilgisayarınızda, Google Cloud'a karşı Apache Spark'da çalışıyor olun, dinamik optimizasyon müşterilerimiz için gerçekten büyük bir değer önerisidir. Ve gerçekten yaşadıkları zorluklar tarafından yönlendirildi.

Vaka çalışmalarından birini ele alacağım. Bu Guardian Hayat Sigorta Şirketi. Ve Guardian'ın girişimi gerçekten veri varlıklarını merkezileştirmek ve müşterileri için kullanılabilir hale getirmek, veri hazırlama süresini kısaltmaktı ve herkesin veri hazırlama hakkında toplam veri işleme hattının yüzde 80'ini alarak konuştuğunu ve aslında bunun Onlar için yüzde 75 ila 80 ve bu veri hazırlama, dönüşüm süreleri, analitik projeleri için pazara sunma süresini azaltmak istediler. Yeni veri kaynakları ekledikçe bu çevikliği yaratın. Ve bu merkezi veri erişimini tüm müşterileri için kullanılabilir hale getirin.

Syncsort ürünleri de dahil olmak üzere çözümleri, şu anda temelde Hadoop ve NoSQL veritabanı olan bir veri gölüyle desteklenen Amazon Marketplace benzeri bir veri pazarına sahip olmalarıdır. Ürünlerimizi, ana bilgisayardaki VSAM dosyaları ve veritabanı eski veri kaynakları ile yeni veri kaynakları da dahil olmak üzere, ana veri tabanında DB2 de dahil olmak üzere tüm veri varlıklarını veri gölüne getirmek için kullanıyorlar. Bunun sonucunda, aranabilir, erişilebilir ve müşterileri için kullanılabilir olan yeniden kullanılabilir veri varlıklarını merkezileştirdiler. Ve gerçekten yeni veri kaynaklarını ekleyebilir ve müşterilerine eskisinden çok daha hızlı ve daha verimli hizmet verebilirler. Analitik girişimleri de öngörücü tarafta daha da ilerliyor. Bu yüzden duraklayacağım ve umarım bu faydalı olmuştur ve ilgili konulardan herhangi biri için bana herhangi bir sorunuz varsa, lütfen bize hoş geldiniz.

Eric Kavanagh: Tabii ve Tendü, sadece bir tanesini atacağım. Bir izleyici üyesinden, “Bu tasarımı bir kez beğendim, her yere konuşlandırın” diyen bir yorum aldım. Bunun nasıl doğru olduğunu anlayabilir misiniz? Yani, bu tür bir çevikliği sağlamak için ne yaptınız ve vergi var mı? Örneğin sanallaştırma hakkında konuştuğumuzda, performans konusunda her zaman bir miktar vergi vardır. Bazı insanlar yüzde iki, yüzde beş yüzde 10 diyor. Tasarımı bir kez etkinleştirmek, herhangi bir yere dağıtmak için ne yaptınız - bunu nasıl yapıyorsunuz ve performans açısından onunla ilişkili herhangi bir vergi var mı?

Tendü Yogurtçu: Elbette, teşekkür ederim. Hayır, çünkü diğer bazı satıcılardan farklı olarak, gerçekten Kovan veya Domuz veya motorlarımıza özgü olmayan başka bir kod üretmiyoruz. Burası açık kaynak katkılarımızın büyük rol oynadığı yerdir, çünkü Hadoop satıcıları, Cloudera, Hortonworks ve MapR ile çok yakından çalışıyoruz ve açık kaynak katkılarımız nedeniyle motorumuz aslında akışın bir parçası olarak doğal olarak çalışıyor Hadoop akışının bir parçası olarak, Spark'ın bir parçası olarak.

Bunun ne anlama geldiği, bu dinamik optimizasyona sahibiz. Bu, müşterilerimizin bilgisayar çerçevelerine meydan okuması sonucu ortaya çıkan bir şeydi. Bazı uygulamalarla üretime başlarken geri döndüler, “Sadece Hadoop kümemi stabilize ediyorum, MapReduce YARN Sürüm 2, MapReduce Sürüm 2'de stabilize ediyorum ve insanlar MapReduce'un öldüğünü söylüyor, Spark bir sonraki şey ve bazı insanlar Flink'in bir sonraki şey olacağını söylüyor, bununla nasıl başa çıkacağım? ”

Ve bu zorluklar bizim için gerçekten çok açık hale geldi, akıllı yürütme olarak adlandırdığımız bu dinamik optimizasyona yatırım yaptık. Çalışma zamanında, iş, bu veri hattı gönderildiğinde, kümeye bağlı olarak, ister Spark, ister MapReduce olsun, ister bağımsız bir Linux sunucusu olsun, bu işi motorumuzda yerel olarak nasıl çalıştıracağımızın bir parçası olarak Hadoop veya Spark veri akışı. Herhangi bir ek yük yoktur, çünkü her şey sahip olduğumuz bu dinamik optimizasyon ile yapılır ve her şey de yapılır, çünkü motorumuz açık kaynaklı katkılarımız nedeniyle çok doğal bir şekilde entegredir. senin sorunun cevabı bu mu?

Eric Kavanagh: Evet, bu iyi. Ve oraya bir soru daha atmak istiyorum ve sonra Dez, belki seni ve Robin'i de çekeceğiz. Katılımcılarımızdan birinden komik bir yorum aldım. Bunu okuyacağım çünkü gerçekten çok titiz. “Görünüşe göre SICAK şeylerin tarihinde” - anladın mı? IoT gibi - “gerçekten karmaşık olan bir şeyi 'basitleştirmeye' ne kadar çok şey yaparsanız, çoğu zaman bir şeyler yapmak için göründüğü kadar basit değil, daha asılı halat verilir. Veritabanı sorgusu, patlama, çoklu iş parçacığı vb. Düşünün. ”Referans verdiği bu paradoks hakkında yorum yapabilir misiniz? Sadeliğe karşı karmaşıklık ve temelde kapakların altında neler oluyor?

Tendü Yogurtçu: Tabii. Bence bu çok geçerli bir nokta. Bir şeyleri sadeleştirdiğinizde ve bu optimizasyonları yaparken, kapakların altında, birinin olması gereken şeylerin karmaşıklığını alması gerekiyor, değil mi? Bir şeyi felç ediyorsanız veya bilgisayar çerçevesine göre belirli bir işi nasıl yürüteceğinize karar veriyorsanız, işin kullanıcı tarafında mı, menü kodlamasında mı yoksa motor optimizasyonunda mı olduğu açıktır. Bunun bir kısmı, kullanıcı deneyimini basitleştirerek, kuruluşta mevcut beceri setlerinden yararlanabilmek açısından büyük bir fayda sağlar.

Ve bu paradoksu hafifletebilir, “Evet, ama kapağın altında, o motordaki kaputun altında olan her şey üzerinde kontrolüm yok” diyebiliriz. böyle bir kontrole sahip olmak istiyorum. Bazı şeylerin servis edilebilirlik türlerine de yatırım yaparak. Bu katılımcının verdiği örnekte olduğu gibi, bir SQL sorgusu için ve aynı zamanda motor çalışırken daha işlevsel meta veriler, daha operasyonel veriler sunabilmek. Umarım cevaplar.

Eric Kavanagh: Evet, kulağa hoş geliyor. Dez, götürün onu.

Dez Blanchfield: Açık kaynaklı katkılarda ayak izinize ve ana bilgisayardaki ve özel dünyadaki geleneksel, uzun soluklu deneyiminizden ve daha sonra açık kaynaklara ve bunun nasıl gerçekleştiğine katkıda bulunmak. Ve anlamaya meraklı olduğum diğer bir şey, sadece BT departmanlarının değil, işletmelerin artık insanların söylediği gibi veri merkezleri veya veri gölleri ile ilgili olarak, şu anda bu eğilimi görüp görmedikleri tek bir konsolide veri gölü mü yoksa dağıtılmış veri gölleri görüp görmediğimiz ve insanlar bunları bir araya getirmek için araçlar kullanıyor mu?

Tendü Yogurtçu: Tabii. Birincisi, bu, sahipli bir yazılım şirketi olarak, IBM'den sonraki ilk şirketlerden biri olan çok ilginç bir yolculuktu. Ancak yine de her şey Hadoop'a bakan evangelist müşterilerimizle başladı. ComScore gibi veri şirketlerimiz vardı, Hadoop'u ilk benimseyen şirketlerden biriydi çünkü dünya çapında dijital veri topluyorlardı ve on milyon dolarlık bir veri ambarı kutusuna yatırım yapmadıkları sürece 90 gün veri tutamadılar. ortamı. Hadoop'a bakmaya başladılar. Bununla Hadoop'a da bakmaya başladık.

Ve bir karar verdiğimizde ve Hadoop'un gerçekten geleceğin veri platformu olacağını kabul ettiğimizde, bununla başarılı bir oyun oynayamayacağımızın, bu konuda başarılı bir oyun olmadıkça, ekosistemin bir parçasıydı. Ve Cloudera, Hortonworks, MapR, vb. İle Hadoop satıcılarıyla çok yakın çalışıyorduk. Onlarla gerçekten konuşmaya başladık, çünkü ortaklık bir satıcının getirebileceği değeri doğrulamak için çok önemli hale geliyor ve aynı zamanda ortaklaşa ortaklaşa gidebileceğimizden ve daha anlamlı bir şeyler sunabiliriz. Apache'nin açık kaynaklı projelerini bilmediğimiz için çok fazla ilişki kurmamız gerekiyordu, ancak bu Hadoop satıcılarından büyük destek aldık, söylemeliyim.

Birlikte çalışmaya ve merkeze bakmaya başladık, alandaki sahip yazılımımız bile olmadan nasıl değer katabileceğimizi. Bu önemliydi. Sadece ürününüzün çalışabileceği bazı API'ları koymakla ilgili değil, buna yatırım yapacağımı söyleyebilirim çünkü Hadoop'un geleceğin bir platformu olacağına inanıyorum, bu yüzden yapmak istediğimiz kaynaklara yatırım yaparak olgunlaştığından ve kurumsal kullanıma hazır hale geldiğinden emin olun. Katkılarımızdan önce mevcut olmayan bazı kullanım durumlarını gerçekten etkinleştirebiliriz. Bu, tüm ekosisteme fayda sağlayacaktır ve bu ortaklıkları çok yakından geliştirebiliriz.

Çok zaman aldı. 2011 ve 21 Ocak 2013'te katkıda bulunmaya başladık - tarihi hatırlıyorum çünkü o tarihte en büyük katkımızın taahhüt edildiği anlamına geliyordu;, değeri gösterin, ortaklar, açık kaynak topluluğundaki satıcılarla ve komisyoncularla tasarım ortakları haline gelir. Ama çok eğlenceliydi. Bu ekosistemin bir parçası olmak ve büyük bir ortaklık geliştirmek bizim için bir şirket olarak çok faydalı oldu.

Veri merkezi / veri gölü hakkında ikinci soru, bence bu verileri çoğu durumda bir hizmet uygulaması olarak gördüğümüzde, evet, kümeler, fiziksel olarak tek veya çoklu kümeler olabilir, ancak bu tek yer olmaktan daha kavramsal tüm veriler için. Çünkü bazı kuruluşlarda yerinde büyük küme dağıtımları görüyoruz, ancak çevrimiçi bulutlardan toplanan verilerin bir kısmı gerçekten bulutta tutulduğundan, örneğin genel bulutta da kümeleri var. Her ikisinden de yararlanabileceğiniz ve bunları tek bir veri merkezi, tek bir veri gölü olarak kullanabileceğiniz tek bir veri hattı olabilir. Mutlaka sadece fiziksel bir yer değil, aynı zamanda veri merkezi ve veri gölünün kümeler arasında, coğrafyalarda ve belki de öncül ve bulutta olması çok kritik olacaktır. Özellikle ilerlemek. Bu yıl gittikçe daha fazla bulut dağıtımı görmeye başladık. İnanılmaz. Bu yılın ilk yarısında çok fazla bulut dağıtımı gördük.

Eric Kavanagh: Tamam, güzel. Ve Robin, sorunuz var mı? Birkaç dakikamız kaldığını biliyorum.

Robin Bloor: Tamam, ona bir soru sorabilirim. Benim başıma gelen ilk şey Kafka hakkında çok heyecan oldu ve ben Kafka ve insanların Kafka'yı kullanma şekliyle nasıl bütünleştiğini düşünüyordum?

Tendü Yogurtçu: Tabii. Evet, Kafka oldukça popüler hale geliyor. Müşterilerimiz arasında bir çeşit veri taşıma katmanı olduğunu görüyoruz ve verinin bir veri yolu olduğunu gördük. Örneğin, müşterilerimizden biri, binlerce Kafkas kullanıcısı gibi bu Kafka'ya birden fazla arasında itilen ve bunu sınıflandırabilen ve ilerletebilen bir tür tüketen veri kullanıyordu.

Yine Kafka, bu verilerin farklı tüketicilerine yönelik bir veri yolu. Bazı ileri düzey kullanıcıları, bu kadar gelişmiş olmayan kullanıcılara göre sınıflandırın ve bu veri hattında ileriye doğru farklı bir şey yapın. Kafka ile nasıl entegre olduğumuz, DMX-h ürünümüz güvenilir bir tüketici, Kafka için son derece verimli ve güvenilir bir tüketici haline geliyor. Verileri okuyabilir ve bu bizim için başka bir veri kaynağından veri okumaktan farklı değildir. Kullanıcılara pencereyi, sahip oldukları zaman gereksinimi veya Kafka otobüsünden tüketebilecekleri mesaj sayısı açısından kontrol etme yeteneği veriyoruz. Ve sonra bu verileri ürünümüzden geçerken Kafka'ya geri iterken de zenginleştirebiliriz. Bunu test ettik. Müşteri yerinde karşılaştırdık. Ayrıca Confluent tarafından onaylanmıştır. Confluent erkeklerle yakın çalışıyoruz ve çok yüksek performanslı ve kullanımı kolay. Yine, API'ler değişiyor, ancak endişelenmenize gerek yok çünkü ürün gerçekten başka bir veri kaynağı olarak gerçek zamanlı bir veri kaynağı olarak davranıyor. Aslında ürünümüz ve Kafka ile çalışmak oldukça eğlenceli.

Robin Bloor: Tamam, sadece genel bir iş sorusu olan başka bir sorum daha var ama Syncsort'u uzun zamandır tanıyorum ve ETL ve anabilgisayar dünyası için her zaman üne sahip oldunuz ve olağanüstü hızlı bir yazılım sundunuz. İşletmenizin çoğunun şu anda Hadoop'a devredilmesi söz konusu mudur? Şu ya da bu şekilde işinizi anabilgisayar dünyasından oldukça dramatik bir şekilde yaydığınız bir durum mu?

Tendü Yogurtçu: Ana bilgisayar ürünlerimiz halen dünya genelinde ana bilgisayarların yüzde 50'sini çalıştırıyor. Bu nedenle, büyük veriler ve Hadoop ucunda yaptığımız işlere ek olarak çok güçlü bir ana bilgisayar ürün hattına sahibiz. Ve hala BT basitleştirme veya optimizasyon projelerinin çoğundayız çünkü büyük veri Multex platformlarında ana çerçeve verilerinize erişmek ve tüm kurumsal verilerinden yararlanmak istediğiniz bir son var, ancak çok kritik işlemsel iş yükleri de var hala ana bilgisayarda çalışmaya devam ediyor ve bu müşterilere bu uygulamaları gerçekten daha verimli hale getirme, zIIP motorunda çalıştırma, böylece çok fazla işlem döngüsü ve MIPS tüketmeme, maliyet etkin hale getirme yolları sunuyoruz.

Ana bilgisayar ürünlerine yatırım yapmaya devam ediyoruz ve aslında insanların ana bilgisayar büyük demirden büyük verilere geçtiği ve ürün yelpazesini bu platformlarda da yaydığı bu alanda oynamaya devam ediyoruz. Dolayısıyla, tüm işi bir tarafa kaydırmak zorunda değiliz, her iki tarafta da çok başarılı işlere devam ediyoruz. Ve satın alımlar bizim için de büyük bir odak noktası. Büyük veri platformları için bu veri yönetimi ve veri işleme alanı geliştikçe, birkaç ücretsiz alım da yapmaya kararlıyız.

Robin Bloor: Sanırım size ne olduklarını soramam çünkü bana söylemenize izin verilmeyecekti. Aslında ana bilgisayarda Hadoop veya Spark'ın birçok uygulamasını görüp görmediğiniz veya bunun çok nadir bir şey olup olmadığıyla ilgileniyorum.

Tendü Yogurtçu: Hiç görmedik. Bununla ilgili daha fazla soru var. Ana gövdedeki Hadoop'un çekirdek yapısı nedeniyle pek bir anlam ifade etmediğini düşünüyorum. Ancak Spark on mainframe oldukça anlamlı ve Spark makine öğrenimi ve tahmine dayalı analitik ile gerçekten çok iyi ve anabilgisayar verileri ile bu uygulamalardan bazılarına sahip olabilmek gerçekten çok anlamlı. Henüz bunu yapan kimseyi görmedik, ancak bu şeyleri yönlendiren kullanım durumu gerçekten. Bir şirket olarak kullanım durumunuz bu ana bilgisayar verilerini daha fazla getiriyorsa ve büyük veri platformundaki diğer veri kümeleriyle bütünleşiyorsa, bu bir hikaye. Büyük veri Multex platformundan ana bilgisayar verilerine erişmeyi gerektirir, çünkü veri setlerinizi açık sistemlerden getirmeniz ve ana kareye geri çağrılmanız olası değildir. Bununla birlikte, sadece keşfetmek ve biraz veri keşfi keşfi yapmak istediğiniz bazı ana bilgisayar verileriniz varsa, bazı gelişmiş AI ve gelişmiş analitik uygulayın, o zaman Spark, ana karede bu şekilde çalıştırmak ve çalıştırmak için iyi bir yol olabilir.

Eric Kavanagh: Ve işte seyirciden bir soru daha, aslında iki soru daha. Size bir etiket ekibi sorusu vereceğim, sonra tamamlayacağız. Bir katılımcı, “IBM, açık kaynak katkılarınızı genel bulut ekosistemine, diğer bir deyişle Bluemix'e entegre ediyor mu?” Diye soruyor ve başka bir katılımcı Syncsort'un büyük demirleri canlı tutmak için harika olduğunu belirterek zaten var, ancak eğer şirketler CE adını verdikleri lehine yeni ana karelerden vazgeçerse, her şeyi bulutlayın, muhtemelen düşecektir, ancak işletim sistemlerini saniyede bir gigabayta kadar atlayarak veri taşıma konusunda gerçekten iyi olduğunuzu belirtiyorlar. Bahsettiği gibi çekirdek gücünüz ve IBM'in eşyalarınızı Bluemix'e entegre edip etmediği hakkında konuşabilir misiniz?

Tendü Yogurtçu: IBM ile zaten IBM ile ortakız ve ürünü sunan veri bulut hizmetleri için görüşmeler yaptık. Açık kaynaklı katkılarımız, bu kaynaklardan yararlanmak isteyen herkese açıktır. Ana bilgisayar bağlantılarından bazıları yalnızca IBM'de değil Spark paketlerinde de mevcuttur. Herkes bunları kaldırabilir. Bluemix'te henüz bu konuda özel bir şey yapmadık. İkinci soruyu tekrar etmeyi düşünür müsünüz?

Eric Kavanagh: Evet, ikinci soru, yıllar boyunca temel işlevsellik alanınızla ilgiliydi, bu da ETL'nin darboğazlarını gerçekten ele alıyordu ve açıkçası bu, hala ana bilgisayarlar olarak yapacağınız bir şey, teorik olarak uzak durmanıza rağmen, Dez'in nokta hala bir tür sallanma ve yuvarlanmadır. Ancak katılımcı, Syncsort'un işletim sistemlerini atlayarak ve saniyede bir gigabayta kadar veri taşıma konusunda çok iyi olduğunu belirtti. Bunun hakkında yorum yapabilir misiniz?

Tendü Yogurtçu: Evet, gerçekten toplam kaynak verimliliği gücümüz, ölçeklenebilirlik ve performans gücümüz oldu. Uzlaşmıyoruz, basitleştirmenin birçok anlamı var, onlardan taviz vermiyoruz. Örneğin, insanlar 2014'te Hadoop hakkında konuşmaya başladığında, çoğu kuruluş başlangıçta performansa gerçekten bakmıyordu. “Bir şey olursa başka bir kaç düğüm ekleyebilirim ve iyi olacağım, performans benim şartım değil” diyorlardı.

En iyi performansa sahip olduğumuzdan bahsederken, zaten doğal olarak çalışıyorduk, Hive'ın birden fazla MapReduce işinde sahip olduğu başlangıç ​​hıçkırıklarından bazılarını bile başlamıyorduk. İnsanlar bize “Oh, bu benim endişem değil, şu anda bunun için endişelenme” diyordu.

2015'e geldiğimizde bu manzara değişti, çünkü bazı müşterilerimiz üretim kümelerinde sahip oldukları depolamayı zaten aştı. Syncsort'un neler sunabileceğini görmek onlar için çok kritik hale geldi. Bir veritabanından veya anabilgisayardan bazı veriler alıp kümelerde Parquet biçimine yazıyorsanız, ister iniş yapın, isterse başka bir dönüşüm yapın, ister uçak içi dönüşüm ve inişli hedef dosya formatı yapın, depolama alanı kullanıyorsanız, ağ bant genişliğinden tasarruf edersiniz, ekstra iş çalıştırmamanız nedeniyle kümedeki iş yükünden tasarruf edersiniz. Çok bilinçli olmak için oynadığımız güçlü yönler, kaynak verimliliğini cildimizin altında hissediyoruz.

Biz bunu böyle tanımlıyoruz. Bizim için kritik. Biz bunu kabul etmiyoruz. Bunu asla kabul etmedik, bu yüzden Apache Spark veya bir sonraki bilgisayar çerçevesindeki kaldıraçla güçlü olmaya devam edeceğiz. Bu bizim odak noktamız olmaya devam edecek. Ve veri taşıma parçası ve veri erişim parçası açısından, kesinlikle güçlü yönlerimizden biridir ve ana çerçevelerdeki DB2 veya VSAM verilerine Hadoop veya Spark bağlamında erişiyoruz.

Eric Kavanagh: Web yayınını sonlandırmanın harika bir yolu millet. İlginiz ve zamanınız için çok teşekkür ederim. Brifing odasına gelip tura adım attıkları için Tendü ve Syncsort'a teşekkürler. Seyircilerden bir sürü harika soru. Dışarıda sürekli hareket eden bir ortam, millet. Bu Hot Tech'i diğerleriyle yaptığımız gibi arşivleyeceğiz. Bizi insideanalysis.com ve techopedia.com adreslerinde bulabilirsiniz. Genellikle yaklaşık bir gün içinde artar. Ve bununla, sana veda edeceğiz millet. Çok teşekkür ederim. Yakında sizinle konuşacağız. Kendine iyi bak. Güle güle.

Büyük demir, büyük verileri karşılayın: hadoop ve kıvılcım ile ana bilgisayar verilerini özgürleştirme