Ev Ses Haboop neden genom dizilemesi için mükemmel bir eştir?

Haboop neden genom dizilemesi için mükemmel bir eştir?

İçindekiler:

Anonim

Klinik genomik, insanların hızlı ve doğru sonuçları işlemek için en son teknolojiler üzerinde çalıştığı büyüleyici bir konudur. Piyasada çok sayıda genom dizisi var ve bunlar dizi verilerinin petabaytlarını üretiyorlar ve dizilimdeki büyüme yakın gelecekte exabyte veri üretecek. Burada, Hadoop karmaşık genomik iş akışını işlemek için mükemmel bir platformdur. Hadoop muazzam miktarda bilgiyi saklayabilir ve sıralayabilir ve ayrıca anlamlı analizler yapabilir. (Bunun gerçekten ne kadar veri içerdiğine dair bir fikir edinmek için Bitleri, Baytları ve Çoklularını Anlama bölümünü okuyun.)

Genomiklerin Bugünü ve Geleceği

Bugün, genom haritalaması gelişme zirvesine ulaşmıştır. Genomik endüstrisi ile ilişkili birçok insan merakla doluyor ve yeni fırsatlar kendilerini sunarken, daha iyi teknoloji saatin ihtiyacı. Genom dizilemesi çok tekrarlayan ve kaynak yoğun bir iştir. Sadece 2013 yılında, yaklaşık 15 petabayt veri üretildi ve sadece 2.000 ardışık üretildi. Bu çene bırakma miktarına 300 KB sıralı insan genomu verisi dahil edildi. Bu veri üretimi oranında, 2018 yılına kadar yaklaşık bir exabyte veri üretileceği tahmin edilebilir. Bu, çalışma başına daha fazla veri üretecek olan sıralayıcıların büyümesinden kaynaklanacaktır. Başka bir neden, son derece güçlü ve düşük maliyetli genom dizileme makinelerinin ortaya çıkmasıdır. 2008 yılından bu yana, bu makinelerin fiyatı istikrarlı bir şekilde düşmektedir. Bunun nedeni, pazara giren güçlü yeni nesil makinelerdir.

Genom Haritalama Endüstrisinin İhtiyaçları

İnsan genomundan toplanan verilerin işlenmesi için karmaşık algoritmalar kullanılır. Ardından, bu bilgilerin depolanması gerekir. Orijinal verilerle karşılaştırmak için gelecekte incelenebilir. 100 GB'lik verileri işleme ve depolama görevi, özellikle sıralama merkezlerinde kullanılan güçlü makinelerle yaptığınız zaman çok zor değildir. Çalışmalar, bu miktardaki verilerin yaklaşık 1.000 CPU saatinde işlenebileceğini gösteriyor, bu yüzden çok kolay. Bu teknik ilerleme hızında, genom endüstrisinin yakında birkaç gigabayt birkaç saniye içinde işleyeceği açıktır.

Haboop neden genom dizilemesi için mükemmel bir eştir?