Zašto je Hadoop savršen spoj za sekvenciranje genoma

Video: Using your genome sequence and big data to manage your health | Michael Snyder | TEDxGunnHighSchool

Sadržaj

Sadašnjost i budućnost genomike
Potrebe industrije za mapiranje genoma
Što se očekuje u rješenju?
Zašto je Hadoop najbolje rješenje za sekvenciranje genoma
Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života
Što još može Hadoop?
Prilike za Hadoop
Samostrel: Platforma za upravljanje podacima sljedeće generacije
Ostali softver Genomics temeljen na Hadoop-u
Zaključak

Izvor: A3701027 / Dreamstime.com

Oduzeti:

Redoslijed genoma treba moćne tehnološke alate za obradu svih njegovih podataka, a Hadoop je do kraja zadatka.

Klinička genomika je fascinantan predmet, gdje ljudi rade na vrhunskim tehnologijama za obradu brzih i točnih rezultata. Na tržištu je dostupno puno sekvencijskih genoma, koji proizvode petabajte podataka o sekvenci, a porast sekvenciranja u skoroj budućnosti će proizvesti pretjerane podatke. Ovdje je Hadoop savršena platforma za obradu složenog rada iz genomike. Hadoop može pohraniti i sortirati ogromne količine informacija, a također može pružiti smislenu analizu. (Da biste saznali koliko podataka stvarno uključuje, pročitajte Razumijevanje bitova, bajtova i njihovih višestrukih.)

Sadašnjost i budućnost genomike

Danas je mapiranje genoma dostiglo vrhunac. Mnogi ljudi povezani s genomičkom industrijom pune su radoznalost, a kako se predstavljaju nove mogućnosti, bolja tehnologija je potreba sata. Redoslijed genoma vrlo je ponavljajući i zahtjevan posao. Samo u 2013. godini proizvedeno je oko 15 petabajta podataka, a samo 2.000 sekvenera. Taj iznos koji ispada iz čeljusti uključuje 300 KB sekvencioniranih podataka o ljudskom genomu. Po ovoj brzini proizvodnje podataka može se procijeniti da će se do 2018. proizvesti oko jedan pretjerani baz podataka. To će biti posljedica rasta sekvenci, koji će stvarati sve više i više podataka po radnji. Drugi razlog je pojava izuzetno moćnih i jeftinih strojeva za sekvenciranje genoma. Od 2008. godine cijena ovih strojeva stalno se smanjuje. To je zbog snažnih strojeva sljedeće generacije koji su se plasirali na tržište.

Potrebe industrije za mapiranje genoma

Za obradu podataka prikupljenih iz ljudskog genoma koriste se složeni algoritmi. Zatim, te podatke treba pohraniti. Može ga pregledati u budućnosti radi usporedbe s izvornim podacima. Zadatak obrade i spremanja 100 GB podataka nije previše težak, pogotovo ako to radite s moćnim strojevima zaposlenima u centrima za slijed. Studije pokazuju da se ta količina podataka može obraditi u samo oko 1.000 CPU sati, pa je to vrlo jednostavno. Takvom brzinom tehničkog napretka očito je da će industrija genoma uskoro obraditi tisuće gigabajta u samo nekoliko sekundi.

Međutim, tehnike upravljanja i pohranjivanja podataka ne razvijaju se tako brzo, zbog čega se može očekivati veliki gubitak dragocjenih podataka. To je doista nepoželjno, jer će ozbiljno ometati napredak ostvaren u ljudskoj genomici. Dakle, potreba za učinkovitom tehnikom upravljanja podacima, koja se lako ažurira, vrlo je velika. To može biti učinkovito posebno u bliskoj budućnosti, gdje će se mapiranje genoma premjestiti iz velikih laboratorija s moćnim računalima u male bolnice i laboratorije.

Što se očekuje u rješenju?

Tempo kojim se otkrivaju i razvijaju nove tehnike genskog slijeda izuzetno je visok. Ovaj tempo može biti vrlo koristan medicinskoj znanosti u obliku snažnog koraka ka iskorjenjivanju glavnih bolesti. Međutim, i taj tempo može biti izazovan.

Izazov dolazi u obliku upravljanja velikim količinama podataka dobivenih projektima koji slijede. Dakle, potrebno je učinkovito rješenje koje će pomoći u pohrani i obradi velikih podataka. Ovo rješenje mora biti jeftino i brzo, a istovremeno je i prilagodljivo. Analiza pružena ovim rješenjem također mora biti točna i konstantna. Pa, što je rješenje problema? Nesumnjivo je to Hadoop. (Za više informacija o korištenju Hadoopa, pogledajte 5 Uvida u velike podatke (Hadoop) kao usluge.)

Zašto je Hadoop najbolje rješenje za sekvenciranje genoma

Ono što industrija genomike treba je vrhunsko rješenje koje im može pomoći da učinkovito upravljaju podacima, obrađuju ih i pohranjuju za buduću upotrebu. Čini se da se ovo rješenje savršeno podudara sa softverom Hadoop. Dakle, Hadoop se može smatrati savršenim softverom za upravljanje velikim podacima koji može uvelike poboljšati trenutne tehnike čuvanja podataka genomičke industrije.

Hadoop-ove mogućnosti u stvarnom vremenu omogućuju sekvencijalima genoma analizu i pohranjivanje velike količine podataka odjednom u stvarnom vremenu. To također omogućuje buduću upotrebu podataka. Hadoop može pobijediti mnoge naslijeđene sustave, jer je mnogo brži i pouzdaniji od njih.

Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Što još može Hadoop?

Zahvaljujući Hadoopu, otvorio se veliki broj mogućnosti i mogućnosti na području genomike i sekvenciranja gena. Hadoop nudi paralelne mogućnosti računanja zbog kojih je moguće brže sekvenciranje. Također, koristeći Hadoop funkciju MapReduce, velik broj gena može se vrlo lako preslikati. Zbog toga će sekvenciranje s Hadoopom doista postati "next-gen" i bit će mnogo manje komplicirano.

Prilike za Hadoop

Hadoop ima nekoliko mogućnosti u industriji genoma, ali najbolja je izvedena iz članka Lynde Chin „Utvrđivanje podataka o genomskim podacima raka“, u časopisu Genes & Development. U ovom članku ona govori o tome kako je moderna genomika otvorila nova vrata, a to je dovelo do mnogih pozitivnih rezultata poput otkrića genomske informacije o raku. Zbog toga smo bliže otkrivanju samog lijeka za rak. Međutim, za ovo je potrebno malo više pozornosti i moćan program za upravljanje podacima kako bi se poboljšala istraživačka sposobnost na terenu. Ovo je najbolja prilika za Hadoop da dokaže svoju brzinu, snagu i točnost.

Samostrel: Platforma za upravljanje podacima sljedeće generacije

Samostrel, koji je softverski cjevovod namijenjen za analizu slijeda genoma, jedno je od najboljih rješenja. To je rezultat integracije unutar Hadoopa, između brzog algoritma za poravnavanje sekvenciranih podataka, koji se naziva Bowtie, i moćnog algoritma koji uspoređuje i ispituje sekvencirane podatke, tj. Genotipera nazvanog SoapSNP. Izgrađen je na Apache Hadoopu i temelji se na implementaciji MapReduce okvira. Samostrel je prenosiv, skalabilan, a također je prikladan kao alat za računanje u oblaku.

S ovom moćnom integracijom, kompletan genom može se ispitati u samo jednom danu na lokalnom klasteru koji ima 10 čvorova. S klasterom od 40 čvorova proces je još brži i dovršava se za samo tri sata, s ukupnim troškovima manjim od 100 USD! Studija provedena kako bi se ispitala točnost Crossbow-a pokazala je da može usporediti svaki genom s 99 posto točnosti. Još jedna korisna značajka samostrela je da se pokreće na oblaku. Dakle, samostrel će omogućiti tisućama budućih centara za sekvenciranje, poput bolnica, da sekvenciraju velike količine podataka o genomu bez potrebe za moćnim, skupim računalima i tehnologijom.

Ostali softver Genomics temeljen na Hadoop-u

Mnoge su kompanije prepoznale snagu Hadoopa u promjeni svijeta genomike. Prikladno su izmijenili Hadoop da iskoriste njegov potencijal za napredne sekvence genoma. Neki primjeri poznatih rješenja gensko-sekvencijalnih genoma utemeljenih na Hadoopu:

Hadoop-BAM: Ovo je moćan alat za upravljanje podacima koji koristi MapReduce funkciju Hadoopa za razne aktivnosti povezane s genomikom, poput genotipizacije. Ovo funkcionira u formatu Binarno poravnavanje / karta.
Cloudburst: Ovo rješenje temeljeno na Hadoopu nastalo je 2009. godine. Izuzetno je učinkovito u usporedbi sekvenata genoma i mapiranju pojedinih gena. Ovo je ujedno i jedna od prvih aplikacija koje se temelje na Hadoop-u dizajnirane u tu svrhu.

Zaključak

Integriranje velikih podataka i industrije genomike pokazuje se blagodatom u modernom vremenu. Ove su platforme učinkovite u otkrivanju liječenja nekoliko bolesti poput raka. Podaci koji se pronalaze mapiranjem genoma mogu se upotrijebiti za formulaciju preventivnih informacija o takvim bolestima. Pojava velikih podataka može se smatrati prekretnicom u svijetu genomike, a ako se informacije upotrebljavaju mudro, možda i u širem području zdravstvene zaštite. Jedini način da se ovo polje napreduje je uporaba odgovarajućih alata za upravljanje podacima kao što je Hadoop.