Acasă Audio De ce hadoop este o potrivire perfectă pentru secvențierea genomului

De ce hadoop este o potrivire perfectă pentru secvențierea genomului

Cuprins:

Anonim

Genomica clinică este un subiect fascinant, unde oamenii lucrează la tehnologii de ultimă oră pentru a procesa rezultate rapide și precise. Există o mulțime de secvențiatori de genom disponibile pe piață și produc petabite de date de secvență, iar creșterea secvențării va produce exabyte de date în viitorul apropiat. Aici, Hadoop este platforma perfectă pentru prelucrarea fluxului de lucru genomic complex. Hadoop poate stoca și sorta cantități masive de informații și, de asemenea, poate face o analiză semnificativă. (Pentru a vă face o idee despre cât de multe date implică acest lucru, citiți Bits de înțelegere, octeți și multiplii lor.)

Prezentul și viitorul genomicii

Astăzi, cartografierea genomului a atins apogeul său de dezvoltare. Multe persoane asociate industriei genomicelor izbucnesc de curiozitate și, pe măsură ce noi oportunități se prezintă, tehnologia mai bună este nevoia orei. Secvențializarea genomului este o sarcină foarte repetitivă și intensivă în resurse. Numai în 2013, au fost produse aproximativ 15 petabytes de date și doar de 2.000 de secvențiatori. Această cantitate care scade maxilarul a inclus 300 KB de date secvențiate ale genomului uman. La această rată a producției de date, se poate estima că până în 2018 vor fi produse aproximativ un exabyte de date. Acest lucru se va datora creșterii secvențiatorilor, care vor produce din ce în ce mai multe date. Un alt motiv este apariția unor mașini de secvențiere a genomului extrem de puternice și cu costuri reduse. Din 2008, prețul acestor mașini a scăzut constant. Acest lucru se datorează mașinilor puternice de generație viitoare care au ieșit pe piață.

Nevoile industriei de cartografiere a genomului

Algoritmii complexi sunt folosiți pentru prelucrarea datelor colectate de la genomul uman. Apoi, aceste informații trebuie stocate. Poate fi revizuit în viitor pentru a fi comparat cu datele originale. Sarcina procesării și stocării a 100 GB de date nu este prea dificilă, mai ales atunci când o faceți cu mașinile puternice folosite în centrele de secvențare. Studiile arată că această cantitate de date poate fi procesată în doar aproximativ 1000 de ore de procesor, deci este foarte ușoară. La acest ritm de avansare tehnică, este evident că industria genomului va prelucra în curând mii de gigabyte în doar câteva secunde.

De ce hadoop este o potrivire perfectă pentru secvențierea genomului