Acasă Hardware Fier mare, întâlnește date mari: eliberarea datelor mainframe cu clapeta și scânteie

Fier mare, întâlnește date mari: eliberarea datelor mainframe cu clapeta și scânteie

Anonim

De personalul Techopedia, 2 iunie 2016

Take away: ecosistemul Hadoop este utilizat pe mainframe pentru procesarea rapidă și eficientă a datelor mari.

În prezent nu sunteți autentificat. Vă rugăm să vă conectați sau să vă înregistrați pentru a vedea videoclipul.

Eric Kavanagh: Bine doamnelor și domnilor, este ora patru ora estului într-o zi de joi, iar aceste zile înseamnă că este bineînțeles timpul pentru Hot Technologies. Da, într-adevăr, mă numesc Eric Kavanagh. Voi fi moderatorul dvs. pentru seminarul web de astăzi. Este o chestie bună, oameni buni, „Big Iron, Meet Big Data” - Îmi place doar acest titlu - „Eliberarea datelor Mainframe cu Hadoop și Spark.” Vom vorbi despre vechile întâlniri noi. Wow! Acoperim spectrul a tot ceea ce am vorbit în ultimii 50 de ani de IT pentru întreprinderi. Spark îndeplinește mainframe, îmi place.

Există un loc despre al tău cu adevărat și suficient despre mine. Anul este fierbinte. Vorbim despre subiecte fierbinți din această serie, deoarece încercăm într-adevăr să-i ajutăm pe oameni să înțeleagă anumite discipline, anumite spații. Ce înseamnă, de exemplu, să ai o platformă analitică? Ce înseamnă să eliberezi date mari din cadre principale? Ce înseamnă toate aceste lucruri? Încercăm să vă ajutăm să înțelegeți anumite tipuri de tehnologii, unde se încadrează în combinație și cum puteți să le folosiți.

Avem doi analiști astăzi și apoi, desigur, Tendü Yogurtçu din Syncsort. Este o vizionară în spațiul nostru, foarte încântată să o aibă online azi, alături de propriul nostru Dez Blanchfield și Dr. Robin Bloor. Voi spune doar câteva cuvinte rapide. Unul este că, oameni buni, jucați un rol important în acest proces, așa că vă rugăm să nu fiți timizi, punând câteva întrebări bune. Am dori să ajungem la ei în timpul componentei de întrebări și răspunsuri a transmisiei web, care este de obicei la sfârșitul emisiunii. Și tot ce trebuie să spun este că avem un conținut foarte bun, așa că sunt încântat să aud ce au de spus acești băieți. Și cu asta, o voi înmâna lui Dez Blanchfield. Dez, pardoseala este a ta, ia-o.

Dez Blanchfield: Mulțumesc, Eric și mulțumesc tuturor că ai participat astăzi. Așa că sunt foarte entuziasmat când am ocazia să vorbesc despre unul dintre lucrurile mele preferate din lume, mainframes. Nu primesc multă dragoste în aceste zile. Părerea mea este fotograma principală a fost platforma originală de date mari. Unii ar susține că acestea au fost singurul computer la acea vreme și acesta este un punct corect de făcut, dar de mai bine de 60 de ani acum au fost într-adevăr sala de motoare a ceea ce date mari au fost în ultima vreme populare. Și o să vă duc într-o călătorie mică de ce cred că este cazul.

Am văzut o călătorie în stivele hardware tehnologice în contextul majorării cadrelor de la imaginea pe care o vedeți pe ecran acum. Acesta este un cadru vechi FACOM, unul dintre preferatele mele. Ne-am trecut în faza mare a fierului, la sfârșitul anilor 90 și în boomul dot-com. Acesta este Sun Microsystems E10000. Acest lucru a fost un monstru absolut la 96 de procesoare. Inițial 64, dar ar putea fi modernizat la 96 de procesoare. Fiecare procesor ar putea rula 1.024 de fire. Fiecare fir ar putea fi la rata de aplicare în același timp. A fost doar monstruos și a creat de fapt boomul dot-com. Este vorba despre toate unicornele mari așa cum le numim, acum rulăm și nu doar marile întreprinderi, unele dintre marile site-uri web.

Și apoi am terminat cu acest model comun de PC-ul de marfă off-the-raft. Am racordat o mulțime de mașini ieftine și am creat un cluster și am abordat marea provocare a fierului și ceea ce a devenit date mari, în special sub forma proiectului Hadoop care a izbucnit motorul de căutare open source, Nutch. Și, în esență, am recreat schema principală și o mulțime de mici procesoare care au fost lipite și de a putea acționa ca L-căi și sub forma rulării de locuri de muncă separate sau a unor părți ale lucrărilor și au fost destul de eficiente în multe feluri. Mai ieftin dacă ați început mai mic, dar, în mod invariabil, multe dintre aceste grupuri mari au ajuns mai scumpe decât un cadru principal.

Părerea mea despre aceste lucruri este că, în pasul de la boom-ul punct-com până la ceea ce a devenit Web 2.0 și acum urmărind unicornii, am uitat că această platformă alimentează în continuare multe dintre cele mai mari sisteme noastre critice pentru misiune. Când ne gândim la ce se execută pe platformele mainframe de acolo. Este foarte mult datele mari, în special calitatea de lucru a datelor, dar cu siguranță datele mari. Sistemele tradiționale de întreprinderi și de guvernare, cum ar fi în special administrarea bancară și a averii și asigurarea, folosim în fiecare zi.

Sisteme de rezervare a companiilor aeriene și de gestionare a zborurilor, în special de gestionare a zborurilor, în timp real sunt critice. Aproape fiecare stat și guvern federal au avut un cadru principal și, în mod invariabil, mulți încă le mai au. Comerț cu amănuntul și fabricație. Unele dintre software-urile vechi care tocmai au fost în jur și nu au dispărut niciodată. Doar continuă să alimenteze medii de producție și cu siguranță cu amănuntul la scară. Sisteme medicale. Sisteme de apărare, cu siguranță sisteme de apărare.

În ultimele două săptămâni am citit multe articole despre faptul că unele dintre sistemele de control al rachetelor sunt în continuare rulate pe tablouri principale, la care se chinuie să găsească piese. Ei își dau seama cum să faceți upgrade la noi diagrame principale. Sisteme de transport și logistică. Este posibil ca acestea să nu pară subiecte sexy, dar acestea sunt subiectele cu care ne ocupăm zilnic de-a lungul liniilor. Și unele medii de telecomunicații foarte mari sunt încă rulate pe platformele mainframe.

Când vă gândiți la tipurile de date care sunt acolo, toate sunt critice pentru misiune. Sunt platforme și platforme cu adevărat importante pe care le asumăm zilnic și în multe moduri fac viața posibilă. Deci, cine mai folosește un mainframe și cine sunt toți acești oameni care țin de aceste platforme mari și care dețin toate aceste date? Ei bine, așa cum am spus aici, cred că este ușor să ne lăsăm păcăliți de trecerea mass-media de la fierul mare la rafturi de cluster-uri obișnuite de pe raft sau PC-uri ieftine sau mașini x86, în gândul că mainframe-ul a murit și a dispărut. Dar datele spun că schema principală nu a dispărut niciodată și, de fapt, este aici pentru a rămâne.

Cercetările pe care le-am reunit aici în ultimele câteva săptămâni au arătat că 70 la sută dintre întreprinderi, în special întreprinderi mari, date rămân în realitate pe un cadru de o anumită formă. Șaptezeci și unu din procente din Fortune 500 operează în continuare sisteme de afaceri de bază pe mainframe undeva. De fapt, aici, în Australia, avem o serie de organizații care au un centru de date în mijlocul unui oraș. Este un computer subteran efectiv și numărul de cadre principale funcționează acolo, bifând și își fac fericit treaba. Și foarte puțini oameni știu că plimbându-se pe străzi, chiar sub picioarele lor într-o anumită parte a orașului, există acest imens centru de date plin cu cadre principale. Nouăzeci și două din 100 dintre băncile din întreaga lume, primele 100 de bănci, adică, încă funcționează sisteme bancare pe mainframe. Douăzeci și trei din primele 25 de lanțuri de vânzare cu amănuntul din întreaga lume folosesc scheme principale pentru a-și administra în continuare sistemele de management cu amănuntul în platformele EIP și BI.

Destul de interesant, 10 din primii 10 asigurători își rulează încă platformele pe mainframe și își alimentează de fapt serviciile cloud pe mainframe. Dacă utilizați o interfață web sau o aplicație mobilă undeva că există o interfață intermediară, asta vorbește de fapt cu ceva cu adevărat greu și mare.

Am găsit peste 225 de agenții guvernamentale locale și de stat din întreaga lume care funcționează pe platforme mainframe încă. Sunt sigur că există o mulțime de motive pentru asta. Poate că nu au bugetul pentru a lua în considerare fierul nou, dar aceasta este o amprentă imensă a mediilor foarte mari care funcționează pe mainframe, cu date foarte critice. Și cum am menționat mai devreme, majoritatea națiunilor își mai rulează sistemele de apărare cheie pe mainframe. Sunt sigur că în multe feluri încearcă să ajungă acolo, dar acolo te duci.

În 2015, IDC a efectuat un sondaj și 350 dintre CIO-urile chestionate au raportat că încă dețineau și gestionau fierul mare sub formă de mainframes. Și m-a arătat că este probabil că este mai mult decât numărul de clustere Hadoop pe scară largă care funcționează în prezent în întreaga lume în producție - o statistică interesantă acolo. Voi merge mai departe și voi valida asta, dar a fost un număr mare. Trei sute cincizeci de CIO-uri au raportat că au una sau mai multe cadre principale în producție.

Anul trecut, 2015, IBM ne-a oferit puternicul Z13, cea de-a 13- a iterație a platformei mainframe. Mass-media s-a arătat dezbrăcată în legătură cu acest lucru, deoarece au fost uimiți de faptul că IBM făcea în continuare tablouri principale. Când au ridicat capota și au aruncat o privire la ceea ce se afla sub acest lucru, au realizat că de fapt, la egalitate cu aproape fiecare platformă modernă, ne-am entuziasmat sub formă de date mari, Hadoop și, cu siguranță, grupurile. Chestia asta a rulat Spark și acum Hadoop nativ. Puteți rula mii și mii de mașini Linux pe el și arăta și simți ca orice alt cluster. Era o mașină uluitoare.

O serie de organizații au preluat aceste lucruri și, de fapt, am făcut câteva date despre cât de multe dintre aceste mașini preiau. Acum am considerat că terminalul text 3270 a fost înlocuit de browsere web și aplicații mobile de ceva timp și există o mulțime de date care susțin asta. Cred că acum intrăm într-o eră în care ne-am dat seama că aceste scheme principale nu vor dispărea și că există o cantitate substanțială de date despre ele. Și deci ceea ce facem acum este să adăugăm pur și simplu ceea ce numesc instrumente de analiză off-the-raft. Acestea nu sunt aplicații personalizate. Acestea sunt lucruri care sunt personalizate. Acestea sunt lucruri pe care le puteți cumpăra literalmente într-o cutie ambalată de sine stătător și conectați-vă la mainframe și faceți unele analize.

Așa cum am mai spus, de fapt, mainframe-ul este de peste 60 de ani. Când ne gândim la cât este de lungă, aceasta este mai lungă decât întreprinderile celor mai mulți profesioniști IT care trăiesc. Și, de fapt, probabil o parte din viața lor, chiar. În 2002, IBM a vândut 2.300 de cadre principale. În 2013, aceasta a crescut la 2.700 de cadre principale. Asta înseamnă 2.700 de vânzări de sisteme mainframe într-un an în 2013. Nu am putut obține date exacte pe 2015, dar îmi imaginez că se apropie rapid de 3.000 de unități vândute pe an în 2015, 2013. Și aștept cu nerăbdare să pot confirma asta.

Odată cu lansarea Z13, iterația a 13- a a unei platforme mainframe, care cred că le-a costat în jur de 1, 2 sau 1, 3 miliarde de dolari pentru a dezvolta de la zero, IBM adică, iată o mașină care arată și se simte la fel ca orice alt cluster care avem astăzi, iar în mod nativ rulează Hadoop și Spark. Și cu siguranță poate fi conectat la alte analitice și instrumente de date mari sau poate fi conectat invariabil la unul dintre clusterele Hadoop existente sau noi. Am această părere că includerea platformei mainframe în strategia dvs. de date mari este o necesitate. Evident, dacă aveți una, aveți o mulțime de date și doriți să vă dați seama cum să o scoateți acolo. Și sunt lăsați să adune praf în multe feluri, mental și emoțional în ceea ce privește lumea afacerilor, dar sunt aici pentru a rămâne.

Conectivitatea și interfețele pentru toate instrumentele dvs. de analiză la datele găzduite de mainframe ar trebui să fie o parte cheie a întreprinderii dvs. și în special a planurilor de date mari ale guvernului. Și invariabil acum software-ul le observă, aruncând o privire lungă la ele și realizând ce se află în aceste lucruri și conectează mințile care încep să obțină un pic de perspectivă și un pic de sens pentru ceea ce este de fapt sub capotă. Și cu asta voi înmâna dragului meu coleg, dr. Robin Bloor și se va adăuga la acea mică călătorie. Robin, ia-o.

Robin Bloor: Bine, mulțumesc. Bine, bine, deoarece Dez a cântat melodia mainframe-ului, voi intra în ceea ce cred că se întâmplă în ceea ce privește vechea lume a mainframe-ului și noua lume Hadoop. Bănuiesc că marea întrebare este aici, cum gestionați toate aceste date? Nu este opinia mea că cadrul principal este contestat în ceea ce privește capacitatea sa de date mari - capacitatea sa de date mari este extrem de puternică, după cum a arătat Dez, este extrem de capabil. De fapt, puteți pune grupuri Hadoop pe el. Unde este contestat este în termeni de ecosistemul său și voi avea un fel de detaliat în acest sens.

Iată câteva poziționări ale cadrelor principale. Are un cost de intrare ridicat și ceea ce s-a întâmplat de fapt în trecut, de la mijlocul anilor ’90, când popularitatea mainframe-urilor a început să scufunde, a avut tendința să-și fi pierdut capătul scăzut, acei oameni care au cumpărat cadre principale și nu a fost nu este foarte deosebit de economic pentru acei oameni. Însă în realitate este mai mare în intervalul mediu și în gama ridicată a mainframe-ului, în realitate era și, în mod demonstrativ, este o computere incredibil de ieftină.

Trebuie spus, salvat de Linux, deoarece Linux implementat pe un mainframe a făcut posibilă, desigur, rularea tuturor aplicațiilor Linux. Multe aplicații Linux au mers acolo înainte ca datele mari să fie chiar un cuvânt, sau două cuvinte presupun. Este de fapt o platformă destul de excelentă pentru cloud privat. Din această cauză poate participa la implementări de cloud hibride. Una dintre probleme este aceea că abilitățile mainframe sunt insuficiente. Abilitățile de bază care există sunt de fapt îmbătrânirea, în sensul că oamenii părăsesc industria pentru pensionare an de an și sunt doar înlocuiți în ceea ce privește numărul de persoane. Deci este o problemă. Dar este totuși un calcul ieftin.

Desigur, zona în care a fost contestat este acest lucru Hadoop. Aceasta este o imagine a lui Doug Cutting cu elefantul original Hadoop. Ecosistemul Hadoop este - și va rămâne - ecosistemul dominant de date mari. Oferă o scară mai bună decât cea pe care o poate realiza de fapt mainframe și costul mai scăzut ca un magazin de date pe termen lung. Ecosistemul Hadoop evoluează. Cel mai bun mod de a gândi acest lucru este odată o platformă hardware specială și mediul de operare cu acesta devine dominant, atunci ecosistemul devine doar viu. Și asta s-a întâmplat cu ajutorul mainframe-ului IBM. Ei bine, mai târziu s-a întâmplat cu Digital VAX, s-a întâmplat cu serverele Sun, s-a întâmplat cu Windows, s-a întâmplat cu Linux.

Și ceea ce s-a întâmplat este că Hadoop, la care mă gândesc întotdeauna sau îmi place să mă gândesc, ca un fel de mediu distribuit pentru date, ecosistemul evoluează într-un ritm incredibil. Adică, dacă menționați doar diversele contribuții impresionante care sunt open source, Spark, Flink, Kafka, Presto, apoi adăugați la acestea unele dintre bazele de date, NoSQL și capabilitățile SQL care sunt acum pe Hadoop. Hadoop este cel mai activ ecosistem care există de fapt acolo, cu siguranță în calculul corporativ. Dar dacă doriți să o tratați ca o bază de date, în prezent, nu are nicio comparație cu ceea ce tind să cred ca baze de date reale, în special în spațiul depozitului de date. Și asta explică într-o anumită măsură succesul unui număr de mari baze de date NoSQL care nu rulează pe Hadoop precum CouchDB și așa mai departe.

Ca lac de date, are un ecosistem mult mai bogat decât orice altă platformă și nu va fi deplasat de la aceasta. Ecosistemul său nu este doar ecosistemul open-source. Acum există un număr dramatic de membri software care au produse care sunt construite fundamental pentru Hadoop sau au fost importate în Hadoop. Și tocmai au creat un ecosistem că nu există nimic care să concureze în ceea ce privește lățimea sa. Și asta înseamnă că a devenit cu adevărat platforma pentru inovația de date mari. Dar, în opinia mea, este încă imatur și am putea avea discuții îndelungate despre ceea ce este și nu este, să zicem, matur operațional cu Hadoop, dar cred că majoritatea oamenilor care se uită la această zonă particulară sunt conștienți de faptul că Hadoop este la zeci de ani din spatele cadrului principal. din punct de vedere al capacității operaționale.

Lacul de date în evoluție. Lacul de date este o platformă prin orice definiție și dacă vă gândiți să existe un strat de date în calcul corporativ, acum este foarte ușor să vă gândiți la acesta în ceea ce privește bazele de date fixe, plus lacul de date care alcătuiește stratul de date. Aplicațiile pentru lacurile de date sunt multe și variate. Am o diagramă aici, care trece prin diferitele lucruri care se referă la date care trebuie făcute dacă utilizați Hadoop ca zonă de punere în scenă sau Hadoop și Spark ca zonă de punere în scenă. Și aveți totul - linie de date, curățarea datelor, gestionarea metadatelor, descoperirea metadatelor - poate fi folosit pentru ETL în sine, dar deseori necesită ETL pentru a aduce datele. Managementul datelor de bază, definițiile de afaceri ale datelor, gestionarea serviciilor de ce se întâmplă în Hadoop, gestionarea ciclului de viață a datelor și ETL din Hadoop și, de asemenea, aveți aplicații de analiză directă pe care le puteți rula pe Hadoop.

Și de aceea a devenit foarte puternic și unde a fost implementat și implementat cu succes, în mod normal are cel puțin o colecție de aceste tipuri de aplicații care rulează deasupra. Și cele mai multe dintre aceste aplicații, în special cele despre care am fost informați, nu sunt disponibile chiar acum pe mainframe. Dar le puteți rula pe mainframe, pe un cluster Hadoop care rulează într-o partiție a mainframe-ului.

Lacul de date devine, după părerea mea, zona de stadializare naturală pentru analiza rapidă a bazelor de date și pentru BI. Devine locul în care luați datele, indiferent dacă sunt date corporative sau date externe, încurcați-le până când este, să zicem, suficient de curat pentru a fi folosit și bine structurat pentru a le folosi, apoi le transmiteți mai departe. Și toate acestea sunt încă la început.

În opinia mea, coexistența mainframe / Hadoop, primul lucru este acela că este puțin probabil ca marile companii să renunțe la mainframe. De fapt, indicațiile pe care le-am văzut recent implică faptul că există o investiție în creștere în cadrul mainframe. Dar nici nu vor ignora ecosistemul Hadoop. Văd cifre de 60 la sută din companiile mari care folosesc Hadoop, chiar dacă multe dintre ele sunt doar prototipuri și experimente.

Conundrul este atunci: „Cum faceți ca aceste două lucruri să coexiste?”, Deoarece vor trebui să partajați date. Datele care sunt aduse în lacul de date pe care trebuie să le transfere în cadrul mainframe. Este posibil ca datele care figurează pe schema principală să fie nevoie să meargă la lacul de date sau prin lacul de date pentru a fi alăturate altor date. Și asta se va întâmpla. Și asta înseamnă că necesită transfer rapid de date / capacitate ETL. Este puțin probabil ca sarcinile de lucru să fie împărțite dinamic într-un mediu mainframe sau cu ceva dintr-un mediu Hadoop. Vor fi date care sunt partajate. Și cea mai mare parte a datelor va fi, în mod inevitabil, reședință pe Hadoop pur și simplu pentru că este platforma cu cele mai mici costuri. Și procesarea analitică end-to-end va rămâne probabil și acolo.

În rezumat, în cele din urmă, trebuie să ne gândim la termenii unui strat de date corporativ, care pentru multe companii va include cadrul principal. Și stratul de date trebuie gestionat proactiv. Altfel, cei doi nu vor coexista bine. Vă pot trece mingea înapoi Eric.

Eric Kavanagh: Din nou, Tendü tocmai v-am făcut prezentatorul, așa că luați-l.

Tendü Yogurtçu: Mulțumesc, Eric. Mulțumesc că m-ai avut. Buna tuturor. Voi vorbi despre experiența Syncsort cu clienții în legătură cu modul în care vedem datele ca un atu în organizație este nivelat de la mainframe la date mari pe platformele de analiză. Și sper că vom avea timp și la finalul sesiunii pentru a avea întrebări din partea publicului, deoarece aceasta este cu adevărat cea mai valoroasă parte a acestor transmisii web.

Doar pentru persoanele care nu știu ce face Syncsort, Syncsort este o companie de software. Suntem în jur de 40 de ani. Început pe partea mainframe și produsele noastre se extind de la mainframe la Unix la platforme de date mari, inclusiv Hadoop, Spark, Splunk, atât pe premisă cât și în cloud. Atenția noastră a fost întotdeauna pusă pe produsele de date, procesarea datelor și produsele de integrare a datelor.

Strategia noastră în ceea ce privește datele mari și Hadoop a fost cu adevărat să devină parte a ecosistemului încă din prima zi. În calitate de proprietari de furnizori care s-au concentrat cu adevărat pe prelucrarea datelor cu motoare foarte ușoare, ne-am gândit că există o mare oportunitate de a participa la Hadoop devenind o platformă de prelucrare a datelor și să facem parte din această arhitectură de depozit de date pentru următoarea generație pentru organizație. Din 2011 contribuim la proiectele Apache cu sursă deschisă, începând cu MapReduce. Au fost în top 10 pentru Hadoop Versiunea 2 și am participat de fapt la mai multe proiecte, inclusiv pachete Spark, unii dintre conectorii noștri sunt publicate în pachetele Spark.

Ne folosim motorul foarte ușor de prelucrare a datelor, care este complet metadate bazate pe fișiere și se potrivește foarte bine cu sistemele de fișiere distribuite, cum ar fi sistemul de fișiere distribuite Hadoop. Și ne folosim moștenirea de pe mainframe, expertiza noastră cu algoritmi în timp ce punem la dispoziție produsele noastre de date mari. Și partenerăm foarte strâns cu furnizorii importanți, jucători importanți aici, inclusiv Hortonworks, Cloudera, MapR, Splunk. Hortonworks a anunțat recent că va revinde produsul nostru pentru ETL la bord cu Hadoop. Cu Dell și Cloudera avem un parteneriat foarte strâns, care revinde și produsul nostru ETL ca parte a aplicației lor de date mari. Și cu Splunk de fapt, publicăm o telemetrie mainframe și date de securitate în tablourile de bord Splunk. Avem un parteneriat strâns.

Ce este în mintea fiecărui executiv la nivel C? Este într-adevăr, „Cum pot folosi resursele mele de date?” Toată lumea vorbește despre date mari. Toată lumea vorbește despre Hadoop, Spark, următoarea platformă de computer care m-ar putea ajuta să creez agilitate în afaceri și să deschid noi aplicații transformatoare. Noi oportunități de acces la piață. Fiecare executiv se gândește: „Care este strategia mea de date, care este inițiativa mea de date și cum mă asigur că nu rămân în spatele concurenței mele și că voi fi în continuare pe această piață în următorii trei ani?” vedeți acest lucru în timp ce vorbim cu clienții noștri, în timp ce vorbim cu baza noastră globală de clienți, care este destul de mare, așa cum vă puteți imagina, de când suntem de ceva vreme.

În timp ce vorbim cu toate aceste organizații, vedem și acest lucru în stiva tehnologică în perturbarea care s-a întâmplat cu Hadoop. Este într-adevăr pentru a satisface această cerere despre date ca un atu. Utilizarea tuturor activelor de date pe care le are o organizație. Și am văzut că arhitectura depozitului de date a întreprinderii evoluează astfel încât Hadoop este acum noua piesă centrală a arhitecturii moderne de date. Și majoritatea clienților noștri, fie că este vorba de servicii financiare, fie că este vorba de asigurare, telco de vânzare cu amănuntul, inițiativele sunt, de obicei, ori găsim că Hadoop ca serviciu sau date ca serviciu. Deoarece toată lumea încearcă să pună la dispoziție activele de date fie pentru clienții lor externi, fie pentru clienții interni. Și în unele organizații vedem inițiative precum aproape o piață de date pentru clienții lor.

Și unul dintre primii pași de realizare este totul din crearea unui hub de date al întreprinderii. Uneori, oamenii îl vor numi lac de date. Crearea acestui hub de date a întreprinderii nu este la fel de ușor pe cât sună, deoarece necesită într-adevăr accesarea și colectarea practic a datelor din întreprindere. Și aceste date sunt acum din toate noile surse, precum senzorii mobili, precum și bazele de date vechi și sunt în modul batch și în modul streaming. Integrarea datelor a fost întotdeauna o provocare, însă, cu numărul și varietatea surselor de date și cu diferitele stiluri de livrare, fie că este vorba despre loturi sau streaming în timp real, este și mai dificilă acum în comparație cu acum cinci ani, cu zece ani în urmă. Ne referim uneori la „Nu mai este ETL-ul tatălui tău”.

Vorbim deci despre diferitele active de date. Întrucât întreprinderile încearcă să înțeleagă noile date, datele pe care le colectează de la dispozitivele mobile, indiferent dacă sunt senzorii unui producător de mașini sau sunt datele utilizatorului pentru o companie de jocuri de telefonie mobilă, acestea trebuie adesea să facă referire la cele mai critice active de date din întreprinderea, care este informația clienților, de exemplu. Aceste active de date cele mai critice trăiesc adesea pe cadrul principal. Corelarea datelor mainframe cu aceste surse noi emergente, colectate în cloud, colectate prin intermediul mobilului, colectate pe linia de fabricație a unei companii auto japoneze sau aplicațiile internet ale lucrurilor, trebuie să conștientizeze aceste date noi, făcând referire la seturile de date vechi. Iar acele seturi de date moștenite sunt adesea în cadrul mainframe-ului.

Și dacă aceste companii nu sunt capabile să facă acest lucru, nu sunt capabile să apeleze la datele de la mainframe, atunci există o oportunitate ratată. Apoi, datele ca serviciu sau folosirea tuturor datelor întreprinderii nu sunt cu adevărat exploatate în cele mai critice active ale organizației. Există, de asemenea, partea de date de securitate și telemetrie, deoarece aproape toate datele tranzacționale trăiesc pe mainframe.

Imaginați-vă că mergeți la un bancomat, cred că unul dintre participanți a trimis un mesaj participanților aici pentru protejarea sistemului bancar, atunci când treceți cardul dvs. că datele tranzacționale sunt destul de globale pe cadrul principal. Și securizarea și colectarea datelor de securitate și a datelor de telemetrie din cadrele principale și punerea la dispoziție a acestora prin tablouri de bord Splunk sau altele, Spark, SQL, devine mai critică acum ca niciodată, din cauza volumului de date și a varietății de date.

Seturile de îndemânare sunt una dintre cele mai mari provocări. Deoarece pe de o parte aveți o stivă de date mari în schimbare rapidă, nu știți ce proiect va supraviețui, ce proiect nu va supraviețui, ar trebui să angajez dezvoltatori Hive sau Pig? Ar trebui să investesc în MapReduce sau Spark? Sau următorul lucru, Flink, a spus cineva. Ar trebui să investesc într-una dintre aceste platforme de calculator? Pe de o parte, păstrarea ecosistemului în schimbare rapidă este o provocare, iar pe de altă parte aveți aceste surse de date vechi. Noile seturi de abilități nu se potrivesc cu adevărat și este posibil să aveți o problemă, deoarece aceste resurse s-ar putea retrage. Există un decalaj mare în ceea ce privește seturile de abilități ale oamenilor care înțeleg acele stive de date vechi și care înțeleg stiva tehnologică emergentă.

A doua provocare este guvernarea. Când accesați cu adevărat toate datele întreprinderii de pe platforme, avem clienți care și-au exprimat îngrijorarea, „Nu vreau ca datele mele să aterizeze. Nu vreau ca datele mele să fie copiate în mai multe locuri, deoarece vreau să evit cât mai multe copii. Vreau să am acces de la capăt la capăt fără să-l aterizez la mijloc. ”Guvernarea acestor date devine o provocare. Și cealaltă piesă este că, dacă accesați date care blochează, dacă colectați cele mai multe date în cloud și accesați și faceți referire la date moștenite, lățimea de bandă a rețelei devine o problemă, o platformă de cluster. Există multe provocări în ceea ce privește faptul că această inițiativă de date mari și platforme de analiză avansată și totuși să folosim toate datele întreprinderii.

Ceea ce oferă Syncsort este, ne este denumit „pur și simplu cel mai bun” nu pentru că suntem pur și simplu cei mai buni, dar clienții noștri se referă cu adevărat la noi ca fiind pur și simplu cei mai buni la accesarea și integrarea datelor mainframe. Susținem toate formatele de date de la mainframe și o facem disponibilă pentru analizele de date mari. Fie că este vorba de Hadoop sau Spark sau de următoarea platformă de calculatoare. Deoarece produsele noastre izolează într-adevăr complexitățile platformei computerizate. Sunteți, ca dezvoltator, potențial în curs de dezvoltare pe un laptop, concentrându-vă pe conducta de date și care sunt pregătirile de date, pașii pentru ca aceste date să fie create pentru analiză, faza următoare și să luați aceeași aplicație în MapReduce sau să luați asta aceeași aplicație în Spark.

Am ajutat clienții noștri să facă asta atunci când YARN a devenit disponibil și au fost nevoiți să-și mute aplicațiile de la MapReduce versiunea 1 la YARN. Îi ajutăm să facă la fel cu Apache Spark. Produsul nostru, noua versiune 9 funcționează și cu Spark și se livrează cu o optimizare dinamică care va izola aceste aplicații pentru viitoarele cadre computerizate.

Așadar, avem acces la date mainframe, fie că este vorba de fișiere VSAM, fie că este DB2, fie că este vorba despre date de telemetrie, cum ar fi înregistrările SMF, Log4j sau syslogs, care trebuie vizualizate prin tablourile de bord Splunk. Și în timp ce facem asta, deoarece organizația își poate valorifica inginerul de date sau seturile de abilități ETL existente, timpul de dezvoltare este redus semnificativ. De fapt, cu Dell și Cloudera, a existat un benchmark independent sponsorizat, iar referința respectivă s-a concentrat asupra timpului de dezvoltare care durează dacă efectuați codarea manuală sau utilizați alte instrumente precum Syncsort, iar reducerea timpului de dezvoltare a fost de aproximativ 60, 6%. . Punerea la distanță a seturilor de abilități între grupuri, între gazdele de fișiere de date și, de asemenea, acele gazde de fișiere de date în termeni de oameni.

De obicei, echipa de date mari sau echipa de ingerare a datelor sau echipa care este însărcinată să dezvolte aceste date ca arhitectură de serviciu, nu vorbesc neapărat cu echipa mainframe. Ei doresc să minimizeze această interacțiune aproape în multe dintre organizații. Prin închiderea acestui decalaj am avansat. Iar partea cea mai importantă este asigurarea cu adevărat a întregului proces. Deoarece în întreprindere când aveți de-a face cu acest tip de date sensibile, există multe cerințe.

În industrii extrem de reglementate, cum ar fi asigurările și serviciile bancare, clienții noștri întreabă, au spus: „Oferiți acest acces la date mainframe și este extraordinar. Îmi puteți oferi, de asemenea, ca acest format de înregistrare codat EBCDIC să fie păstrat în formatul inițial, astfel încât să pot satisface cerințele mele de audit? ”Așadar, îi facem pe Hadoop și Apache Spark să înțeleagă datele din cadrul mainframe. Puteți păstra datele în formatul lor original de înregistrare, puteți face platforma computerizată pentru distribuitorul de niveluri și procesare și niveluri, iar dacă doriți să o readuceți, puteți arăta înregistrarea nu este schimbată și formatul înregistrării nu este modificat, puteți respecta cerințele de reglementare .

Și majoritatea organizațiilor, întrucât creează hub-ul de date sau lacul de date, încearcă, de asemenea, să facă acest lucru la un singur clic pentru a putea mapa metadatele de la sute de scheme dintr-o bază de date Oracle până la tabele Hive sau ORC sau fișiere Parquet devine necesar. Livrăm instrumente și furnizăm instrumente pentru a face din acesta un acces la date într-un pas, locuri de muncă care generează automat sau mișcarea datelor și lucrări de generare automată pentru realizarea mapării datelor.

Am vorbit despre partea de conectivitate, conformitate, guvernanță și prelucrarea datelor. Iar produsele noastre sunt disponibile atât în ​​premisă cât și în cloud, ceea ce îl face foarte simplu, deoarece companiile nu trebuie să se gândească la ce se va întâmpla în următorul an sau doi, dacă decid să merg complet în cloud public versus hibrid. mediu, deoarece unele dintre clustere ar putea funcționa sub premisă sau în nor. Iar produsele noastre sunt disponibile atât pe Amazon Marketplace, pe EC2, Elastic MapReduce, cât și pentru un container Docker.

Doar pentru a face un fel de înveliș, așa că avem suficient timp pentru întrebări și răspunsuri, este vorba despre accesarea, integrarea și respectarea guvernării datelor, dar totuși să simplificăm toate acestea. Și făcând acest lucru mai simplu, „proiectați o dată și implementați-o oriunde” într-un adevărat sens, datorită contribuțiilor noastre open-source, produsul nostru rulează nativ în fluxul de date Hadoop și nativ cu Spark, izolând organizațiile de ecosistemul în schimbare rapidă. Și furnizarea unei singure conducte de date, o singură interfață, atât pentru lot, cât și pentru streaming.

Și acest lucru ajută organizațiile uneori să evalueze aceste cadre, pentru că este posibil să doriți să creați de fapt aplicații și să rulați doar pe MapReduce versus Spark și să vedeți pentru dvs., da, Spark are această promisiune și oferă toate avansurile privind algoritmii iterativi care funcționează pentru cea mai bună învățare a mașinii iar aplicațiile de analiză predictivă funcționează cu Spark, pot să fac și sarcinile mele de streaming și lot efectuate pe acest cadru computer? Puteți testa diferite platforme de calculator utilizând produsele noastre. Și optimizarea dinamică, fie că rulați pe un server autonom, pe laptop, în Google Cloud versus Apache Spark, este o propunere de valoare mare pentru clienții noștri. Și a fost condus cu adevărat de provocările pe care le-au avut.

Voi acoperi doar unul dintre studiile de caz. Aceasta este compania de asigurări de viață Guardian. Inițiativa lui Guardian a fost cu adevărat de a-și centraliza activele de date și de a le pune la dispoziția clienților, de a reduce timpul de pregătire a datelor și au spus că toată lumea vorbește despre pregătirea datelor, luând 80 la sută din totalul conductelor de prelucrare a datelor și au spus că de fapt este vorba despre 75 - 80 la sută pentru ei și au dorit să reducă acea pregătire a datelor, timpii de transformare, timpul necesar comercializării proiectelor de analiză. Creați acea agilitate pe măsură ce adaugă noi surse de date. Și faceți accesul la date centralizat disponibil pentru toți clienții lor.

Soluția lor, incluzând produsele Syncsort, este chiar acum că au o piață de date similară Amazon Marketplace, susținută de un lac de date, care este practic baza de date Hadoop și NoSQL. Și folosesc produsele noastre pentru a aduce toate activele de date în lacul de date, inclusiv DB2 pe mainframe, inclusiv fișierele VSAM pe mainframe, și sursele de date moștenite ale bazei de date, precum și noile surse de date. În consecință, au centralizat activele de date refolosibile care pot fi căutate, accesibile și disponibile pentru clienții lor. Și sunt într-adevăr capabili să adauge noile surse de date și să-și servească clienții mult mai rapid și mai eficient decât înainte. Iar inițiativele de analiză progresează chiar mai mult și pe partea predictivă. Așa că voi face o pauză și sper că acest lucru a fost util și dacă aveți întrebări pentru mine cu privire la oricare dintre subiectele conexe, vă rugăm să fiți bineveniți.

Eric Kavanagh: Sigur, și Tendü, o să arunc doar unul. Am primit un comentariu de la un membru al audienței, spunând doar „Îmi place acest„ design odată, se implementează oriunde ”. Puteți să înțelegeți cum este adevărat? Adică, ce ai făcut pentru a permite acest tip de agilitate și există vreo taxă? Ca atunci când vorbim despre virtualizare, de exemplu, există întotdeauna un pic de impozit pe performanță. Unii oameni spun două la sută, cinci la sută 10 la sută. Ce ați făcut pentru a permite proiectarea o singură dată, implementați-o oriunde - cum o faceți și există vreo taxă asociată în ceea ce privește performanța?

Tendü Yogurtçu: Sigur, mulțumesc. Nu, pentru că spre deosebire de unii dintre ceilalți furnizori, nu generează cu adevărat Hive sau Pig sau un alt cod care nu este nativ pentru motoarele noastre. Acesta este locul în care contribuțiile noastre open-source au jucat un rol uriaș, deoarece am colaborat cu furnizorii Hadoop, Cloudera, Hortonworks și MapR foarte îndeaproape și datorită contribuțiilor noastre open-source, motorul nostru funcționează nativ ca parte a fluxului, ca parte a fluxului Hadoop, ca parte a Scânteii.

Ceea ce se traduce, de asemenea, avem această optimizare dinamică. Acesta a fost ceva care a rezultat ca clienții noștri să fie provocați de cadre informatice. Pe măsură ce intrau în producție cu unele dintre aplicații, s-au întors, au spus: „Eu doar stabilizez clusterul meu Hadoop, stabilizez pe MapReduce YARN Versiunea 2, MapReduce Versiunea 2, iar oamenii vorbesc că MapReduce este mort, Spark este următorul lucru și unii oameni spun că Flink va fi următorul lucru, cum o să fac față asta? ”

Și aceste provocări au devenit cu adevărat atât de evidente pentru noi, am investit în realizarea acestei optimizări dinamice la care ne referim drept execuție inteligentă. La timpul de execuție, când lucrarea, când este transmisă această conductă de date, pe baza clusterului, fie că este Spark, fie că este MapReduce sau un server autonom Linux, decidem cum să rulăm această lucrare, nativ în motorul nostru, ca parte a acestei Fluxul de date Hadoop sau Spark. Nu există nicio depășire, deoarece totul se realizează prin această optimizare dinamică pe care o avem și totul se realizează, deoarece motorul nostru este atât de integrat nativ din cauza contribuțiilor noastre open-source. Îți răspunde întrebarea?

Eric Kavanagh: Da, este bine. Și vreau să mai arunc o întrebare acolo, și apoi Dez, poate vă vom trage și pe voi și pe Robin. Tocmai am primit un comentariu hilar de la unul dintre participanții noștri. O să citesc pentru că într-adevăr este destul de milă. El scrie, „Se pare că în istoria lucrurilor HOT” - înțelegeți-l? Ca IoT - „este că cu cât încercați să„ simplificați ”ceva care este într-adevăr complex, mai des decât cel mai simplu pare să facă lucrurile, este furnizată mai multă frânghie. Gândiți interogare la baze de date, explozie, multi-threading, etc. ”Puteți să comentați un fel de paradox la care face referire? Simplitate versus complexitate și, practic, ce se întâmplă sub copertine?

Tendü Yogurtçu: Sigur. Cred că acesta este un punct foarte valid. Când simplificați lucrurile și faceți aceste optimizări, într-un fel sub acoperire, cineva trebuie să ia această complexitate a ceea ce trebuie să se întâmple, nu? Dacă paralizați ceva sau dacă decideți să executați o anumită lucrare în ceea ce privește cadrul computerului, în mod evident, există o parte a lucrării care este împinsă dacă se află la capătul utilizatorului, la codarea meniului sau la optimizarea motorului. Există o parte din asta, simplificând la experiența utilizatorului, există un beneficiu uriaș în ceea ce privește posibilitatea de a folosi seturile de abilități care există în întreprindere.

Și puteți atenua acest paradox, să atenuați această provocare cu „Da, dar nu am control asupra a tot ceea ce se întâmplă sub copertă, sub capota din acel motor”, expunând lucrurile utilizatorilor mai avansați dacă vreau să ai un astfel de control. Investind, de asemenea, în unele dintre tipurile de lucrări de serviciu. Fiind capabil să ofere mai multe metadate operaționale, mai multe date operaționale, ca în exemplul pe care l-a oferit acest participant, pentru o interogare SQL, precum și cu motorul pornit. Sper ca asta să răspundă.

Eric Kavanagh: Da, sună bine. Dez, ia-o.

Dez Blanchfield: Sunt foarte dornic să aflu un pic mai multă cunoaștere a amprentei dvs. în contribuțiile la sursă deschisă și călătoria pe care ați luat-o din experiența dvs. tradițională, de lungă durată, în mainframe și în lumea proprietară și apoi trecerea la contribuind la open source și cum a avut loc acest lucru. Și celălalt lucru pe care doresc să-l înțeleg este părerea pe care o vedeți că întreprinderile, nu doar departamentele IT, ci întreprinderile sunt acum în ceea ce privește hub-urile de date sau lacurile de date așa cum spun oamenii acum și dacă văd această tendință de doar un singur lac de date consolidat sau dacă vedem lacuri de date distribuite și oamenii folosesc instrumente pentru a le pune împreună?

Tendü Yogurtçu: Sigur. Pentru prima, aceasta a fost o călătorie foarte interesantă, în calitate de companie de software proprietar, una dintre primele după IBM. Cu toate acestea, din nou, totul a început cu clienții noștri evanghelisti care se uitau la Hadoop. Am avut companii de date precum ComScore, acestea au fost una dintre primele care au adoptat Hadoop, deoarece colectau date digitale pe tot globul și nu am putut să păstreze 90 de zile de date decât dacă au investit o casetă de zece milioane de date în depozitul lor mediu inconjurator. Au început să se uite la Hadoop. Cu asta am început să ne uităm și la Hadoop.

Și când am luat o decizie și am recunoscut că Hadoop va fi cu adevărat platforma de date a viitorului, am ajuns și la înțelegerea faptului că nu vom putea avea o piesă în acest sens, o piesă de succes în această situație, decât dacă erau o parte a ecosistemului. Și am lucrat foarte strâns cu furnizorii Hadoop, cu Cloudera, Hortonworks, MapR, etc. Am început să vorbim cu adevărat cu aceștia, deoarece parteneriatul devine foarte important pentru a valida valoarea pe care un vânzător o poate aduce și, de asemenea, ne asigurăm că putem merge împreună la întreprindere. și oferă ceva mai semnificativ. Necesita o mulțime de relații pentru că nu eram cunoscuți de proiectele open-source Apache, cu toate acestea, am avut un sprijin deosebit din partea acestor vânzători Hadoop, trebuie să spun.

Am început să lucrăm împreună și să ne uităm la hub, cum putem aduce valoare fără nici măcar software-ul nostru proprietar din spațiu. Asta era important. Nu este vorba doar de a pune niște API-uri pe care produsul dvs. poate să funcționeze, ci să vă puteți spune că voi investi în asta pentru că cred că Hadoop va fi o platformă a viitorului, deci investind în sursele pe care am vrut să le realizăm. sigur că se maturizează și devine pregătită pentru întreprinderi. Putem activa de fapt unele dintre cazurile de utilizare care nu erau disponibile înainte de contribuțiile noastre. Acest lucru va aduce beneficii întregului ecosistem și putem dezvolta aceste parteneriate foarte îndeaproape.

A durat destul de mult timp. Am început să contribuim în 2011, iar în 2013, 21 ianuarie - Îmi amintesc data, deoarece această dată a fost angajată cea mai mare contribuție, ceea ce însemna că acum putem avea produsele noastre în general disponibile din acel moment - a fost nevoie de ceva timp pentru a dezvolta aceste relații., arată valoarea, partenerii devin parteneri de proiectare cu furnizorii și cu angajatorii din comunitatea open-source. Dar a fost multă distracție. A fost foarte plăcut ca companie să facem parte din acel ecosistem și să dezvoltăm un parteneriat minunat.

A doua întrebare cu privire la hub-ul de date / lacul de date, cred că atunci când vedem aceste date ca o implementare a serviciului în majoritatea cazurilor, da, s-ar putea să fie clustere, fizice unice sau mai multe clustere, dar este mai conceptual decât să devină acel singur loc pentru toate datele. Deoarece în unele organizații vedem implementări mari de cluster în premisă, cu toate acestea, acestea au și grupuri, de exemplu, în cloud public, deoarece unele date colectate din secțiuni online sunt într-adevăr păstrate în cloud. Este capabil să aibă o singură conductă de date pe care să le poți folosi de fapt pe ambele, și să le folosești ca un singur centru de date, un lac de date, devine important. Nu neapărat doar locul fizic, dar, având în vedere acel hub de date și lac de date în grupuri, pe geografii și poate pe premise și cloud va fi foarte critic, cred. Mai ales să avansezi. În acest an am început să vedem din ce în ce mai multe implementări de cloud. Este uimitor. În prima jumătate a acestui an, până acum, am observat o mulțime de implementări în cloud.

Eric Kavanagh: Bine, mișto. Și Robin, aveți întrebări? Știu că mai avem doar câteva minute.

Robin Bloor: Bine, pot să-i pun o întrebare. Primul lucru care mi s-a întâmplat este că a existat foarte multă emoție în ceea ce privește Kafka și am fost interesat de părerea dvs. despre Kafka și cum vă integrați cu modul în care oamenii folosesc Kafka?

Tendü Yogurtçu: Sigur. Da, Kafka devine destul de populară. Dintre clienții noștri vedem că este un fel de strat de transport de date și au văzut că datele sunt un autobuz, destul de mult. De exemplu, unul dintre clienții noștri folosea într-adevăr un fel de date care consumă acest Kafka printre mai mulți, cum ar fi mii de utilizatori online și putând să-l clasifice și să-l comunice.

Din nou, Kafka este un bus de date pentru diferiții consumatori de date. Clasificați unii utilizatori avansați față de utilizatorii nu atât de avansați și faceți ceva diferit înaintând în conducta de date. Modul în care ne integrăm cu Kafka este practic, produsul nostru DMX-h devine un consumator de încredere, un consumator extrem de eficient și de încredere pentru Kafka. Poate citi datele și aceasta nu este diferită de citirea datelor din orice altă sursă de date pentru noi. Oferim utilizatorilor posibilitatea de a controla fereastra, fie în funcție de cerința de timp pe care o au sau de numărul de mesaje pe care le-ar putea consuma din magistrala Kafka. Și atunci putem, de asemenea, să îmbogățim aceste date pe măsură ce trec prin produsul nostru și să fim împinse înapoi în Kafka. Am testat acest lucru. Am analizat-o pe site-ul clientului. De asemenea certificat de Confluent. Lucrăm îndeaproape cu băieții Confluent și este foarte performant și ușor de utilizat. Din nou, API-urile se schimbă, dar nu trebuie să vă faceți griji, deoarece produsul tratează cu adevărat asta ca doar o altă sursă de date, o sursă de date în flux. Este destul de amuzant să lucrezi cu produsul nostru și Kafka, de fapt.

Robin Bloor: Bine, am o altă întrebare care este doar un fel de întrebare generală de afaceri, dar o cunosc de mult timp pe Syncsort și ai avut întotdeauna reputația și ai livrat un software extraordinar de rapid pentru ETL și lumea mainframe. Este cazul că cea mai mare parte a afacerii dvs. este acum transferată către Hadoop? Este cazul ca într-un fel sau altul să vă răspândiți afacerea într-un mod destul de dramatic din lumea mainframe?

Tendü Yogurtçu: Produsele noastre de bază funcționează în continuare cu 50 la sută din mainframe la nivel global. Avem deci o linie de produse mainframe foarte puternică, pe lângă ceea ce facem cu privire la datele mari și la finalul Hadoop. Și suntem în continuare în majoritatea proiectelor de simplificare sau optimizare IT, deoarece există un capăt pe care doriți să puteți să-l accesați în datele dvs. mainframe în platformele Multex de date mari și să folosiți toate datele întreprinderii, cu toate acestea există și sarcini de muncă tranzacționale foarte critice. care continuă să funcționeze pe mainframe și le oferim clienților modalitățile de a face aceste aplicații mai eficiente, rulați în motorul ZIIP, astfel încât să nu consume atât de multe cicluri de procesare și MIPS, să le facă rentabile.

Continuăm să investim în produsele mainframe și jucăm de fapt în acest spațiu în care oamenii trec de la fierul mainframe la date mari și extind linia de produse și pe acele platforme. Deci, nu schimbăm în mod necesar întreaga afacere într-o parte, continuăm să avem afaceri de succes de ambele părți. Iar achizițiile sunt un obiectiv important și pentru noi. Pe măsură ce acest spațiu de gestionare a datelor și de procesare a datelor pentru marile platforme de date evoluează, suntem de asemenea angajați să facem câteva achiziții complementare.

Robin Bloor: Bănuiesc că nu te pot întreba ce sunt pentru că nu ai voie să-mi spui. Mă interesează dacă ai văzut multe implementări ale lui Hadoop sau Spark de fapt pe mainframe sau dacă acesta este un lucru foarte rar.

Tendü Yogurtçu: Nu am văzut niciunul. Există mai multe întrebări despre asta. Cred că Hadoop pe mainframe nu avea prea mult sens din cauza tipului de structură de bază. Cu toate acestea, Spark on mainframe este destul de semnificativ, iar Spark este foarte bun cu învățarea automată și analiza predictivă și poate avea unele dintre acele aplicații cu date de mainframe este într-adevăr semnificativ. Încă nu am văzut pe nimeni care să facă asta, cu toate acestea, este într-adevăr cazul de utilizare care conduce aceste lucruri. Dacă cazul dvs. de utilizare ca companie aduce mai mult aceste date mainframe și se integrează cu restul seturilor de date în marea platformă de date, aceasta este o poveste. Acesta necesită accesarea datelor mainframe din platforma Multex de date mari, deoarece este puțin probabil să vă aduceți seturile de date din sisteme deschise și sunat înapoi la mainframe. Cu toate acestea, dacă aveți unele date de mainframe pe care doriți să le explorați și să faceți un pic descoperirea de explorare a datelor, aplicați o AI și o analiză avansată, atunci Spark ar putea fi o modalitate bună de a merge și de a rula pe mainframe ca atare.

Eric Kavanagh: Iată încă o întrebare din partea publicului, de fapt încă două. Vă voi oferi o întrebare de echipă de etichete, apoi ne vom încheia. Unul dintre participanți se întreabă: „IBM integrează contribuțiile dvs. open-source în ecosistemul său cloud public, cu alte cuvinte, Bluemix?” Și un alt participant a demonstrat un punct foarte bun, menționând că Syncsort este excelent pentru a menține viu fierul mare pentru cei care O aveți deja, dar dacă companiile renunță la noi scheme principale în favoarea a ceea ce el numește CE, cloud totul, că probabil va scădea, dar observă că voi sunteți foarte buni să mutați datele ocolind sistemele de operare până la un gigabyte pe secundă. Puteți vorbi despre puterea de bază, așa cum a menționat el, și dacă IBM își integrează sau nu lucrurile în Bluemix?

Tendü Yogurtçu: Cu IBM, suntem deja parteneri cu IBM și am avut discuții pentru serviciile de cloud de date care oferă produsul. Contribuțiile noastre open-source sunt deschise tuturor celor care doresc să le utilizeze. O parte din conectivitatea mainframe este de asemenea disponibilă în pachetele Spark, deci nu doar IBM. Oricine îi poate folosi. În Bluemix încă nu am făcut nimic în acest sens. Și vă deranjează să repetați a doua întrebare?

Eric Kavanagh: Da, cea de-a doua întrebare a fost despre domeniul dvs. de funcționalitate de-a lungul anilor, care a fost cu adevărat să gestionați blocaje de ETL și, evident, asta este un lucru pe care voi voi o să faceți în continuare ca tablouri principale, ei bine, teoretic rămâneți departe, deși Dez punctul este încă un fel de balansare și rulare acolo. Însă, participantul a remarcat doar că Syncsort este foarte bun pentru a muta datele ocolind sistemele de operare și până la un gigabyte pe secundă. Poți doar să comentezi asta?

Tendü Yogurtçu: Da, eficiența generală a resurselor a fost forța noastră, iar scalabilitatea și performanța au fost puterea noastră. Nu facem compromisuri, simplificăm multe semnificații, nu le facem compromisuri. Când oamenii au început să vorbească despre Hadoop în 2014, de exemplu, multe dintre organizații nu priveau cu adevărat performanța inițial. Ei spuneau: „Oh, dacă se întâmplă ceva, pot adăuga alte două noduri și voi fi bine, performanța nu este cerința mea.”

În timp ce vorbeam despre a avea cele mai bune performanțe, deoarece rulam deja nativ, nici măcar nu aveam o parte din sughiurile inițiale pe care Hive le avea cu mai multe joburi MapReduce și overheads cu începerea lor. Oamenii ne spuneau: „Nu, asta nu-mi face griji, nu vă faceți griji în acest moment”.

Când am ajuns în 2015, acel peisaj s-a schimbat, deoarece unii dintre clienții noștri au depășit deja stocarea pe care o aveau în grupurile de producție. A devenit foarte critic pentru ei să vadă ce poate oferi Syncsort. Dacă luați unele date dintr-o bază de date sau mainframe și scrieți într-un format Parquet din clustere, indiferent dacă aterizați și etapizați și faceți o altă transformare sau faceți doar transformarea inflight și formatul de fișier țintă, a făcut o diferență pentru că economisiți din stocare, economisiți din lățimea de bandă a rețelei, economisiți din volumul de lucru din cluster deoarece nu executați lucrări suplimentare. Se pare că acele puncte forte pe care le jucăm în termeni de a fi foarte conștienți, simțim eficiența resurselor sub pielea noastră.

Așa o descriem. Este esențial pentru noi. Nu o luăm de la sine. Nu am luat-o niciodată de la sine, așa că vom continua să fim puternici cu această pârghie în Apache Spark sau în următorul cadru de calculator. Acest lucru va continua să ne concentreze. Și în ceea ce privește bucata de mișcare de date și accesul la date, cu siguranță este unul dintre punctele noastre forte și accesăm datele DB2 sau VSAM pe mainframe în contextul Hadoop sau Spark.

Eric Kavanagh: Ei bine, aceasta este o modalitate excelentă de a încheia transmisia web, oameni buni. Va multumesc mult pentru timpul acordat si atentie. Mulțumesc ție, Tendü și Syncsort, că ai intrat în sala de informare și ai pășit în rundă, după cum se spune. O mulțime de întrebări grozave din partea publicului. Este un mediu în continuă mișcare, oameni buni. Vom arhiva acest Hot Tech așa cum facem cu toate celelalte. Ne puteți găsi la insideanalysis.com și la techopedia.com. De obicei, se ridică în aproximativ o zi. Și cu asta, o să vă luăm rămas bun, oameni buni. Mulțumesc mult. Vom vorbi în curând. Ai grijă. Pa! Pa.

Fier mare, întâlnește date mari: eliberarea datelor mainframe cu clapeta și scânteie