Acasă Baze de date Puterea sugestiei: modul în care un catalog de date îi permite pe analiști

Puterea sugestiei: modul în care un catalog de date îi permite pe analiști

Anonim

De personalul Techopedia, 22 iunie 2016

Take away : Gazda Rebecca Jozwiak discută despre avantajele cataloagelor de date cu Dez Blanchfield, Robin Bloor și David Crawford.

Pentru a vizualiza videoclipul trebuie să vă înregistrați la acest eveniment. Înregistrați-vă pentru a vedea videoclipul.

Rebecca Jozwiak: Doamnelor și domnilor, salut și bine ați venit la Hot Technologies din 2016. Astăzi avem, „Puterea sugestiei: Cum un catalog de date îi împuternicește pe analisti.” Sunt gazda dvs. Rebecca Jozwiak, completându-ne pentru obișnuitul nostru gazdă Eric Kavanagh astăzi, în timp ce călătorește lumea, așa că vă mulțumesc că ne-ați alăturat. Anul acesta este cald, nu este doar cald în Texas, unde sunt, dar este cald peste tot. Există o explozie de tot felul de noi tehnologii. Avem IoT, streaming de date, adopție cloud, Hadoop continuă să se maturizeze și să fie adoptat. Avem automatizare, învățare automată și toate aceste lucruri sunt bineînțeles subliniate de date. Iar întreprinderile devin din ce în ce mai multe date pe timp de zi. Și, desigur, ideea pentru a duce la cunoaștere și descoperire și, știți, să luați decizii mai bune. Dar pentru a obține cea mai mare valoare din date, trebuie să fie ușor de accesat. Dacă îl țineți închis sau îngropat sau în creierul câtorva oameni din cadrul întreprinderii, nu va face mare lucru pentru întreprindere în ansamblu.

Și mă gândeam la catalogarea datelor și mă gândeam bineînțeles la biblioteci, unde demult, acolo ai fost dacă ai nevoie să afli ceva, dacă ai nevoie să cercetezi un subiect sau să cauți câteva informații, te-ai dus la bibliotecă și, bineînțeles, te-ai dus la catalogul de cărți, sau la doamna crabby care lucra acolo. Dar, de asemenea, a fost amuzant să te rătăcești, dacă vrei doar să te uiți și să fii sigur că poți descoperi ceva îngrijit, s-ar putea să afli câteva fapte interesante pe care nu le știai, dar dacă ai nevoie cu adevărat să afli ceva și știați ce căutați, aveți nevoie de catalogul de carduri și, desigur, echivalentul întreprinderii este un catalog de date, care vă poate ajuta să lumineze toate datele pentru ca utilizatorii noștri să îmbogățească, să descopere, să partajeze, să consume și să ajute cu adevărat oamenii ajung la date mai repede și mai ușor.

Așadar, astăzi îl avem pe Dez Blanchfield, propriul nostru om de știință de date și îl avem pe doctorul Robin Bloor, propriul nostru analist șef, îl avem pe David Crawford de la Alation, care va vorbi despre povestea de catalogare a datelor companiei sale, dar mai întâi vom pleca cu Dez. Dez, vă transmit mingea și podeaua este a ta.

Dez Blanchfield: Mulțumesc, mulțumesc că m-ai avut azi. Aceasta este o problemă de care sunt extrem de interesată, deoarece aproape fiecare organizație pe care o întâlnesc în activitatea mea de zi cu zi, găsesc exact aceeași problemă despre care am vorbit foarte pe scurt în banterul de pre-spectacol și acesta este faptul că majoritatea organizațiilor care lucrează de mai bine de câțiva ani au o mulțime de date îngropate în jurul organizației, diferite formate și, de fapt, am clienți care au seturi de date care se întorc la Lotus Notes, baze de date care încă mai rulează în unele cazuri ca pseudo internații și ei, toți se confruntă cu această provocare de a găsi de fapt unde se află datele lor și cum să obțină acces la ele, cine să le ofere acces, când să le ofere acces și cum să facă catalog și cum se poate ajunge într-un loc în care toată lumea poate: A) să fie conștient de ce este acolo și ce este în el și B), cum să obțină acces la el și să îl folosești. Și una dintre cele mai mari provocări, desigur, este găsirea ei, cealaltă mare provocare este să știi ce este acolo și cum să-l accesezi.

Poate știu că am zeci de baze de date, dar de fapt nu știu ce este acolo sau cum să aflu ce este acolo, și atât de invariabil, pe măsură ce descoperim acum în datele de pre-spectacol, tindeți să vă plimbați la birou și să puneți întrebări și să strigați pe pereții cubici și să încercați să descoperiți, de multe ori experiența mea este, puteți găsi chiar că rătăciți la față, la recepție și să întrebați dacă cineva știe cine vei merge să vorbești. Destul de des, nu este întotdeauna IT-ul popular, deoarece nu conștientizează setul de date, deoarece cineva tocmai a creat-o și ar putea fi ceva simplu ca un - destul de des vom găsi un proiect de felul în care se află în mediul IT și managerul de proiect a folosit o foaie de calcul cu toate lucrurile și a obținut o cantitate masivă de informații valoroase în jurul activelor, contextului și denumirilor și, dacă nu știți acel proiect și nu cunoașteți persoana respectivă, nu puteți găsi aceste informații. Doar că nu este disponibil și trebuie să vă apucați de acel fișier original.

Există o frază care s-a arătat cu privire la date și nu sunt neapărat de acord cu acestea, dar cred că este o drăguță mică și este că o anumită cantitate de oameni consideră că datele sunt uleiul nou, iar eu sunt sigur că vom acoperi asta și în unele aspecte, mai târziu astăzi. Dar ceea ce am observat, cu siguranță făcând parte din acea transformare, este că organizațiile întreprinderilor care au învățat să își valorifice datele au obținut un avantaj semnificativ față de concurenții lor.

A fost o hârtie interesantă de la IBM, în urmă cu aproximativ cinci sau șase ani, și au anchetat aproximativ 4.000 de companii aici în Australia și au luat toate informațiile, toate datele de performanță, toate datele financiare și le-au pus într-un vas de fierbere și apoi au trimis-o la Școala australiană de economie, ei au început de fapt o tendință comună aici, și asta a fost faptul că companiile care au utilizat tehnologia au câștigat invariabil un avantaj atât de competitiv față de colegii și concurenții lor, încât concurenții lor aproape că nu ajung la pas și cred că acesta este foarte mult cazul acum cu date pe care le-am văzut ceea ce oamenii numesc o transformare digitală în care organizațiile care și-au dat seama clar cum pot găsi datele pe care le au, pentru a face datele disponibile și pentru a le pune la dispoziție în unele consumabile foarte ușor moda pentru organizație, fără să știe neapărat întotdeauna de ce organizația ar putea avea nevoie de ea și să obțină un avantaj semnificativ asupra concurenților.

Am câteva exemple pe acest slide, pe care le puteți vedea. Singura mea linie este că întreruperea pe scară largă în aproape toate sectoarele industriei este, după părerea mea, determinată de date și, dacă tendințele actuale trebuie să treacă, părerea mea este că tocmai tocmai am obținut a început pentru că atunci când brandurile de lungă durată se trezesc în cele din urmă, ceea ce înseamnă acest lucru și vor intra în joc, vor intra în joc cu ridicata. Când unii dintre principalii comercianți de retail care au munți de date încep să aplice unele analize istorice asupra datelor, dacă știu că există, atunci unii dintre jucătorii online vor primi un apel de trezire.

Dar cu multe dintre cele mai multe dintre aceste mărci, vreau să spun că avem Uber care este cea mai mare companie de taxi din lume. Nu dețin niciun taxi, deci ce le face magie, care sunt datele lor? Airbnb, cel mai mare furnizor de cazare, avem WeChat, cea mai mare companie de telefonie din lume, dar nu au nicio infrastructură reală și nici telefoane, nici linii telefonice. Alibaba, cel mai mare retailer de pe planetă, dar nu dețin niciunul din inventar. Facebook, cea mai mare companie media din cuvânt. Cred că la ultimul număr au avut acum 1, 4 miliarde de utilizatori de date active, ceea ce este un număr neplăcut. Nu este nicăieri aproape - cred că cineva a susținut că un sfert din planetă este de fapt acolo în fiecare zi, și totuși aici este un furnizor de conținut care nu creează conținutul, toate datele pe care le servesc nu sunt create de ei, ci sunt create de către abonații lor și cu toții cunoaștem acest model.

SocietyOne, despre care este posibil sau nu ați auzit, este un brand local, cred că în câteva țări este o bancă care de fapt împrumuturi de la egal la egal, așa că, cu alte cuvinte, nu are bani. Tot ce face este să administreze tranzacțiile și datele sunt sub ele. Netflix, suntem cu toții foarte familiari cu asta. Aici este unul interesant. Când Netflix a putut fi folosit în mod legal în Australia, când a fost anunțat oficial, nu ați fost nevoiți să utilizați un VPN pentru a ajunge la el, mulți oameni din întreaga lume tind - dacă nu puteți ajunge la el în zona dvs. locală - când Netfix a fost lansat în Australia, a mărit lățimea de bandă internațională pe legăturile noastre de internet cu 40%, astfel încât a dublat aproape peste noapte utilizarea internetului în Australia, printr-o singură aplicație, o singură aplicație găzduită de cloud care nu face altceva decât să joace cu date. Este doar o statistică neplăcută.

Și, bineînțeles, suntem cu toții familiarizați cu Apple și Google, dar acestea sunt cele mai mari companii de software de pe planetă, cu toate acestea nu scriu de fapt aplicațiile. Care este lucrul consecvent cu toate aceste organizații? Ei bine, sunt date și nu au ajuns acolo pentru că nu știau unde erau datele lor și nu știau cum să le catalogheze.

Ceea ce descoperim acum este că există această nouă clasă de active complet denumită date, iar companiile se trezesc la ea. Însă nu au întotdeauna instrumentele, know-how-ul și de ce să mapăm toate aceste date, să catalogăm toate acele date și să le punem la dispoziție, dar am constatat că companiile care nu au aproape active fizice au câștigat o valoare ridicată pe piață în înregistrează timpul prin intermediul acestei noi clase de active de date. Așa cum am spus, unii dintre jucătorii vechi se trezesc acum în acest sens și cu siguranță îl scot la iveală.

Sunt un mare fan de a lua folk pe un pic de călătorie, așa că în optsprezece sute, la sfârșitul optsprezece sute, și veți fi mai mult decât familiarizați cu acest lucru pe piața din SUA, s-a dovedit că pentru a rula un recensământ în fiecare an sau ceva, cred că le-au condus la fiecare zece ani în acel moment, dar dacă veți efectua un recensământ în fiecare an, puteți dura până la opt sau nouă ani pentru a efectua analiza datelor. S-a dovedit că acel set de date a fost lăsat în cutii în locuri din hârtie și aproape nimeni nu a putut găsi. Au continuat doar să extragă aceste rapoarte, dar datele reale au fost foarte greu de obținut, avem o situație similară cu un alt moment semnificativ din lume, în jurul anilor '40, cu cel de-al Doilea Război Mondial, iar acest lucru este Parcul Bletchley Bombe spelat BOMBE, și a fost un instrument analitic masiv de zdrobire a numărului, care ar urma să treacă prin seturi de date mici și să găsească semnale în el și să fie utilizat pentru a ajuta codurile de fisurare prin Enigma.

Acest lucru a fost din nou, în esență, un dispozitiv conceput, nu foarte mult pentru catalogare, ci pentru etichetarea și harta datelor și a face posibilă preluarea tiparelor și găsirea acestora în seturile de date, în acest caz, rup coduri, găsiți chei și fraze și găsiți Acestea le sunt în mod regulat în seturile de date și astfel am trecut prin această călătorie de a găsi lucrurile în date și de a conduce către catalogarea datelor.

Și atunci au apărut aceste lucruri, aceste rachete masive de mașini low-cost, doar mașini în afara raftului. Și am făcut câteva lucruri foarte interesante, iar unul dintre lucrurile pe care le-am făcut cu ele este că am construit clustere cu costuri foarte mici, care ar putea începe indexarea planetei și foarte faimos aceste mari mărci care au venit și au plecat, dar probabil că Google este cea mai obișnuită casă marca despre care am auzit cu toții - a devenit un veritabil și știi că ai succes atunci când marca ta devine verb. Însă ceea ce Google ne-a învățat, fără să ne dăm seama, posibil în lumea afacerilor, este că au reușit să indice întreaga planetă la un anumit nivel și să catalogheze datele care erau în întreaga lume și să o pună la dispoziție într-un mod foarte ușor, o formă convenabilă într-o formulă minusculă de o singură linie, o pagină web cu aproape nimic pe ea și tastați interogarea dvs., merge și o găsește pentru că deja au târât planeta, au indexat-o și au pus-o la dispoziție cu ușurință.

Și ceea ce am observat a fost: „Bine atârnați, nu facem asta în organizații - de ce este asta? De ce avem o organizație care poate face o mapare a întregii planete și o poate indexa, crawl și indexa, și a o pune la dispoziție, o putem căuta, apoi faceți clic pe lucrul care urmează să o găsească, cum să facem? nu ai făcut asta intern? ”Așadar, există multe din aceste rafturi de mașini din întreaga lume care fac asta pentru intraneturi și găsesc lucruri, dar încă vin într-adevăr să înțeleagă ideea de a depăși web-ul tradițional pagina sau un server de fișiere.

În loc să intri acum în următoarea generație a catalogului de date în mai multe moduri, descoperirea accesului la date prin note post-it și conversații mai cool pentru apă nu mai este o metodă adecvată pentru descoperirea și catalogarea datelor și, de fapt, nu cred chiar a fost. Nu mai putem conduce toată această provocare către oameni care doar transmit note, postează note și vorbesc despre asta. Suntem cu adevărat și dincolo de zona de acum, în care această abordare de ultimă generație a catalogării datelor a venit și a dispărut. Trebuie să punem brațele în jurul ei. Dacă aceasta ar fi o problemă ușoară, am fi rezolvat-o deja în multe feluri mai devreme, dar cred că nu este o problemă ușoară, doar indexarea și apelarea datelor este doar o parte a acesteia, știind ce există în date și construind metadate în jurul a ceea ce descoperim și apoi punându-l la dispoziție într-o formă ușoară, consumabilă, în special pentru autoservire și analiză. Încă este o problemă de rezolvat, dar multe părți ale puzzle-ului în cinci ani sunt bine rezolvate și disponibile cu adevărat.

După cum știm, oamenii care cataloghează datele sunt o rețetă a eșecului, deoarece eroarea umană este una dintre cele mai mari coșmaruri cu care avem de-a face în procesarea datelor și vorbesc în mod regulat despre acest subiect în care, după părerea mea, oamenii care completează formularele de hârtie sunt probabil cel mai mare coșmar avem de-a face cu date mari și analitice, pentru a fi nevoiți să remediem în permanență lucrurile pe care le fac, chiar și până la lucruri simple precum datele și câmpurile, oamenii punându-l într-un format greșit.

Dar după cum am spus, am văzut motoarele de căutare pe internet indexând lumea în fiecare zi, așa că acum ne facem ideea că asta se poate face pe seturile de date de afaceri în procesul de descoperire, iar instrumentele și sistemele sunt acum ușor disponibil pe măsură ce ești pe cale să înveți azi. Așa că trucul, în opinia mea, este selectarea instrumentelor potrivite, cele mai bune instrumente pentru job. Și mai adecvat pe deasupra, găsirea părții corecte pentru a vă ajuta să începeți pe această cale. Și cred că vom auzi despre asta astăzi, dar înainte de a face acest lucru, voi trece la colegiul meu, Robin Bloor și îi voi asuma despre subiect. Robin, pot să vă transmit?

Robin Bloor: Da, cu siguranță că poți. Să vedem dacă funcționează, da, da. Bine, vin dintr-o altă direcție decât Dez, într-adevăr, dar voi ajunge în același loc. Este vorba despre conectarea la date, așa că m-am gândit să parcurg realitatea conectării la date, punct cu punct într-adevăr.

Există faptul că datele sunt mai fragmentate decât au fost vreodată. Volumul de date crește fenomenal, dar, de fapt, diferitele surse de date cresc, de asemenea, într-un ritm incredibil și, prin urmare, datele sunt tot mai fragmentate tot timpul. Dar din cauza aplicațiilor analitice în special - dar acestea nu sunt singurele aplicații - avem un motiv foarte bun pentru a ne conecta la toate aceste date, așa că suntem blocați într-un loc dificil, suntem blocați într-o lume cu date fragmentate, și există date în date cum îl numea Dez, noul ulei.

Despre date, ei bine trăiau pe discul rotativ, fie în sisteme de fișiere, fie în baze de date. Acum trăiește într-un mediu mult mai variat, locuiește în sisteme de fișiere, dar trăiește și în zilele noastre, în cazuri Hadoop, sau chiar și în cazuri Spark. Trăiește în mai multe specii de baze de date. Nu cu mult timp în urmă, am făcut un fel de baze de date relaționale standardizate, bine știți că a ieșit pe fereastră în ultimii cinci ani, pentru că este nevoie de baze de date de documente și este nevoie de baze de date grafice, așa că știți, jocul are schimbat. Așa că a trăit pe un disc de filare, dar acum trăiește pe SSD. Cea mai recentă cantitate de SSD - cu siguranță cea mai recentă unitate SSD iese de la Samsung - douăzeci de gigabyte, ceea ce este uriaș. Acum trăiește în memorie, în sensul că copia primă a datelor poate fi în memorie, mai degrabă decât pe disc, nu am obișnuit să construim astfel de sisteme; facem acum. Și trăiește în nor. Ceea ce înseamnă că poate trăi în oricare dintre aceste lucruri, în cloud, nu veți ști neapărat unde se află într-un nor, veți avea doar adresa sa.

Doar pentru a ridica acasă punctul, Hadoop a eșuat până acum ca un magazin de date extensibil. Am sperat că va deveni un depozit de date extensibil la scară largă și va deveni doar un singur sistem de fișiere pentru toate și s-ar întâmpla - curcubeele ar apărea pe cer, practic, iar unicornii vor dansa și nu s-a întâmplat nimic. Ceea ce înseamnă că ajungem cu o problemă a transportului de date și nu există o necesitate pentru transportul de date, uneori, dar este și o dificultate. Datele au într-adevăr gravitate în zilele noastre, odată ce ai intrat în multi-terabyte de date, preluându-le și aruncându-le, genul de cauze apar în rețeaua ta sau apar în diverse locuri. Dacă doriți să transportați date în jurul valorii, calendarul este un factor. Există aproape întotdeauna, în zilele noastre, câteva limite pentru cât timp trebuie să obțineți un lucru, o dată dintr-un loc în alt loc. Există ceea ce ne-am gândit ca ferestre de lot, când aparatul era inactiv și, oricât de multe date ai avea, poți doar să îl arunci și totul ar putea fi rezolvat. Ei bine, a dispărut, trăim într-o lume mult mai reală. Prin urmare, sincronizarea este un factor. De îndată ce doriți să mutați datele, deci dacă datele au gravitate, probabil că nu le puteți muta.

Gestionarea datelor este un factor în sensul că de fapt trebuie să gestionați toate aceste date, nu obțineți asta în mod gratuit, iar replicarea poate fi necesară pentru a obține de fapt datele pentru a face treaba pe care trebuie să o facă, deoarece s-ar putea să nu fie oriunde ai pus-o. Este posibil să nu dispună de resurse suficiente pentru a realiza procesarea normală a datelor. Deci, datele sunt replicate și datele sunt replicate mai mult decât v-ați imagina. Cred că cineva mi-a spus în urmă cu mult timp că datele medii sunt replicate de cel puțin două ori și jumătate. ESB-urile sau Kafka prezintă o opțiune pentru fluxul de date, dar astăzi necesită arhitectură. În zilele noastre trebuie să vă gândiți într-un fel sau altul, la ce înseamnă de fapt să aruncați datele. Prin urmare, accesarea datelor acolo unde este, este de obicei de preferat, atâta timp cât, desigur, puteți obține performanțele de care aveți nevoie atunci când efectuați datele necesare și asta depinde de context. Deci, oricum este o situație dificilă. În ceea ce privește interogările de date, obișnuiam să ne gândim în termeni de SQL, am ajuns într-adevăr acum, știți, diferite forme de interogări, SQL da, dar adiacente, de asemenea, interogări grafice, Spark este doar un exemplu de făcând grafic, pentru că, de asemenea, trebuie să facem căutări de text, mai mult decât am făcut vreodată, de asemenea, regex tipul de căutări, care este într-adevăr complicate căutări de tipare, și de potrivire a modelului autentic, toate aceste lucruri sunt de fapt boboci. Și toate sunt utile pentru că vă obțin ceea ce căutați sau vă pot obține ceea ce căutați.

Zilele de interogare acoperă mai multe date, deci nu a făcut întotdeauna acest lucru și de multe ori performanța este îngrozitoare dacă faci asta. Deci, depinde de circumstanțe, dar oamenii se așteaptă să poată interoga date din mai multe surse de date, astfel federația de date de un fel sau altul devine din ce în ce mai actuală. Virtualizarea datelor, care este un mod diferit de a face, în funcție de performanță, este, de asemenea, foarte frecventă. Interogările de date sunt de fapt o parte a unui proces, nu întregul proces. Este demn de subliniat faptul că, dacă te uiți efectiv la performanțele analitice, analitica reală poate dura mult mai mult decât colectarea datelor, deoarece asta depinde de circumstanțe, dar interogările de date sunt o necesitate absolută dacă vrei să faci orice un fel de analiză pe mai multe surse de date și, pur și simplu, trebuie să ai într-adevăr capabilități care să se întindă.

Deci despre cataloage. Cataloagele există dintr-un motiv, cel puțin spunem că, știți, este, avem directoare și avem scheme în baze de date și avem fiecare catalog și avem oriunde mergeți, veți găsi un loc și apoi veți efectua constată că există un fel de catalog, iar catalogul global unificat este o idee atât de bună, evident. Dar foarte puține companii au așa ceva. Îmi aduc aminte, încă din două mii de ani - panică de două mii de ani - îmi aduc aminte că comuniștii nu puteau nici măcar să descopere câte executabile aveau, niciodată nu mă interesează câte magazine diferite de date aveau și probabil este cazul acum., știți, că majoritatea companiilor nu știu în mod activ, în sens global, ce date au. Însă, este în mod evident din ce în ce mai necesar să existe un catalog global sau cel puțin să avem o imagine globală a ceea ce se întâmplă din cauza creșterii surselor de date și a creșterii continue a aplicațiilor și este deosebit de necesar pentru analitice, pentru că și tu într-un fel și există alte probleme aici, cum ar fi linia și problemele cu datele, și este necesar pentru securitate, multe aspecte ale guvernanței datelor, dacă nu știi cu adevărat ce date ai, ideea că aveți de gând să guvernați este doar absurd. Deci, în acest sens, toate datele sunt catalogate într-un fel, este doar un fapt. Întrebarea este dacă catalogul este coerent și, de fapt, ce poți face cu acesta. Așa că voi trece înapoi la Rebecca.

Rebecca Jozwiak: Bine, mulțumesc Robin. Următorul l-am primit pe David Crawford de la Alation, David am să merg înainte și să-ți trec mingea și poți să o iei.

David Crawford: Mulțumesc foarte mult. Apreciez foarte mult că m-ai avut în acest spectacol. Cred că voi începe acest lucru, așa că cred că rolul meu aici este să iau o parte din acea teorie și să văd cum se aplică de fapt și rezultatele pe care le putem conduce la clienții reali și astfel puteți vedea câteva pe diapozitiv, vreau să vorbesc despre ce rezultate vom putea vedea în analitice, eventual, îmbunătățiri. Deci, pentru a motiva discuția, vom discuta despre cum au ajuns acolo. Așadar, am norocul să ajung să lucrez destul de îndeaproape cu o mulțime de oameni cu adevărat deștepți, acești clienți și vreau să subliniez doar câțiva care au reușit să măsoare efectiv și să vorbesc despre modul în care un catalog de date a avut impact asupra analistului lor flux de lucru. Și doar pentru a rămâne pe scurt în față, cred că unul dintre lucrurile pe care le vedem schimbate, cu cataloagele de date versetele soluțiilor mediate anterior și unul dintre modurile în care relațiile se gândesc cu adevărat la soluțiile pe care le-am pus laolaltă, este să pornim de la analiști. și lucrați înapoi. Pentru a spune, să facem acest lucru pentru a permite productivitatea analiștilor. Spre deosebire de doar conformitatea sau spre a avea doar un inventar, facem un instrument care face analistii mai productivi.

Așadar, când vorbesc cu un om de știință de date la compania de servicii financiare Square, există un tip, Nick, care ne povestea despre cum este al lui, obișnuia să ia câteva ore pentru a găsi setul de date adecvat pentru a începe un raport, acum el poate faceți-o în câteva secunde folosind căutarea la cota de piață, am discutat cu CTO-ul lor care și-a atras analiștii care foloseau Square, scuzați-mă, folosea Alation, pentru a afla care sunt ei, ce beneficii au văzut și au raportat un 50 creșterea procentuală a productivității și că, unul dintre cei mai importanți retaileri din lume, eBay, au peste o mie de oameni care fac analize SQL în mod regulat și lucrez destul de strâns cu Deb Says, care este proiectul. manager în echipa lor de instrumente de date și a descoperit că atunci când solicitanții adoptă Alation, adoptă un catalog, ei văd dublul vitezei de scriere a noilor întrebări în baza de date.

Așadar, acestea sunt rezultate reale, aceștia sunt oameni care aplică de fapt catalogul în organizația lor și vreau să vă duc prin ceea ce este nevoie pentru a fi înființat. Cum se înființează un catalog într-o companie și poate cel mai important lucru de spus, este că multe dintre acestea se întâmplă automat, așa că Dez a vorbit despre sisteme, învățând despre sisteme și exact asta face un catalog de date modern. Așa că instalează Alation în centrul lor de date și apoi îl conectează la diverse surse de metadate din mediul lor de date. Mă voi concentra puțin asupra bazelor de date și a instrumentelor de BI - din ambele acestea vom extrage metadate tehnice, despre practic ce există. Nu, deci ce tabele? Ce rapoarte? Care sunt definițiile raportului? Astfel, extrag metadatele tehnice și o pagină de catalog este creată automat pentru fiecare obiect din aceste sisteme, apoi extrag și stratează deasupra metadatelor tehnice, formează stratul deasupra datelor de utilizare. Acest lucru se face în primul rând prin citirea jurnalelor de interogare din baza de date, iar aceasta este o sursă de informații cu adevărat interesantă. Deci, de fiecare dată când un analist scrie o interogare, ori de câte ori un instrument de raportare, indiferent dacă este crescut acasă sau în afara raftului, dacă un instrument de raportare execută o interogare pentru a actualiza tabloul de bord, când o aplicație rulează o interogare pentru a insera date pentru a opera pe un set de date - toate aceste lucruri sunt capturate în jurnalele de interogare a bazelor de date. Indiferent dacă aveți un catalog sau nu, acestea sunt capturate în jurnalul de interogare cu baza de date. Ceea ce poate face un catalog de date și, în special, ce poate face catalogul Alation, este să citească acele jurnalele, să solicite interogările din interiorul acestora și să creeze un grafic de utilizare cu adevărat interesant pe baza acestor jurnaluri, iar noi îl punem în joc pentru a informa viitorii utilizatori a datelor despre modul în care utilizatorii din trecut au utilizat-o.

Deci, aducem toate aceste cunoștințe într-un catalog și doar pentru a face acest lucru real, acestea sunt integrările care sunt deja dislocate la clienți, așa că am văzut Oracle, Teradata, Redshift, Vertica și o mulțime de alte baze de date relaționale În lumea Hadoop, există o gamă de SQL pe Hadoop, un fel de relațional, meta-store-uri în partea de sus a sistemului de fișiere Hadoop, Impala, Tez, Presto și Hive, am văzut și succes cu furnizorii privați de cloud Hadoop precum Altiscale, iar noi de asemenea, s-au putut conecta la serverele Tableau, serverele MicroStrategy și indexarea tablourilor de bord de acolo, precum și integrări cu instrumente de diagramă pentru știința datelor precum Plotly.

Așadar, ne conectăm la toate aceste sisteme, am conectat aceste sisteme la clienți, am atras metadatele tehnice, am tras datele de utilizare și am sortat automat catalogul de date, dar în acest fel, noi centralizați cunoștințele, dar doar centralizați lucrurile într-un catalog de date, nu oferă de la sine acele impulsuri de productivitate minunate despre care am vorbit cu eBay, Square și cota de piață. Pentru a face acest lucru, trebuie să schimbăm modul în care ne gândim despre furnizarea de cunoștințe analiștilor. Una dintre întrebările pe care le pun să se pregătească pentru aceasta, a fost „Cum influențează efectiv catalogul fluxul de lucru al unui analist?”

La asta ne petrecem toată ziua gândindu-ne, și pentru a vorbi despre această schimbare în gândire, despre un model versus un model de tracțiune, am vrut să fac o analogie rapidă la cum era lumea înainte și după ce am citit pe un Kindle. Deci este doar o experiență pe care unii dintre voi o puteți avea, atunci când citiți o carte fizică, întâlniți un cuvânt, nu sunteți sigur că știți definiția acestui cuvânt super bine, puteți ghici din context, nu este foarte probabil că urmează să te ridici de pe canapea, să te duci la raftul de cărți, să-ți găsești dicționarul, să îl prafiești și să te îndrepți la locul potrivit din lista alfabetică a cuvintelor pentru a te asigura că, da, ai avut această definiție corectă și știi nuanțele acesteia. Deci nu se întâmplă cu adevărat. Așadar, cumpărați o aplicație Kindle și începeți să citiți cărți acolo și vedeți un cuvânt despre care nu sunteți absolut sigur și îl atingeți. Brusc, chiar în același ecran, este definiția dicționarului cuvântului, cu toate nuanțele sale, diferite exemple de utilizare, și glisați puțin și primiți un articol Wikipedia pe subiectul respectiv, glisați din nou, obțineți un instrument de traducere care îl poate traduce în alte limbi sau din alte limbi și, dintr-o dată, cunoașterea dvs. de limbă este atât de mai bogată, și se întâmplă doar un număr uimitor de ori, în comparație cu când a trebuit să mergeți și trage resursa pentru tine.

Și deci, ce voi argumenta, este că fluxul de lucru pentru un analist și modul în care un analist se va ocupa de documentarea datelor, este de fapt foarte similar cu modul în care un cititor va interacționa cu dicționarul, fie că este unul fizic, sau deși Kindle, și deci ceea ce noi, modul în care am văzut cu adevărat acest impuls de productivitate, nu este deversarea catalogului, ci conectarea acestuia la fluxul de lucru al analistului și, așa, mi-au cerut să fac o demonstrație aici și vreau pentru a face ca accentul acestei prezentări. Dar vreau doar să stabilesc contextul pentru demo. Când ne gândim să împingem cunoștințele de date către utilizatori atunci când au nevoie, considerăm că locul potrivit pentru a face asta, locul în care își petrec timpul și unde fac analiza este un instrument de interogare SQL. Un loc unde scrieți și rulați interogări SQL. Și, astfel, am construit unul, și l-am construit, iar lucrul care este cu adevărat diferit față de alte instrumente de interogare este integrarea profundă a acestuia cu catalogul de date.

Deci instrumentul nostru de interogare se numește Alation Compose. Este un instrument de interogare bazat pe web și vă voi arăta într-o secundă. Un instrument de interogare bazat pe web care funcționează în toate logo-urile bazei de date pe care le-ați văzut în diapozitivul anterior. Ceea ce voi încerca să demonstrez în special este modul în care informațiile despre catalog ajung la utilizatori. Și o face prin aceste trei feluri diferite. O face prin intervenții și de aceea cineva care este un guvernator de date sau un administrator de date sau un fel de administrator, sau de un manager, poate spune: „Vreau să sortez interject cu o notă sau un avertisment în fluxul de lucru și asigurați-vă că este livrat utilizatorilor la momentul potrivit. ”Deci, aceasta este o intervenție și vom arăta asta.

Sugestii inteligente este un mod în care instrumentul folosește toate cunoștințele sale agregate despre catalog pentru a sugera obiecte și părți ale unei interogări în timp ce îl scrieți. Cel mai important lucru de știut este faptul că profită cu adevărat de jurnalul de interogare pentru a face acest lucru, pentru a sugera lucruri bazate pe utilizare și, de asemenea, pentru a găsi chiar părți ale interogărilor care au fost scrise anterior. Și vom arăta asta.

Și apoi previzualizări. Previzualizările sunt, pe măsură ce introduceți numele unui obiect, vă arătăm tot ceea ce știe catalogul sau cel puțin cele mai relevante lucruri pe care le cunoaște catalogul despre acel obiect. Așadar, mostrele de date, care le-au folosit anterior, numele și descrierea logică a acelui obiect, vin toate la tine în timp ce îl scrii, fără să fii nevoit să mergi să o ceri.

Deci, fără să mai vorbesc, voi ajunge la demo și abia aștept să apară. Ceea ce vă voi arăta aici este instrumentul de interogare. Este o interfață dedicată scrierii SQL. Este o interfață separată de catalog, într-un anumit sens. Dez și Robin au vorbit despre catalog și sar un pic peste interfața catalogului direct la modul în care este introdus direct în service-ul fluxului de lucru.

Vă arăt aici un loc în care pot tasta SQL, iar în partea de jos veți vedea că avem fel de informații care apar despre obiectele la care facem referire. Așa că o să încep să tastez o interogare și mă voi opri când voi ajunge la una dintre aceste intervenții. Așa că voi tasta „select” și vreau anul. Vreau numele. Și o să caut câteva date despre salarii. Deci, acesta este un set de date despre educație. Are informații despre instituțiile de învățământ superior și mă uit la salariul mediu al facultății care se află într-unul din aceste tabele.

Așa că am tastat de fapt cuvântul „salariu”. Nu este tocmai în numele coloanei. Folosim atât metadate logice cât și metadate fizice pentru a face sugestii. Și ce vreau să subliniez aici este această casetă galbenă care apare aici. Se spune că există un avertisment pe această coloană. Nu am căutat asta, nu am luat o clasă despre cum să folosesc corect aceste date. Mi-a venit și se pare că este un avertisment cu privire la un acord de confidențialitate care are legătură cu aceste date. Deci există câteva reguli de divulgare. Dacă voi interoga aceste date, voi scoate datele din acest tabel, ar trebui să fiu atent la modul în care îl dezvăluiesc. Deci aveți o politică de guvernare aici. Există câteva provocări ale conformității care fac mult mai ușoară respectarea acestei politici atunci când știu despre aceasta în momentul în care mă uit la date.

Așa că am ajuns să vin la mine și apoi mă voi uita și la școlarizare. Și aici vedem că previzualizările intră în joc. În această coloană de școlarizare, văd - există o coloană de școlarizare pe tabela instituției și văd un profil. Alation merge și trage date de probă din tabele și, în acest caz, îmi arată ceva destul de interesant. Îmi arată distribuția valorilor și îmi arată că valoarea zero a apărut de 45 de ori în eșantion și mai mult decât orice altă valoare. Așadar, am o idee că am putea lipsi unele date.

Dacă sunt un analist avansat, atunci acesta ar putea face parte deja din fluxul meu de lucru. Mai ales dacă sunt unul deosebit de meticulos, unde aș face o grămadă de întrebări de profil înainte de timp. Ori de câte ori mă apropii de o nouă informație, mă gândesc întotdeauna care este acoperirea noastră de date. Dar dacă sunt nou la analiza datelor, dacă sunt nou la acest set de date, aș putea presupune că, dacă există o coloană, este completată tot timpul. Sau aș putea presupune că dacă nu este completat, nu este zero, este nul sau ceva de genul. Dar, în acest caz, avem o mulțime de zero și, dacă aș face o medie, probabil că ar greși, dacă aș presupune doar că acele zero sunt de fapt zero în loc să lipsească date.

Dar Alation, aducând această previzualizare în fluxul dvs. de lucru, vă cere să aruncați o privire la aceste informații și oferiți chiar și un fel de analiști începători o șansă de a vedea că există ceva de observat aici despre aceste date. Deci avem previzualizarea respectivă.

Următorul lucru pe care îl voi face este să încerc să aflu din ce tabele să obțin aceste informații. Deci, aici vedem sugestiile inteligente. A trecut tot timpul, dar în special aici, nici măcar nu am tastat nimic, dar îmi va sugera ce tabele aș putea folosi pentru această interogare. Și cel mai important lucru de știut despre acest lucru este că profită de statisticile de utilizare. Așadar, într-un mediu precum, de exemplu, eBay, unde aveți sute de mii de tabele într-o singură bază de date, având un instrument care poate atinge grâul de pe pleavă și folosind aceste statistici de utilizare, este foarte important pentru realizarea acestora sugestii care merită ceva.

Deci va sugera acest tabel. Când mă uit la previzualizarea, evidențiem de fapt trei dintre coloanele pe care le-am menționat deja în interogarea mea. Deci știu că are trei, dar nu are numele. Trebuie să obțin numele, așa că voi face o înscriere. Când fac o aderare, acum am din nou aceste previzualizări care să mă ajute să găsesc, unde este tabelul cu numele. Așa că văd că acesta are un nume frumos formatat, cu majuscule corespunzător. Se pare că are un rând cu un nume pentru fiecare instituție, așa că voi apuca acest lucru și acum am nevoie de o condiție de aderare.

Și deci, aici ceea ce face Alation este din nou să privim înapoi la jurnalele de interogare, văzând vremuri anterioare că aceste două tabele au fost alăturate și sugerează modalități diferite de a le alătura. Încă o dată, există o anumită intervenție. Dacă mă uit la unul dintre acestea, are un avertisment care îmi arată că acest lucru ar trebui utilizat doar pentru analiza agregatelor. Probabil va produce un lucru greșit dacă încercați să faceți ceva prin instituție prin instituție. În timp ce acesta, cu ID-ul OPE este aprobat ca o modalitate corectă de alăturare a acestor două tabele dacă doriți date la nivel universitar. Așa că fac asta și este o interogare scurtă, dar mi-am scris interogarea fără să am neapărat informații despre ce sunt datele. Nu am privit niciodată o diagramă ER a acestui set de date, dar știu destul de multe despre aceste date, deoarece informațiile relevante îmi vin.

Deci, acestea sunt un fel de cele trei modalități prin care un catalog poate, printr-un instrument de interogare integrat, să afecteze direct fluxul de lucru pe măsură ce scrii interogări. Însă unul dintre celelalte avantaje ale integrării unui catalog de instrumente de interogare este acela că, atunci când termin interogarea și o salvez, pot pune un titlu de genul „Instituția de școlarizare și salariul facultății” și apoi am un buton aici care îmi permite să-l public doar în catalog. Este foarte ușor pentru mine să mă hrănesc. Chiar dacă nu îl public, acesta este capturat ca parte a jurnalului de interogări, dar atunci când îl public, devine de fapt o parte a modului în care se află locul centralizat unde locuiesc toate cunoștințele de date.

Așadar, dacă fac clic pe Căutare pentru toate întrebările din Alation, voi fi preluat - și aici veți vedea ceva mai mult din interfața catalogului - sunt dus la o căutare dedicată de interogare care îmi arată o modalitate de a găsi interogări în toate întreaga organizație. Și vedeți că interogarea mea recent publicată este în vârf. Și unii s-ar putea observa aici, pe măsură ce surprindem întrebările, surprindem și autorii și stabilim această relație între mine ca autor și aceste obiecte de date despre care știu acum ceva. Și sunt stabilit ca expert în această interogare și pe aceste obiecte de date. Acest lucru este de ajutor atunci când oamenii trebuie să meargă să învețe despre date, atunci pot merge să găsească persoana potrivită pentru a învăța. Și dacă sunt de fapt nou la date, fie că sunt un analist avansat - ca analist avansat, s-ar putea să mă uit la asta și să văd o mulțime de exemple care să mă inițieze pe un nou set de date. Ca cineva care s-ar putea să nu se simtă extrem de priceput cu SQL, pot găsi întrebări pre-făcute, care sunt rapoarte de care pot profita.

Iată unul de Phil Mazanett despre scorurile mediei SAT. Faceți clic pe asta și obțin un fel de pagină de catalog pentru interogarea în sine. Vorbește despre un articol care a fost scris care face referire la această interogare, așa că există o documentație pe care să o citesc dacă vreau să învăț cum să o folosesc. Și îl pot deschide în instrumentul de interogare făcând clic pe butonul Compune și îl pot rula singur chiar aici fără să îl editez. Și, de fapt, veți vedea un pic din capacitățile noastre ușoare de raportare, în care, atunci când scrieți o interogare, puteți renunța la o variabilă de șablon ca aceasta și creează un mod simplu de a crea un formular pentru a executa o interogare bazată pe pe un cuplu de parametri.

Deci asta am pentru demo. Voi reveni la diapozitive. Tocmai pentru a face o recapitulare, am arătat cum un administrator, un guvernator de date, poate interveni plasând avertismente asupra obiectelor care apar în instrumentul de interogare, cum Alation își folosește cunoștințele despre utilizarea obiectelor de date pentru a face sugestii inteligente, cum aduce în profiluri și alte sfaturi pentru îmbunătățirea fluxurilor de lucru ale analiștilor atunci când ating obiecte particulare și modul în care toate aceste tipuri de feed-uri revin în catalog când sunt scrise noi întrebări.

Evident, sunt un purtător de cuvânt în numele companiei. Voi spune lucruri frumoase despre cataloagele de date. Dacă doriți să auziți direct de la unul dintre clienții noștri, Kristie Allen de la Safeway conduce o echipă de analiști și are o poveste minunată despre o perioadă în care a avut nevoie să bată cu adevărat ceasul pentru a livra un experiment de marketing și cum este întregul ei echipa a folosit Alation pentru a colabora și a se transforma într-adevăr rapid în acel proiect. Așadar, puteți urmări acest link bit.ly pentru a verifica povestea respectivă sau dacă doriți să auziți un pic despre modul în care Alation ar putea aduce un catalog de date în organizația dvs., suntem încântați să creăm o demo personalizată. Mulțumesc mult.

Rebecca Jozwiak: Mulțumesc mult, David. Sunt sigur că Dez și Robin au câteva întrebări înainte de a trece la audiența Q&A. Dez, vrei să mergi mai întâi?

Dez Blanchfield: Absolut. Îmi place ideea acestui concept de interogări publicate și să îl leg înapoi la sursa autorului. Am fost un campion de multă vreme la această idee a unui magazin de aplicații in-house și cred că acesta este un fundament foarte bun pentru a se baza pe asta.

Am ajuns să obțin o informație despre unele organizații pe care le vedeți care fac acest lucru și unele dintre poveștile de succes pe care le-ar fi putut avea cu toată această călătorie, nu numai să vă valorificați instrumentul și platforma pentru a descoperi datele, dar apoi, de asemenea, să-și transforme trăsăturile culturale și comportamentale interne. Acum, aveți acest fel de magazin de aplicații interne, în care aveți posibilitatea de a descărca doar, conceptul în care nu numai că nu îl pot găsi, dar pot începe de fapt să dezvolte mici comunități cu păstrătorii acestor cunoștințe.

David Crawford: Da, cred că am fost surprinși. Credem în valoarea de a împărți interogări, atât din trecutul meu ca manager de produs în Adtech, cât și din partea tuturor clienților cu care am vorbit, dar am fost încă surprins de cât de des este unul dintre primele lucruri pe care clienții vorbesc despre valoarea pe care o scot din Alation.

Efectuam câteva teste ale utilizatorului instrumentului de interogare la unul dintre clienții noștri numit Invoice2go și aveau un manager de produse care era relativ nou și mi-au spus - de fapt mi-a spus, nepromovat în timpul testului utilizatorului, „de fapt nu aș face să scriu SQL deloc, cu excepția faptului că Alation este ușor. ”Și, bineînțeles, în funcția de prim-ministru, îmi dau drumul:„ Ce vrei să spui, cum am făcut asta? ”Și el a spus:„ Ei bine, într-adevăr este doar pentru că mă pot autentifica și pot vedea toate aceste interogări existente. ”Începând cu o ardezie goală cu SQL este un lucru incredibil de greu de făcut, dar modificând o interogare existentă, unde puteți vedea rezultatul dat și puteți spune, „O, am doar nevoie de această coloană suplimentară” sau, „trebuie să o filtrez într-o anumită gamă de date”, acesta este un lucru mult mai ușor de făcut.

Am văzut un fel de roluri auxiliare, cum ar fi managerii de produse, poate oameni în operațiunile de vânzări, care încep să ridice și care au dorit întotdeauna să învețe SQL și să înceapă să-l ridice folosind acest catalog. Am văzut, de asemenea, că multe companii au încercat să facă un fel de open source. Am încercat să construiesc aceste tipuri de lucruri pe plan intern, unde să urmărească interogările și să le pună la dispoziție și există unele tipuri de provocări dificile de design pentru a le face utile. Facebook a avut un instrument intern pe care l-au numit HiPal, care a capturat toate întrebările scrise pe Hive, dar ceea ce aflați este că, dacă nu încercați să încercați utilizatorii într-un mod corect, pur și simplu ajungeți cu un listă foarte lungă de enunțuri selectate. Și ca un utilizator care încearcă să-mi dea seama dacă o întrebare îmi este utilă sau dacă este vreun lucru bun, dacă mă duc doar să mă uit la o listă lungă de declarații selectate, îmi va lua mult mai mult să obțin ceva din valoare decât începând de la zero. Ne-am gândit destul de atent la cum să facem un catalog de interogări care să aducă lucrurile potrivite în față și să le ofere într-un mod util.

Dez Blanchfield: Cred că toți parcurgem această călătorie de la o vârstă foarte fragedă, până la vârsta adultă, în multe feluri. O grămadă de tehnologii. Eu, personal, am trecut prin același lucru autentic, cum ar fi, învățând să tai cod. Aș trece prin reviste și apoi cărți, și aș studia la un anumit nivel, și apoi a trebuit să merg și să obțin ceva mai multă pregătire și educație.

Dar, din neatenție, am constatat că, chiar și atunci când mă duceam să predau și să citesc reviste și să citesc cărți și să mărturisesc programe ale altor persoane și să merg la cursuri pe ea, tot am sfârșit învățând la fel de mult de la a face cursurile, precum am vorbit doar cu alții oameni care au avut unele experiențe. Și cred că este o descoperire interesantă, că, acum, când aduceți asta la analiza datelor, practic vedem aceeași paralelă, că ființele umane sunt invariabil destul de inteligente.

Celălalt lucru pe care doresc să-l înțeleg este că, la un nivel foarte înalt, multe organizații vor întreba: „Cât timp durează pentru a ajunge la acel punct?” Care este momentul în care este înțeles momentul în care oamenii ajung platforma dvs. instalată și au început să descopere tipurile de instrumente? Cât de repede sunt oamenii care văd că acest lucru se transformă într-un moment „imediat” imediat în care își dau seama că nu se mai îngrijorează ROI pentru că este acolo, dar acum schimbă modul în care își desfășoară activitatea. ? Și au descoperit o artă pierdută și se așteaptă să poată face ceva cu adevărat, cu adevărat distractiv cu ea.

David Crawford: Da, pot atinge puțin. Cred că atunci când ne instalăm, unul dintre lucrurile drăguțe, unul dintre lucrurile care le plac oamenilor despre un catalog conectat direct la sistemele de date, este că nu începeți golul unde trebuie să îl completați pagină cu pagină. Și acest lucru este adevărat pentru soluțiile de date anterioare în care ați începe cu un instrument gol și trebuie să începeți să creați o pagină pentru tot ceea ce doriți să vă documentați.

Deoarece documentăm atât de multe lucruri în mod automat prin extragerea metadatelor, în esență în câteva zile de la instalarea software-ului, puteți avea o imagine a mediului dvs. de date care este cel puțin 80 la sută acolo în instrument. Și apoi cred că de îndată ce oamenii încep să scrie interogări cu instrumentul, acestea sunt salvate automat înapoi în catalog și astfel vor începe să apară și ele.

Nu vreau să fiu prea dornic să o spun. Cred că două săptămâni este o estimare conservatoare destul de bună, la o lună. Două săptămâni până la o lună, estimarea conservatoare a întoarcerii cu adevărat și a sentimentului că vei obține valoare din asta, de parcă ai începe să împărtășești niște cunoștințe și să poți merge acolo și să afli lucruri despre datele tale.

Dez Blanchfield: Este într-adevăr uimitor când vă gândiți la asta. Faptul că unele dintre platformele mari de date pe care le efectuați indexarea și catalogarea vor avea nevoie uneori până la an pentru a le implementa și implementa și a vă ridica corect.

Ultima întrebare pe care am primit-o înainte de a-i da lui Robin Bloor este legătura dintre conectori. Unul dintre lucrurile care sare imediat la mine este că, în mod evident, ai rezolvat întreaga provocare. Deci, există câteva întrebări chiar foarte repede. Una, cât de repede sunt implementate conectoarele? Evident, începeți cu cea mai mare platformă, cum ar fi Oracles și Teradatas și așa mai departe și DB2s. Dar cât de regulat vedeți conectori noi și la ce perioadă de schimb necesită? Îmi imaginez că ai un cadru standard pentru ei. Și cât de adânc intrați în acele? De exemplu, Oracles și IBM-uri ale lumii, și chiar Tereadata, și apoi unele dintre cele mai populare dintre platformele open-source târzie. Lucrează direct cu tine? O descoperiți voi înșivă? Trebuie să aveți cunoștințe interne pe aceste platforme?

Cum arată felul de a dezvolta un conector și cât de profund te implici în acele parteneriate pentru a te asigura că acești conectori descoperă tot ce poți?

David Crawford: Da, sigur, este o întrebare grozavă. Cred că în cea mai mare parte, putem dezvolta conectori. Cu siguranță am făcut-o atunci când eram un startup mai tânăr și nu aveam clienți. Putem dezvolta conexiunile cu siguranță, fără a avea nevoie de acces intern. Nu obținem niciodată acces special la sistemele de date care nu sunt disponibile public și adesea fără a avea nevoie de informații interioare. Profităm de serviciile de metadate disponibile de sistemele de date în sine. Adesea, acestea pot fi destul de complexe și greu de lucrat. Cunosc în special SQL Server, modul în care gestionează jurnalul de interogare, există mai multe configurații diferite și este ceva la care trebuie să lucrați cu adevărat. Trebuie să înțelegeți nuanțele, butoanele și formarea apelurilor pentru a-l configura corect, iar acest lucru este pe care îl colaborăm cu clienții de când am făcut-o de mai multe ori înainte.

Dar într-o anumită măsură, este un fel de API-uri publice disponibile sau interfețe publice care sunt disponibile pe care le folosim. Avem parteneriate cu mai multe dintre aceste companii, acesta este în principal un motiv pentru certificare, astfel încât se simt confortabil spunând că lucrăm și, de asemenea, ne pot oferi resurse pentru testare, uneori acces rapid, poate la o platformă care iese pentru a se asigura că lucrăm la noile versiuni.

Pentru a întoarce o nouă conexiune, aș spune din nou, încercând să fie conservator, să zicem șase săptămâni-două luni. Depinde de cât de asemănător este. Așadar, unele dintre cele Postgre arată foarte asemănătoare cu Redshift. Redshift și Vertica împărtășesc o mulțime de detalii. Deci putem profita de aceste lucruri. Dar da, șase săptămâni până la două luni ar fi corect.

De asemenea, avem API-uri, astfel încât - ne gândim la Alation ca și o platformă de metadate, așa că, dacă nu este disponibil ceva pentru a ajunge la noi și a apuca automat, există modalități prin care poți să scrii singur conectorul și să îl împingi în sistemul nostru astfel că tot se centralizează într-un singur motor de căutare.

Dez Blanchfield: fantastic. Apreciez asta. Așa că o să-i predăm lui Robin, pentru că sunt sigură că are și o multitudine de întrebări. Robin?

Rebecca Jozwiak: Robin poate fi mut.

Dez Blanchfield: Te-ai apucat de mut.

Robin Bloor: Da, nu. Scuze, m-am mutat. Când implementați acest lucru, care este procesul? Sunt curioasă pentru că pot fi multe date în multe locuri. Deci, cum funcționează asta?

David Crawford: Da, sigur. Intrăm, mai întâi este un fel de proces IT pentru a ne asigura că serverul nostru este aprovizionat, asigurându-ne că conexiunile de rețea sunt disponibile, că porturile sunt deschise, astfel încât să putem accesa sistemele. Cu toții știu adesea cu ce sisteme doresc să înceapă. Știind în interiorul unui sistem de date, care - și uneori, de fapt, îi vom ajuta. Îi vom ajuta să meargă să arunce o privire inițială la jurnalul de interogare pentru a înțelege cine folosește ce și câți utilizatori au pe un sistem. Deci, vom ajuta să aflăm unde - adesea, dacă au sute sau mii de oameni care ar putea să se conecteze în baze de date, de fapt nu știu unde se conectează, așa că putem afla de la jurnalele de interogare câte conturi de utilizator unice aveți de fapt conectarea și executarea interogărilor aici într-o lună sau ceva mai mult.

Deci putem profita de asta, dar deseori doar pe cele mai importante. Îi punem la punct și apoi există un proces care să spună „Să acordăm prioritate”. Există o serie de activități care se pot întâmpla în paralel. M-aș concentra asupra instruirii pentru utilizarea instrumentului de interogare. Odată ce oamenii încep să utilizeze instrumentul de interogare, în primul rând, mulți oameni adoră faptul că este doar o singură interfață pentru toate sistemele lor diferite. De asemenea, le place faptul că este bazat pe web, nu implică nicio instalare dacă nu doresc. Din punct de vedere al securității, le place să aibă un singur punct de intrare, dintr-un punct de vedere al rețelei, între un fel de rețea IT corporală și centrul de date unde trăiesc sursele de date de producție. Și astfel, vor configura Alation ca instrument de interogare și vor începe să utilizeze Compose ca punct de acces pentru toate aceste sisteme.

Așa că, odată ce se întâmplă, ceea ce ne concentrăm acolo este pe formare, este să înțelegem care sunt unele dintre diferențele dintre un instrument de interogare bazat pe web sau un server față de unul pe care l-ai avea pe desktop și unele dintre nuanțele de utilizare acea. Și, în același timp, ceea ce vom încerca să facem este să identificăm cele mai valoroase date, profitând din nou de informațiile din jurnalul de interogare și spunând: „Hei, s-ar putea să doriți să intrați și să ajutați oamenii să înțeleagă aceste lucruri. Să începem să publicăm interogări reprezentative pe aceste tabele. ”Aceasta este uneori cea mai eficientă modalitate de a-i face pe oameni să se ridice rapid. Să ne uităm la propriul istoric de interogări, să publicăm aceste lucruri astfel încât să apară ca primele interogări. Când oamenii se uită la o pagină de tabel, pot vedea toate întrebările care au atins acea tabelă și pot începe de acolo. Și apoi să începem să adăugăm titluri și descrieri la aceste obiecte, astfel încât să fie mai ușor de găsit și de căutat, astfel încât să cunoști câteva dintre nuanțele despre cum să-l folosești.

Ne asigurăm că aruncăm o privire detaliată asupra jurnalului de interogare, astfel încât să putem genera linie. Unul dintre lucrurile pe care le facem este să ne uităm prin jurnalul de interogări în momentele în care datele se mută de la un tabel la altul, iar asta ne permite să punem una dintre cele mai frecvente întrebări despre un tabel de date. De unde a venit acest lucru? Cum am încredere în ea? Și deci ceea ce putem arăta nu este doar din ce alte tabele a provenit, ci cum a fost transformat pe parcurs. Din nou, acesta este un fel de alimentat de jurnalul de interogare.

Deci, ne asigurăm că aceste lucruri sunt configurate și că intrăm în linie în sistem și vizăm cele mai valoroase și cele mai ridicate praguri de metadate pe care le putem stabili pe paginile de tabel, astfel încât când cauți, găsești ceva util.

Robin Bloor: Bine. Cealaltă întrebare - există o mulțime de întrebări din partea audienței, așa că nu vreau să ocup prea mult timp aici - cealaltă întrebare care îmi vine în minte este doar durerea. O mulțime de software cumpărate pentru că oamenii au, într-un fel sau altul, dificultăți cu ceva. Deci care este punctul comun de durere care îi conduce pe oameni către Alation?

David Crawford: Da. Cred că sunt câteva, dar cred că unul dintre cele pe care le auzim destul de des este analistul la bord. „Voi avea nevoie să angajez 10, 20, 30 de persoane pe termen scurt, care vor trebui să prezinte noi informații din aceste date, cum vor ajunge să se accelereze?” Deci, analiștii de la bord sunt ceva ce cu siguranță. aborda. Există, de asemenea, scutirea analiștilor superiori de a-și petrece tot timpul să răspundă întrebărilor altor oameni despre date. De asemenea, este foarte frecventă. Și ambele sunt în esență probleme de educație.

Și atunci aș spune că un alt loc pe care îl vedem pe oameni care adoptă Alation este atunci când vor să creeze un mediu de date complet nou pentru care cineva să lucreze. Vor să facă publicitate și să comercializeze acest lucru intern pentru ca oamenii să profite. Apoi, transformarea în Alation în fața acestui nou mediu analitic este foarte atrăgătoare. Are documentația, are un singur punct de introducere la - un singur punct de acces la sisteme și, deci, este un alt loc în care oamenii vor veni la noi.

Robin Bloor: Bine, te transmit pe Rebecca pentru că publicul încearcă să ajungă la tine.

Rebecca Jozwiak: Da, avem foarte multe întrebări de audiență foarte bune aici. Iar David, acesta a fost prezentat special pentru tine. Este vorba de cineva care aparent are experiență cu oamenii într-un fel de întrebări greșite și spune că, cu cât ne împuternicim utilizatorii, cu atât este mai greu să guverneze utilizarea responsabilă a resurselor de calcul. Deci, vă puteți apăra împotriva propagării de fraze de întrebare greșite, dar comune?

David Crawford: Da, văd această întrebare. Este o întrebare grozavă - una pe care o primim destul de des. Am văzut durerea singură la companiile anterioare, unde trebuie să instruiți utilizatorii. De exemplu, „Acesta este un tabel de jurnal, este că jurnalele se vor întoarce ani de zile. Dacă aveți de gând să scrieți o întrebare pe acest tabel, trebuie să vă limitați până la dată. ”Deci, de exemplu, acesta este un antrenament pe care l-am parcurs la o companie anterioară înainte de a avea acces la baza de date.

Avem câteva modalități prin care încercăm să abordăm acest lucru. Aș spune că cred că datele de jurnal de interogare sunt cu adevărat valoroase unic pentru a le aborda. Oferă o altă perspectivă în raport cu ceea ce face baza de date intern cu planificatorul de interogări. Și ceea ce facem este, una dintre acele intervenții - avem intervențiile manuale pe care le-am arătat și este util, nu? Așadar, pe o anumită aderare, de exemplu, puteți spune: „Hai să depreciem acest lucru”. Va avea un steag roșu mare atunci când apare în sugestia inteligentă. Deci acesta este un mod de a încerca să ajungă la oameni.

Un alt lucru pe care îl facem este automatizat la intervențiile în timp de execuție. Acesta va folosi de fapt arborele de analiză al interogării înainte de a o rula pentru a vedea, include un anumit filtru sau alte câteva lucruri pe care le facem și noi acolo. Dar unul dintre cele mai valoroase și cel mai simplu de explicat este, include un filtru? Așadar, ca acel exemplu pe care tocmai l-am dat, acest tabel de jurnal, dacă aveți de gând să-l interogați, trebuie să aibă un interval de date, puteți specifica în pagina de tabel acolo că vă mandatați filtrul intervalului de date care trebuie aplicat. Dacă cineva încearcă să ruleze o interogare care nu include acel filtru, de fapt, îi va opri cu un avertisment mare și va spune: „Probabil ar trebui să adăugați niște SQL care arată așa la interogare.” Ele pot continua dacă ei vor. De fapt, nu le vom interzice complet să îl folosească - este și o întrebare, trebuie să execute interogări la sfârșitul zilei. Dar am pus o barieră destul de mare în fața lor și le oferim o sugestie, o sugestie concretă aplicabilă pentru a modifica interogarea pentru a îmbunătăți performanța lor.

De asemenea, facem automat acest lucru în unele cazuri, din nou prin observarea jurnalului de interogare. Dacă vedem că un procent foarte mare de interogări de pe acest tabel profită de un anumit filtru sau de o anumită clauză de alăturare, atunci vom crește efectiv. Vom promova asta la o intervenție. De fapt, mi s-a întâmplat pe un set intern de date. Avem date despre clienți și avem ID-uri de utilizator, dar setul ID de utilizator, deoarece este un fel de - avem ID-uri de utilizator la fiecare client. Nu este unic, așa că trebuie să-l asociați cu un ID de client pentru a obține o cheie de unire unică. Și scriam o interogare și am încercat să analizez ceva și a apărut și am spus: „Hei, toți ceilalți par să se alăture acestor tabele atât cu ID-ul client, cât și cu ID-ul de utilizator. Ești sigur că nu vrei să faci asta? ”Și de fapt m-a oprit să fac niște analize incorecte. Deci, funcționează atât pentru precizia analizei, cât și pentru performanță. Deci, asta este felul în care luăm această problemă.

Rebecca Jozwiak: Asta mi se pare eficient. Ați spus că nu veți împiedica oamenii să acopere resurse, dar învățați-i că ceea ce fac nu ar putea fi cel mai bun, nu?

David Crawford: Presupunem întotdeauna că utilizatorii nu sunt răuvoitori - le acordăm cele mai bune intenții - și încercăm să fim destul de deschiși în acest mod.

Rebecca Jozwiak: Bine. Iată o altă întrebare: „Care este diferența dintre un manager de catalog, ca în cazul soluției dvs. și un instrument MDM? Sau se bazează de fapt pe un director diferit prin lărgirea alegerii tabelelor de interogare, în timp ce MDM ar face-o în mod automat, dar cu același principal de bază al colectării de metadate. "

David Crawford: Da, cred că atunci când mă uit la soluțiile MDM tradiționale, diferența primară este una filozofică. Este vorba despre cine este utilizatorul. Așa cum am spus la începutul prezentării mele, Alation, cred că, atunci când am fost înființați, am fost fondați cu scopul de a permite analiștilor să producă mai multe informații, să le producă mai repede, să fie mai exacti în ideile pe care legume și fructe. Nu cred că acesta a fost vreodată obiectivul unei soluții tradiționale MDM. Aceste soluții tind să fie orientate către persoanele care trebuie să producă rapoarte cu privire la datele care au fost capturate la CSC sau intern pentru un alt tip de audit. Uneori poate activa analiștii, dar este mai des, dacă va activa un practicant în activitatea sa, este mai probabil să activeze un arhitect de date precum DBA.

Când vă gândiți la lucrurile din punctul de vedere al unui analist, atunci începeți să construiți un instrument de interogare pe care un instrument MDM nu l-ar face niciodată. Atunci începeți să vă gândiți la performanță, precum și la acuratețe, precum și să înțelegeți ce date se referă la nevoile afacerii mele. Toate aceste lucruri sunt lucruri care apar în mintea noastră atunci când proiectăm instrumentul. Intră în algoritmii de căutare, intră în aspectul paginilor de catalog și în capacitatea de a contribui la cunoștințe din toată organizația. Se intră în faptul că am construit instrumentul de interogare și că am construit catalogul direct în el, așa că cred că vine cu adevărat din asta. Ce utilizator aveți mai întâi în minte?

Rebecca Jozwiak: Bine, bine. Asta a ajutat într-adevăr să o explice. care murea să pună mâna pe arhive pentru că trebuia să plece, dar își dorea cu adevărat răspunsul la întrebarea sa. El a spus că a fost menționat la început că există mai multe limbi, dar SQL este singura limbă folosită în componenta Compose?

David Crawford: Da, este adevărat. Și unul dintre lucrurile pe care le-am observat, întrucât am asistat la explozia diferitelor tipuri de baze de date, a bazelor de date documente, a bazelor de date grafice, a magazinelor de valori cheie, este că acestea sunt cu adevărat puternice pentru dezvoltarea aplicațiilor. Acestea pot satisface nevoi particulare acolo într-adevăr bine, în moduri mai bune decât pot baza de date relaționale.

Dar când o readuceți la analiza datelor, când o aduceți înapoi - când doriți să furnizați aceste informații persoanelor care urmează să facă raportări ad hoc sau să sape ad-hoc în date, acestea revin întotdeauna la o relație cel puțin, interfață pentru oameni. O parte din asta doar pentru că SQL este lingua franca a analizei datelor, deci înseamnă că, pentru oameni, este și pentru instrumentele care se integrează. Cred că acesta este motivul pentru care SQL pe Hadoop este atât de popular și există atât de multe încercări de rezolvare a acestuia, pentru că la sfârșitul zilei, asta știe oamenii. Probabil sunt milioane de oameni care știu să scrie SQL și nu m-aș aventura nu milioane care știu să scrie o interogare de cadru de agregare Mongo. Și că este un limbaj standard folosit pentru integrare într-o varietate foarte mare de platforme. Așadar, tot ce spune asta, ne este foarte rar solicitat să ieșim din afara ei, deoarece aceasta este interfața pe care o folosesc majoritatea analiștilor și este un loc unde ne-am concentrat, în special în Compose, că ne-am concentrat pe scrierea SQL.

Aș spune că știința datelor este locul în care se aventura cel mai mult și, prin urmare, primim întrebări ocazionale despre utilizarea Pig sau SAS. Acestea sunt lucruri pe care cu siguranță nu le gestionăm în Compose și pe care am dori să le surprindem în catalog. Și văd și R și Python. Avem câteva moduri în care am creat interfețe prin care poți folosi interogările scrise în Alation în interiorul scripturilor R și Python, deci, deoarece de multe ori când ești om de știință de date și lucrezi într-un limbaj de script, datele sursă se află într-o bază de date relațională. Începeți cu o interogare SQL, apoi o prelucrați mai departe și creați grafice în interiorul lui R și Python. Și am creat pachete pe care le puteți importa în acele scripturi care trag interogările sau rezultatele interogării de la Alation, astfel încât să puteți avea un flux de lucru amestecat acolo.

Rebecca Jozwiak: Bine, minunat. Știu că am trecut puțin peste vârful orei, o să pun doar una sau două întrebări. Știu că ați vorbit despre toate diferitele sisteme la care vă puteți conecta, dar în ceea ce privește datele găzduite extern și datele găzduite intern, pot fi căutate împreună în singura dvs. vizualizare, în singura dvs. platformă?

David Crawford: Sigur. Există câteva modalități de a face asta. Adică, găzduit extern, mi-aș imagina, încerc să mă gândesc exact la ce ar putea însemna asta. Ar putea însemna o bază de date pe care cineva o găzduiește în AWS pentru dvs. Ar putea însemna o sursă publică de date de la data.gov. Ne conectăm direct la baze de date conectându-ne la fel ca o altă aplicație, cu un cont de baze de date și astfel extragem metadatele. Deci, dacă avem un cont și avem un port de rețea deschis, putem ajunge la acesta. Apoi, atunci când nu avem aceste lucruri, avem ceva numit sursă de date virtuală, care vă permite să împingeți în esență documentația, fie automat, scriind propriul conector sau completând-o făcând chiar ca o încărcare CSV, pentru a documenta datele alături de datele dvs. interne. Acest lucru este introdus în motorul de căutare. Acesta devine referențial în articolele și alte documentații și conversații din sistem. Așa ne descurcăm atunci când nu ne putem conecta direct la un sistem.

Rebecca Jozwiak: Bine, asta are sens. O să-ți scot încă o întrebare. Un participant este întrebând: „Cum trebuie validat, verificat sau întreținut conținutul unui catalog de date, odată cu actualizarea datelor sursă, cu modificarea datelor sursă etc.”

David Crawford: Da, este o întrebare pe care o primim multe și cred că unul dintre lucrurile pe care noi - una dintre filozofiile noastre, așa cum am spus-o, nu credem că utilizatorii sunt răuvoitori. Presupunem că încearcă să contribuie cu cele mai bune cunoștințe. Nu vor veni și vor induce în eroare în mod deliberat oamenii despre date. Dacă aceasta este o problemă la organizația dvs., poate că Alation nu este instrumentul potrivit pentru dvs. Dar dacă vă asumați intenții bune ale utilizatorilor, atunci ne gândim la el ca la ceva, în care actualizările vin și atunci de obicei, ceea ce facem este să punem un steward responsabil de fiecare obiect de date sau de fiecare secțiune a datelor. Și putem notifica acei stewards atunci când se fac modificări în metadate și se pot ocupa în acest fel. Văd că intră actualizări, le validează. Dacă nu au dreptate, pot să le întoarcă și să le modifice și să le informeze, și sperăm să ajungă chiar la utilizatorul care a contribuit cu informațiile și să-i ajute să învețe.

Deci acesta este modul principal în care ne gândim să îl facem. Acest tip de sugestii din partea mulțimii și managementul de către ispravnici, așa că avem anumite capacități în acest sens.

Rebecca Jozwiak: Bine, bine. Și dacă ai putea doar să anunți oamenii cum pot să înceapă cel mai bine cu Alation și unde pot merge în mod special pentru a obține mai multe informații. Știu că ai împărtășit asta un pic.ly. Este cel mai bun loc?

David Crawford: Alation.com/learnmore Cred că este o modalitate excelentă de urmat. Pentru a vă înscrie la o demo, site-ul Alation.com are o mulțime de resurse excelente, cărți albe pentru clienți și știri despre soluția noastră. Deci cred că acesta este un loc minunat pentru a începe. Puteți, de asemenea, să trimiteți un e-mail.

Rebecca Jozwiak: Bine, minunat. Și știu, participanți, îmi pare rău dacă nu am ajuns la toate întrebările din ziua de azi, dar dacă nu, vor fi transmise lui David sau echipei sale de vânzări sau unei persoane de la Alation, pentru a putea ajuta cu siguranță să vă răspundă la întrebări și să vă ajute să înțelegeți ce face Alation sau ce fac ei mai bine.

Și cu asta, oameni buni, o să merg înainte și să ne semneze. Puteți găsi întotdeauna arhivele la InsideAnalysis.com. O puteți găsi și pe Techopedia.com. Acestea tind să se actualizeze puțin mai repede, așa că verificați cu siguranță asta. Și mulțumesc mult pentru David Crawford, Dez Blanchfield și Robin Boor astăzi. A fost un webcast extraordinar. Și cu asta, îți voi lua rămas bun. Mulțumesc, oameni buni. Pa! Pa.

David Crawford: Mulțumesc.

Puterea sugestiei: modul în care un catalog de date îi permite pe analiști