Acasă Audio Exploatarea firehose: obținerea valorii de business din analiza streaming: transcriere webinar

Exploatarea firehose: obținerea valorii de business din analiza streaming: transcriere webinar

Anonim

De personalul Techopedia, 24 februarie 2016

Take away: Gazda Rebecca Jozwiak discută despre fluxurile de analiză cu experți de top din industrie.

În prezent nu sunteți autentificat. Vă rugăm să vă conectați sau să vă înregistrați pentru a vedea videoclipul.

Rebecca Jozwiak: Doamnelor și domnilor, salut și bine ați venit la Hot Technologies din 2016! Titlul de astăzi este „Exploatarea Firehose: Obținerea valorii de afaceri din fluxul de analize.” Acesta este Rebecca Jozwiak. Sunt al doilea la comandă pentru gazda de transmisiune web ori de câte ori dragul nostru Eric Kavanagh nu poate fi aici, așa că este plăcut să vă vedeți atât de mulți dintre voi astăzi acolo.

Acest episod este puțin diferit de ceilalți. Am discutat cam despre ce este cald și, desigur, anul acesta este fierbinte. Ultimii câțiva ani au fost fierbinți. Întotdeauna apar lucruri noi. Astăzi, vorbim despre streaming analytics. Transmiterea analizelor este un fel de nou în sine. Desigur, streamingul, datele de centru, datele RFID, acestea nu sunt neapărat noi. Dar în contextul arhitecturilor de date, am fost atât de concentrați pe date în repaus de zeci de ani. Baze de date, sisteme de fișiere, depozite de date - toate în scopul de a prelucra în mare parte loturi. Dar acum, odată cu trecerea la crearea valorii din fluxul de date, emoții de date, unii îl numesc fluxuri vii, ei necesită într-adevăr o arhitectură bazată pe flux, nu date arhitecturi în repaus cu care ne-am obișnuit și trebuie să fie capabile manipularea rapidă de ingestie, procesare în timp real sau aproape în timp real. Trebuie să poată satisface nu doar Internetul lucrurilor, ci și internetul tuturor.

Desigur, în mod ideal, ar fi frumos ca cele două arhitecturi să trăiască unul lângă altul, o mână să spele pe cealaltă, ca să zic așa. În timp ce datele vechi, datele vechi de săptămâni, datele vechi de ani au, desigur, încă valoare, analize istorice, analize de tendințe, datele în direct sunt cele care conduc informațiile în direct în aceste zile și de aceea analizele de streaming au devenit atât de importante.

Vorbesc mai mult despre asta astăzi. Avem savantul nostru de date, Dez Blanchfield, care sună din Australia. E devreme dimineața pentru el chiar acum. Avem analistul nostru principal, dr. Robin Bloor. Ni se alătură Anand Venugopal, șeful de produs pentru StreamAnalytix la Impetus Technologies. Sunt într-adevăr concentrați asupra aspectului de analiză în streaming a acestui spațiu.

Cu asta, o să merg mai departe și o transmit lui Dez.

Dez Blanchfield: Mulțumesc. Trebuie să preiau controlul ecranului aici și să o deschid.

Rebecca Jozwiak: Iată.

Dez Blanchfield: În timp ce preluăm diapozitivele, permiteți-mi să acoper doar subiectul de bază.

O să-l păstrez destul de ridicat și îl voi ține la aproximativ 10 minute. Acesta este un subiect foarte mare. Am participat la un eveniment în care am petrecut două-trei zile în care am studiat detaliile despre ce este procesarea fluxului și a cadrelor actuale pe care le dezvoltăm și ce ar trebui să însemne realizarea analizelor în aceste fluxuri de volum mare.

Vom clarifica ce înțelegem prin fluxul de analize și apoi vom analiza dacă valoarea afacerii poate fi obținută, deoarece aceasta este într-adevăr ceea ce caută întreprinderile. Caută ca oamenii să le explice foarte repede și succint, de unde pot obține valoare aplicând o formă de analiză la datele noastre de flux?

Ce este analiza de streaming?

Analiza fluxurilor oferă organizațiilor o modalitate de a extrage valoarea din datele de mare volum și de mare viteză pe care le-au venit prin intermediul activității sub diferite forme în mișcare. Diferența semnificativă aici este că am avut o istorie lungă de dezvoltare a analizelor și a lentilelor și a vizualizărilor datelor pe care le prelucram în repaus de zeci de ani de la inventarea mainframe-ului. Schimbarea masivă de paradigmă pe care am observat-o în ultimii trei-cinci ani în ceea ce numim „scară web” se referă la fluxurile de date care vin în noi în timp real sau aproape în timp real și nu doar procesarea și căutarea corelației evenimentelor sau se declanșează evenimente, dar care realizează analize detaliate în detaliu pe aceste fluxuri. Este o schimbare semnificativă către ceea ce făceam înainte, fie colectarea de date, punerea ei într-un fel de depozit, baze de date tradițional acum mari, mari cadre de date mari, cum ar fi platforma Hadoop și efectuarea procesării în mod batch pentru asta și obținerea un fel de intuiție.

Ne-am priceput foarte bine să facem asta foarte repede și să încercăm o mulțime de fier greu la chestii, dar totuși captăm date, stocăm și apoi privim și obținem un fel de informații sau analize despre acestea. Trecerea la efectuarea acestor analize pe măsură ce datele transmit, a fost o zonă de creștere foarte nouă și interesantă pentru tipurile de lucruri care se întâmplă în jurul datelor mari. Este nevoie de o abordare complet diferită pentru a capta, stoca și prelucra doar și a efectua analize pe.

Unul dintre factorii cheie pentru schimbarea și concentrarea către efectuarea de analize în flux este că puteți obține o valoare semnificativă a afacerii prin obținerea acestor informații mai rapid și mai ușor pe măsură ce datele vă sunt furnizate, deoarece informațiile sunt puse la dispoziția companiei. Ideea de a face procesarea la sfârșitul zilei nu mai este relevantă în anumite industrii. Vrem să fim capabili să facem analiticile. Până la sfârșitul zilei, știm deja ce s-a întâmplat așa cum s-a întâmplat, mai degrabă decât să ajungem la sfârșitul zilei și să facem un job de 24 de ore și să obținem aceste informații.

Analiza de streaming este despre a atinge direct în acel flux, în timp ce fluxurile de date sunt, de obicei, mai multe fluxuri de volume foarte mari de date și date care vin la noi în mișcare foarte, foarte repede și obținând informații sau analitice asupra acestor fluxuri, deoarece vin spre noi, spre deosebire. pentru a permite asta iese în repaus și pentru a efectua analize asupra lor.

Așa cum am menționat, am avut zeci și zeci de ani de executare a ceea ce numesc analitice de lot. Am pus o imagine foarte faină aici. Aceasta este o imagine a unui domn care stătea în fața unui computer mormăit, creat de RAND Corporation în urmă cu o viață și așa arată un computer dintr-o casă. Ceea ce este interesant este că, chiar și atunci, au avut acest concept al tuturor acestor mici cadranele, iar aceste cadrane reprezentau informații care veneau din casă și erau procesate în timp real și îți spuneau ce se întâmplă. Un exemplu simplu este un set de presiune și temperatură barometrică pe care putem vedea unde vedem ce se întâmplă în timp real. Dar îmi imaginez că, chiar și atunci când RAND Corporation a reunit acea mică machetă, de fapt, se gândeau deja la procesarea datelor și efectuarea de analize pe măsură ce intră în format stream. Nu sunt deloc sigur de ce au pus volanul pe computer, dar este destul de fain.

De la inventarea imprimantei, am avut în vedere captarea de date și efectuarea de analize pe lot. Așa cum am spus cu marea schimbare acum și am văzut asta din like-urile jucătorilor de scară web pe care îi știm cu toții, toate sunt mărci casnice precum Twitter, Facebook și LinkedIn, acel comportament interactiv pe care îl avem cu cei sociali platformele necesită nu numai capturarea, stocarea și apoi procesarea în modul lot, ci sunt de fapt capturarea și conduce analitice din zbor din fluxurile de date care vin. Când trimit ceva, nu numai că trebuie să capteze și să stocheze și să facă ceva mai târziu, dar trebuie să le poată pune imediat înapoi pe fluxul meu și să-l împărtășesc cu alte persoane care mă urmăresc. Acesta este un model de procesare a loturilor.

De ce am merge pe acest traseu? De ce ar organiza organizațiile să investească timp, efort și bani chiar și să ia în considerare provocarea de a depune eforturi pe calea analizelor de flux? Organizațiile au această dorință masivă de a obține un câștig de performanță față de concurenții lor în industriile în care se află și că câștigul de performanță poate fi implementat rapid prin intermediul unor simple analize de flux și poate porni de la o simplă urmărire a datelor în timp real pe care le aflăm deja obișnuit cu. Am un mic ecran de Google Analytics acolo. Aceasta este probabil una dintre primele ori în care am obținut într-adevăr analize de calitate pentru consumatori. Așadar, pe măsură ce oamenii vizitau site-ul dvs. web și primiți acele numere de succes, cu o bucată mică de JavaScript pe partea de jos a paginii dvs. web în HTML încorporat în site-ul dvs., aceste mici coduri au fost făcute în timp real înapoi la Google și au fost efectuarea de analize pe acele fluxuri de date care provin de la fiecare pagină de pe site-ul dvs. web, la fiecare obiect de pe site-ul dvs. în timp real și vă trimit înapoi în această pagină web foarte drăguță într-un tablou de grafic în timp real, mici histograme și Grafic liniar care vă arată numărul X de persoane care au lovit pagina dvs. istoric, dar iată câte sunt acum.

După cum puteți vedea pe ecranul respectiv, 25 spune acum. Este vorba despre 25 de persoane chiar în momentul în care acea captură de ecran erau pe pagina respectivă. Aceasta este prima șansă reală pe care am jucat-o pe instrumentul de analiză de calitate pentru consumatori. Cred că multă lume a primit-o cu adevărat. Au înțeles doar puterea de a ști ce se întâmplă și cum pot răspunde la ea. Când ne gândim la scara avionului, a aeronavelor care zboară în jur, există doar 18.700 de zboruri interne pe zi, numai în SUA. Am citit o lucrare cu ceva timp în urmă - era în urmă cu aproximativ șase sau șapte ani - că cantitatea de date care erau produse de acele aeronave era de aproximativ 200 - 300 megabyte în vechiul model de inginerie. În proiectele de avioane de astăzi, aceste aeronave produc aproximativ 500 de gigabyte de date sau aproximativ jumătate de terabyte de date pe zbor.

Când faceți matematica foarte repede din capul dvs., acel 18.700 de zboruri interne la fiecare 24 de ore în spațiul aerian al SUA singure, dacă toate aeronavele moderne produc aproximativ jumătate de terabyte, adică de la 43 până la 44 de petabyte de date care vin și se întâmplă în timp ce avioanele sunt în aer. Se întâmplă când aterizează și fac depozite de date. Atunci vor intra în magazin și au o groapă de date completă de la echipele de inginerie pentru a vedea ce se întâmplă în rulmenți, roți și în interiorul motoarelor. Unele dintre aceste date trebuie prelucrate în timp real, astfel încât să poată lua decizii dacă există o problemă reală, în timp ce avionul era în aer sau în timp ce acesta se afla la sol. Doar nu poți face asta în regimul de lot. În alte industrii pe care le vedem acolo în jurul finanțelor, sănătății, producției și ingineriei, ele se uită, de asemenea, la modul în care se pot obține cu această nouă informație despre ceea ce se întâmplă în timp real, spre deosebire de ceea ce este doar stocat în bazele de date de pe un termen.

Există, de asemenea, acest concept de a trata datele ca ceea ce numesc un bun perisabil sau o marfă perisabilă - că o mulțime de date își pierd valoare în timp. Acesta este din ce în ce mai mult în cazul aplicațiilor de mobilitate și instrumentelor de social media, deoarece ceea ce spun oamenii și ceea ce este în trend acum este ceea ce doriți să răspundeți. Atunci când vă gândiți la alte părți ale vieții noastre cu logistica și transportul alimentelor în jur, înțelegem conceptul de mărfuri perisabile în acest sens. Dar gândiți-vă la datele care trec prin organizația dvs. și la valoarea pe care o are. Dacă cineva face afaceri cu tine chiar acum și poți interacționa cu ele în timp real, nu vrei să aștepți o oră pentru ca datele să poată fi capturate și introduse într-un sistem precum Hadoop, apoi apăsați acest buton, nu va putea face față acum și doriți să o puteți face imediat la cererea clientului. Există un termen pe care îl veți afișa foarte mult acum, în care oamenii vorbesc despre existența acestui flux de date în timp real care vă poate oferi personalizare și că această personalizare se încadrează în sistemul pe care îl utilizați pentru experiența dvs. individuală. Deci, atunci când atingeți un instrument precum instrumentul Căutare Google, de exemplu, dacă fac o interogare și faceți aceeași întrebare, invariabil, nu primim exact aceleași date. Obținem în esență ceea ce mă refer la o experiență de celebritate. Sunt tratat cu o singură dată. Am o versiune personală a ceea ce se întâmplă în aceste sisteme pe baza profilurilor și datelor pe care le-au colectat pe mine și am putut să fac analize în timp real în flux.

Această idee a faptului că datele sunt o marfă perisabilă este un lucru real deocamdată, iar valoarea datelor diminuată în timp este ceva cu care avem de a face astăzi. Nu este un lucru de ieri. Îmi place această imagine a unui urs care prinde un somon care sări din râu, deoarece într-adevăr pictează exact ceea ce văd fluxul de analiză. Este acest râu masiv de date care vin la noi, un foc de foc dacă vrei, iar ursul stă în mijlocul pârâului. Va efectua analize în timp real a ceea ce se întâmplă în jurul său, astfel încât să poată efectua capacitatea sa de a captura acel pește în aer. Nu este ca și cum ar fi să scufundați în curent și să o apucați pe una. Chestia asta sare în aer și trebuie să fie la locul potrivit la momentul potrivit pentru a prinde acel pește. În caz contrar, nu primește micul dejun sau prânzul.

O organizație vrea să facă același lucru cu datele sale. Ei doresc să extragă valoare din ceea ce sunt acum volume masive de date în mișcare. Ei doresc să efectueze analize asupra datelor respective și a datelor de mare viteză, așa că nu este doar cantitatea de date care vin la noi, ci este viteza cu care provin din asta. În ceea ce privește securitatea, de exemplu, este vorba de toate routerele, comutatoarele, serverele, firewall-urile și toate evenimentele care provin de la acestea și zeci de mii, dacă nu chiar sute de mii de dispozitive, în unele cazuri care sunt date perisabile. Când ne gândim la asta în Internet of Things și pe Internetul industrial, vorbim despre milioane, dacă nu chiar de miliarde de senzori în cele din urmă, iar pe măsură ce datele trec prin intermediul cărora se efectuează analize, acum ne uităm să facem procesări complexe de evenimente. la comenzi de mărime și viteză pe care nu le-am mai văzut niciodată și trebuie să ne ocupăm de asta astăzi. Trebuie să construim instrumente și sisteme în jurul acestui lucru. Este o adevărată provocare pentru organizații, deoarece, pe de o parte, avem brandurile foarte mari care fac DIY, le coaceți singuri, atunci când au capacitatea de a face asta și setul de abilități și inginerie. Dar pentru organizația medie, nu este cazul. Nu au seturi de îndemânare. Ei nu au capacitatea, nici timpul, nici banii să investească în a-și da seama. Toate vizează acest concept de luare a deciziilor în timp real.

Folosiți cazurile pe care le-am întâlnit și sunt la fiecare spectru larg al fiecărui sector pe care vi-l puteți imagina, oamenii stau în picioare și acordă atenție și spun: cum aplicăm unele analize la datele noastre de flux? Vorbim despre servicii online la scară web. Există platformele tradiționale de social media și online e-tailing și vânzare cu amănuntul - aplicații, de exemplu. Cu toții încearcă să ne ofere această experiență de celebritate în timp real. Însă, când ne descurcăm în mai multe servicii de stivuire tehnologică, servicii de telefonie, voce și video, văd oameni care se plimbă în timp ce fac FaceTime la telefoane. Doar explodează. Îmi zice că oamenii țin telefonul în fața lor și vorbesc cu un flux video al unui prieten, spre deosebire de a-l mai ține la ureche. Dar știu că pot face asta și s-au adaptat și le-a plăcut experiența respectivă. Dezvoltarea acestor aplicații și a platformelor care furnizează acestea trebuie să efectueze analize în timp real asupra traficului respectiv și a profilurilor traficului, astfel încât acestea să poată face lucruri simple, precum dirijarea acelui videoclip perfect, astfel încât calitatea vocii din videoclipul pe care îl obțineți este adecvat pentru a obține o experiență bună. Nu puteți prelucra acest tip de date. Nu ar face fluxul video în timp real un serviciu funcțional.

Există o provocare a guvernanței în tranzacțiile financiare. Nu este în regulă să ajungi la sfârșitul zilei și să afli că ai încălcat legea care mută datele private în jurul locului. În Australia, avem o provocare foarte interesantă în care deplasarea datelor legate de confidențialitate în larg este un no-no. Nu puteți lua PID-ul meu, datele mele personale de identificare personală în larg. Există legi în Australia pentru a opri acest lucru. Furnizorii de servicii financiare, în special cu siguranță, serviciile guvernamentale și agențiile, ei trebuie să facă analize în timp real asupra fluxurilor lor de date și instrucțiuni cu mine pentru a mă asigura că ceea ce îmi oferă nu lasă țărmurile. Toate lucrurile trebuie să rămână la nivel local. Trebuie să o facă în timp real. Nu pot încălca legea și își pot cere iertare mai târziu. Detectarea fraudelor - este una destul de evidentă despre care auzim despre tranzacțiile cu cardul de credit. Dar, deoarece tipurile de tranzacții pe care le efectuăm în servicii financiare se schimbă foarte, foarte rapid, există tot felul de lucruri pe care PayPal le face mai întâi acum pentru a detecta frauda în timp real în care banii nu se mută de la un lucru la altul, dar este o tranzacție financiară între sisteme. Platformele de licitație Ebay, care detectează frauda trebuie efectuate în timp real într-un birou de streaming.

Există o tendință care se mișcă acum spre efectuarea extracției și transformarea activității de încărcare în fluxuri, astfel încât nu dorim să surprindem nimic din ceea ce se întâmplă în flux. Nu putem face asta cu adevărat. Oamenii au aflat că datele le place să fie rupte într-adevăr rapid dacă surprindem totul. Trucul de acum este să efectuați analize pe fluxurile respective și să faceți ETL pe acesta și să surprindeți doar ceea ce aveți nevoie, potențialele metadate și apoi să conduceți analize predictive unde putem efectiv să spunem ce se va întâmpla un pic mai departe pe căile pe care noi Tocmai am văzut în flux pe baza analizelor pe care le-am efectuat.

Furnizorii de energie și utilități se confruntă cu această dorință masivă din partea consumatorilor de a avea prețuri la cerere. S-ar putea să decid că vreau să cumpăr energie verde la un moment dat al zilei, deoarece sunt acasă singur și nu folosesc o mulțime de dispozitive. Dar dacă am o cină, aș putea dori să am toate dispozitivele mele și nu vreau să cumpăr energie ieftină și să aștept să fie livrată, dar dispus să plătesc mai mult cost pentru a obține acea putere. Această preț a cererii, în special în utilitățile și spațiul energetic s-a întâmplat deja. Uber, de exemplu, este un exemplu clasic de lucruri pe care le poți face în fiecare zi și totul este determinat de stabilirea prețurilor la cerere. Există câteva exemple clasice de oameni din Australia care obțin tarife de 10.000 de dolari din cauza cererii masive de Revelion. Sunt sigur că s-au ocupat de această problemă, dar analizele de flux sunt efectuate în timp real, în timp ce în mașină vă spun cât trebuie să plătesc.

Internet of Things și fluxuri de senzori - am zgâriat doar suprafața și am avut într-adevăr conversația de bază în acest sens, dar vom vedea o schimbare interesantă în modul în care tehnologia se ocupă de asta, deoarece atunci când vorbești nu doar aproximativ mii sau zeci de mii, dar sute de mii și potențial miliarde de dispozitive care vă transmit, aproape niciunul din stivele de tehnologie pe care le avem acum nu sunt proiectate pentru a face față.

Există câteva subiecte cu adevărat fierbinți pe care le vom vedea în jurul locului, precum securitatea și riscurile informatice. Pentru noi sunt provocări foarte reale. Pe web există un instrument cu adevărat îngrijit, numit Nord, unde puteți sta și urmări într-o pagină web diverse atacuri cibernetice care se întâmplă în timp real. Când te uiți la ea, te gândești „oh, este o pagină web drăguță și drăguță”, dar după aproximativ cinci minute acolo, îți dai seama de volumul de date pe care sistemul face analize pe toate fluxurile diferite ale tuturor dispozitivelor din întreaga lume. care sunt alimentate în ele. Începe să se gândească la modul în care realizează asta la marginea acelei înregistrări, în esență și care îți oferă acel mic ecran simplu care îți spune ce sau altceva îl atacă în timp real și ce tipuri de atacuri. Dar este un mod foarte îngrijit de a obține doar un bun gust al ceea ce poate face analiza fluxurilor pentru tine în timp real doar urmărind această pagină și înțelegând doar volumul și provocarea de a lua fluxurile, de a prelucra interogările analitice pe ei și reprezentând asta în timp real.

Cred că conversația pe care o am pentru restul sesiunii va aborda toate acele tipuri de lucruri cu o singură viziune interesantă, din punctul meu de vedere, și asta este provocarea DIY, coaceți-vă singuri, se potrivește cu o parte din unicornii clasici care își pot permite să construiască acele tipuri de lucruri. Au primit miliarde de dolari pentru a construi aceste echipe de inginerie și pentru a-și construi centrele de date. Dar pentru 99, 9% din organizațiile de acolo care doresc să contribuie la valorificarea activității lor de analiză a fluxurilor, trebuie să obțină un serviciu în afara raftului. Ei trebuie să cumpere un produs din cutie și, în general, au nevoie de servicii de consultanță și servicii profesionale pentru a-i ajuta să-l pună în aplicare și să obțină această valoare în afacere și să-l vândă înapoi în afaceri ca soluție de lucru.

Cu asta, mă voi întoarce la tine, Rebecca, pentru că cred că asta este pe cale să o acoperim în detaliu acum.

Rebecca Jozwiak: Excelent. Mulțumesc mult, Dez. Este o prezentare minunată.

Acum, voi trece mingea lui Robin. Ia-o de aici.

Robin Bloor: Bine. Deoarece Dez a intrat în procesele de procesare a fluxurilor, nu părea să aibă sens să-l acopăr din nou. Așa că voi avea o perspectivă complet strategică. Privind aproape de la un nivel foarte înalt în jos pe ceea ce naiba se întâmplă și poziționându-l, deoarece cred că ar putea ajuta oamenii, în special noi, oameni care nu sunt încă încadrați în procesarea fluxurilor la mare adâncime.

Procesarea fluxurilor a fost în jur de mult timp. O numisem CEP. Înainte de asta, existau sisteme în timp real. Sistemele originale de control de proces prelucrau de fapt fluxuri de informații - bineînțeles că nimic nu mergea până acum. Acest grafic pe care îl vedeți pe diapozitiv aici; se evidențiază o mulțime de lucruri de fapt, dar se evidențiază deasupra și dincolo de orice altceva - faptul că există un spectru de latențe care apar în diferite culori aici. Ceea ce s-a întâmplat de la inventarea calculelor sau a calculului comercial care a sosit chiar în jurul anului 1960 este că totul a devenit mai rapid și mai rapid. Am putut fi în măsură să depindem de modul în care aceasta a apărut de fapt dacă vă place în valuri, pentru că așa arată. Acest lucru depinde de el. Pentru că totul era condus de legea lui Moore și legea lui Moore ne-ar oferi un factor de aproximativ zece ori viteză pe o perioadă de aproximativ șase ani. Apoi, odată ce am ajuns de fapt în 2013, totul s-a rupt și am început brusc să accelerăm într-un ritm pe care nu l-am făcut niciodată, ceea ce este ciudat fără precedent. Am obținut un factor de aproximativ zece în ceea ce privește creșterea vitezei și, prin urmare, o reducere a latenței aproximativ la fiecare șase ani. În cei șase ani de la aproximativ 2010, avem un multiplu de cel puțin o mie. Trei ordine de mărime mai degrabă decât una.

Asta s-a întâmplat și de aceea, industria într-un fel sau altul pare să se miște cu viteze fantastice - pentru că așa este. Doar parcurgând semnificația acestui grafic particular, timpii de răspuns sunt, de fapt, în mod algoritm, în jos pe axa verticală. Timpul real este viteza computerului, mai rapidă decât ființele umane. Timpurile interactive sunt portocalii. Este atunci când interacționezi cu computerul, acolo unde vrei cu adevărat o zecime până la aproximativ o secundă de latență. Mai sus, există tranzacții în care ne gândim, de fapt, la ceea ce faci în computer, dar dacă asta iese în aproximativ cincisprezece secunde, devine intolerabil. Oamenii chiar nu vor aștepta computerul. Totul a fost făcut pe lot. O mulțime de lucruri care au fost făcute pe loturi coboară acum chiar în spațiul tranzacțional, chiar în spațiul interactiv sau chiar în spațiul în timp real. Cu toate că anterior, o cantitate foarte mare de date puteam face unele dintre acestea, acum putem face cu cantități foarte mari de date folosind un mediu extrem de scăzut.

Deci, practic, toate acestea spun că este într-adevăr tranzacția și timpul interactiv de răspuns uman. O mare parte din ceea ce se face cu fluxurile în acest moment este de a informa ființele umane despre lucruri. Unele dintre ele merg mai repede decât atât și informează bine lucrurile, așa că este timpul real. Apoi, luăm o licență pentru a scădea doar ca o piatră, făcând analitica instantaneu fezabilă și întâmplător destul de accesibilă. Nu doar că viteza a coborât și vârful tocmai s-a prăbușit. Probabil cel mai mare impact în toate aceste dintre toate diferitele aplicații, puteți face toate aceste analize predictive. Îți spun de ce într-un minut.

Acesta este doar hardware-ul. Ai un software paralel. Vorbim despre 2004. Arhitectură scalabilă, cipuri multicore, creștere a memoriei, procesor configurabil. SSD-urile merg acum mult mai repede decât discul învârtit. Puteți să vă luați la revedere de pe disc. SSD-urile sunt și în mai multe nuclee, deci din nou tot mai repede. În curând să apară, am primit memristorul de la HP. Avem 3D XPoint de la Intel și Micron. Promisiunea acestora este că va face ca totul să meargă mai repede și mai repede. Când vă gândiți de fapt la două noi tehnologii de memorie, ambele care vor face întreaga piesă fundamentală mică, placa de circuit individuală merge mai repede, nici măcar nu am văzut finalul acesteia.

Tehnologia fluxurilor, care este cu adevărat următorul mesaj, este aici pentru a rămâne. Va trebui să existe o arhitectură nouă. Adică Dez a menționat acest lucru în mai multe puncte din prezentarea sa. Timp de zeci de ani am văzut arhitectura ca o combinație de mormane de date și conducte de date. Am avut tendința de a prelucra grădinile și am avut tendința de a conecta datele între grămezi. Ne îndreptăm acum fundamental către ceea ce numim arhitectura de date Lambda, care combină procesarea fluxurilor de date cu mormane de date. Când efectuați procesarea unui flux de evenimente care vin împotriva datelor istorice ca un flux de date sau o grămadă de date, asta vreau să spun prin arhitectura Lambda. Acest lucru este la început. Este doar o parte din imagine. Dacă considerați ceva la fel de complex ca Internetul a tot ceea ce a menționat și Dez, veți realiza de fapt că există tot felul de probleme privind locația datelor - decizii cu privire la ce ar trebui să procesați în flux.

Ceea ce spun cu adevărat aici este că atunci când prelucram în lot, procesam de fapt fluxuri. Pur și simplu nu am putut-o face pe rând. Abia așteptăm până când există o grămadă mare de lucruri și apoi le procesăm toate simultan. Ne îndreptăm spre o situație în care de fapt putem prelucra chestii în flux. Dacă putem prelucra chestii în flux, atunci mormanele de date pe care le deținem vor fi datele statice la care trebuie să facem referință pentru a procesa datele din flux.

Acest lucru ne duce la acest lucru particular. Am mai menționat acest lucru într-o prezentare cu analogia biologică. Modul în care mi-aș dori să te gândești este în momentul în care suntem ființe umane. Avem trei rețele distincte pentru procesarea predictivă în timp real. Ei sunt numiți somatic, autonom și enteric. Entericul este stomacul tău. Sistemul nervos autonom are grijă de luptă și zboruri. De fapt, are grijă de reacții rapide la mediu. Somaticul care are grijă de mișcarea corpului. Acestea sunt sisteme în timp real. Lucrul interesant despre asta - sau cred că este cam interesant - este că multe dintre ele sunt mai predictive decât v-ați imagina vreodată. Este ca și cum ai privi de fapt un ecran la aproximativ 18 centimetri de fața ta. Tot ceea ce puteți vedea clar, tot ceea ce corpul dvs. este capabil să vadă în mod clar este în realitate despre un dreptunghi de 8 × 10. Tot ceea ce se află în afară de asta este de fapt încețoșat în ceea ce privește corpul tău, dar mintea ta completează de fapt golurile și nu face să se estompeze. Nu vezi deloc o neclaritate. O vezi clar. Mintea ta face de fapt o metodă predictivă a fluxului de date pentru a putea vedea această claritate. Este un lucru curios, dar puteți privi efectiv modul în care sistemul nervos funcționează și modul în care reușim să ne ocolim și să ne comportăm rezonabil - cel puțin unii dintre noi - rezonabil sănătos și să nu ne lovim tot timpul de lucruri.

Totul este realizat printr-o serie de analize neuronale aici. Ceea ce se va întâmpla este că organizațiile vor avea același fel de lucruri și vor construi același tip de lucru și va fi procesarea fluxurilor, inclusiv fluxurile interne ale organizației - lucrurile care se întâmplă în interior ea, lucrurile care se întâmplă în afara ei, răspunsurile instantanee care trebuie făcute sunt, desigur, hrănirea ființei umane pentru a lua decizii, pentru a face toate acestea să se întâmple. Acolo mergem, din câte văd.

Unul dintre lucrurile care este o consecință a acestuia este că nivelul aplicației de streaming merge bine. Vor fi multe mai groaznice decât vedem acum. În momentul de față, culegem fructele slab atârnate de a face lucrurile care sunt evidente.

Deci oricum aceasta este concluzia aici. Transmiterea analiticii este o dată o nișă, dar devine mainstream și în curând va fi adoptată în general.

Cu asta, o voi transmite înapoi lui Rebecca.

Rebecca Jozwiak: Mulțumesc mult, Robin. Prezentare excelentă ca de obicei.

Anand, ești în continuare. Etajul este al tău.

Anand Venugopal: fantastic. Mulțumesc.

Numele meu este Anand Venugopal și sunt șeful de produs pentru StreamAnalytix. Este un produs oferit de Impetus Technologies, din Los Gatos, California.

Impetus a avut de fapt o istorie excelentă în a fi un furnizor mare de soluții de date pentru întreprinderile mari. Așa că am făcut de fapt o serie de implementări de analitice în flux ca o companie de servicii și am învățat o mulțime de lecții. De asemenea, am făcut o schimbare spre a deveni o companie de produse și o companie bazată pe soluții în ultimii câțiva ani, iar fluxul de analiză este responsabil pentru transformarea Impetus într-o companie bazată pe o mare parte a produsului. Există unele elemente critice, foarte, foarte cheie pe care Impetus le-a eliminat datorită expunerii noastre la întreprinderi, iar StreamAnalytix este unul dintre acestea.

Suntem 20 de ani în afaceri și există un amestec minunat de produse și servicii care ne oferă un avantaj uriaș. Și StreamAnalytix s-a născut din toate lecțiile învățate din primele noastre cinci sau șase implementări de streaming.

Voi atinge câteva lucruri, dar analiștii, Dez și Robin, au făcut o treabă fantastică la acoperirea spațiului în general, așa că voi sări peste mult conținut care se suprapune. Probabil că voi merge repede. În afară de adevăratele cazuri de streaming folosim o mulțime de accelerații doar de loturi, unde există literalmente procese de lot foarte importante în întreprinderi. După cum puteți vedea, acest întreg ciclu de detectare a unui eveniment și de analiză și de acționare asupra lui ar putea dura de săptămâni în întreprinderile mari și încearcă să-l micșoreze la minute și, uneori, la câteva secunde și la milisecunde. Deci orice este mai rapid decât toate aceste procese de lot sunt candidați la achiziția de afaceri și asta este foarte bine pus, încât valoarea datelor scade dramatic odată cu vârsta lor, deci cu atât mai multă valoare există în porțiunea inițială în secundele în care tocmai s-a întâmplat. În mod ideal, dacă puteți prezice ce se va întâmpla, aceasta este cea mai mare valoare. Totuși, depinde de acuratețe. Următoarea valoare cea mai mare este atunci când este chiar acolo, când se întâmplă, o puteți analiza și răspunde. Desigur, valoarea se reduce dramatic după aceea, principala BI restrictivă în care ne aflăm.

E interesant. S-ar putea să vă așteptați la un răspuns dramatic științific la motivul pentru care transmiteți analitice. În multe cazuri, ceea ce vedem este că este acum posibil, iar pentru că toată lumea știe că lotul este vechi, lotul este plictisitor și lotul nu este fain. Există suficientă educație pe care toată lumea a avut-o acum pe faptul că există streaming posibil și toată lumea are Hadoop acum. Acum distribuțiile Hadoop au o tehnologie de streaming încorporată în ea, indiferent că este vorba de streaming Storm sau Spark și bineînțeles cozi de mesaje, cum ar fi Kafka etc.

Întreprinderile pe care le vedem sari în el și încep să experimenteze aceste cazuri și vedem două categorii largi. Unul are ceva de-a face cu analiza clienților și experiența clienților și a doua informații operaționale. Voi intra în câteva detalii despre asta puțin mai târziu. Întregul unghi al serviciului pentru clienți și al experienței clienților, iar noi, la Impetus StreamAnalytix, am făcut acest lucru în mai multe moduri diferite, este în realitate totul, captând cu adevărat angajamentul multicanal al consumatorului în timp real și le oferim experiențe foarte sensibile la context care nu sunt comune astăzi. Dacă navigați pe web, pe site-ul Bank of America și căutați anumite produse și sunteți doar la call center. Și-ar spune: „Hei Joe, știu că ai cercetat anumite produse bancare, ai vrea să te completez?” Nu te aștepți la asta astăzi, dar acesta este genul de experiență care este cu adevărat posibil cu ajutorul analiticii de streaming. În multe cazuri, face o diferență uriașă, mai ales dacă clientul a început să cerceteze modalități de a ieși din contractul dvs. cu dvs., căutând clauze de reziliere timpurie sau termeni și condiții de reziliere timpurie pe site-ul dvs. web și apoi sunteți capabil să nu confruntați-le direct cu privire la acest lucru, dar doar faceți indirect o ofertă despre un fel de primă promoție, deoarece sistemul știe că această persoană se uită la terminarea timpurie și faceți oferta respectivă în acel moment, puteți proteja foarte bine acel client afurisit și puteți proteja acel activ .

Acesta ar fi un exemplu, plus o mulțime de servicii pentru clienți sunt toate exemple foarte bune. Implementăm astăzi reduce costurile în call center și oferă experiențe dramatice plăcute clienților. Dez a făcut o treabă excelentă în rezumarea unor cazuri de utilizare. Puteți privi acest grafic timp de câteva minute. L-am clasificat ca verticale, orizontale și zone combo, IoT, aplicație mobilă și call center. Toate sunt verticale și orizontale. Depinde de cum îl privești. Pe linia de jos, vedem o mulțime de utilizări orizontale care sunt destul de comune pe verticalele industriei și există cazuri de utilizare verticală, inclusiv servicii financiare, asistență medicală, telecomunicații, producție etc. Dacă vă puneți într-adevăr întrebarea sau vă spuneți asta, „oh, nu știu ce cazuri de utilizare există. Nu sunt sigur dacă există cu adevărat vreo valoare de afaceri în streaming analytics pentru compania mea sau pentru întreprinderea noastră ”, gândește-te tare, gândește-te de două ori. Discutați cu mai multe persoane, deoarece există cazuri de utilizare care în compania dvs. sunt relevante astăzi. Voi intra în valoarea afacerii cu privire la modul în care se derivă exact valoarea afacerii.

În partea de jos a piramidei de aici, aveți o întreținere predictivă, securitate, protecție împotriva prăbușirii etc. Aceste tipuri de cazuri de utilizare constituie protecția veniturilor și a activelor. Dacă Target își proteja încălcarea de securitate care s-a întâmplat peste câteva ore și săptămâni, CIO ar fi putut să-și salveze locul de muncă. S-ar putea economisi zeci sau sute de milioane de dolari, etc. Analiticele de streaming în timp real ajută într-adevăr la protejarea acelor active și la protejarea pierderilor. Aceasta este valoarea adăugată directă a afacerii chiar acolo.

Următoarea categorie devine din ce în ce mai profitabilă, scăzând costurile și obținând mai multe venituri din operațiunile curente. Aceasta este eficiența întreprinderii actuale. Acestea sunt toate categoriile de cazuri de utilizare pe care le numim informații operaționale în timp real, unde obțineți cunoștințe profunde despre cum se comportă rețeaua, cum se comportă operațiunile clientului dvs., cum se comportă procesul dvs. de afaceri și puteți regla toate acestea în timp real, deoarece primiți feedback, primiți alerte. Obțineți devianțe, variații în timp real și puteți acționa și separa rapid procesul care nu va mai trece.

Puteți economisi, de asemenea, o mulțime de bani în actualizări de capital scumpe și lucruri care credeți că sunt necesare, care ar putea să nu fie necesare dacă ați optimizat serviciul de rețea. Am auzit despre un caz în care un telco-major a amânat o actualizare de 40 de milioane de dolari în infrastructura rețelei lor, deoarece au descoperit că au capacitate suficientă pentru a-și gestiona traficul actual, ceea ce înseamnă că optimizăm și facem mai bine rutarea inteligentă a traficului lor și lucruri de genul acesta. Acestea sunt posibile numai cu unele analize și mecanisme de acțiune în timp real care acționează asupra acestor informații în timp real.

Următorul nivel de valoare adăugată este vânzarea, vânzarea încrucișată unde există oportunități de a obține mai multe venituri și profituri din ofertele curente. Acesta este un exemplu clasic despre care mulți dintre noi știm despre ce au experimentat unde, vă gândiți în viața dvs. unde sunteți dispus să cumpărați de fapt un produs care nu vă este oferit. În multe, multe cazuri, acest lucru se întâmplă de fapt. Aveți în minte lucruri pe care vă place să le cumpărați, care știți că doriți să cumpărați, că aveți o listă de activități sau ceva de genul, pe care soția dvs. v-a spus-o sau dacă nu aveți o soție, dar chiar doriți să cumpărați și mergi fie la cumpărături pe un site web, fie interacționezi într-un magazin de vânzare cu amănuntul, pur și simplu nu are contextul, nu are inteligența pentru a calcula ceea ce ai putea avea nevoie. Prin urmare, nu își asigură afacerea în siguranță. Dacă analizele de streaming ar putea fi implementate pentru a face cu adevărat previziuni și care sunt cu adevărat posibile cu privire la ceea ce s-ar potrivi cel mai mult în acest context particular, acest client în acest moment în această locație, există o mulțime de vânzări vândute și încrucișate și asta provine din nou de la streaming analytics - să poată lua o decizie de înclinare a ceea ce este probabil ca acest client să cumpere sau să răspundă în acel moment al adevărului, atunci când există o oportunitate. De aceea, îmi place acea imagine pe care Dez a arătat-o ​​cu ursul pe cale de a mânca acel pește. Cam asta e tot.

De asemenea, credem că există o mare categorie de schimbări dramatice și transformaționale într-o întreprindere care oferă produse și servicii complet noi, bazate pur și simplu pe observarea comportamentului clienților, toate bazate pe observarea comportamentului unei alte întreprinderi. Dacă, să zicem, un telco sau o companie de cablu respectând într-adevăr tiparele de utilizare ale clienților în ce segment de piață vizionează, ce program la ce oră, etc., acestea ajung să creeze produse și servicii care sunt aproape cerșite căci într-un fel. Așadar, întregul concept de comportament multi-ecran chiar acum, în care suntem aproape să ne dăm seama că putem vedea conținut TV sau cablu pe aplicațiile noastre mobile. Unele dintre aceste exemple provin din acele produse și servicii noi care ne sunt oferite.

Voi intra în „Care sunt considerentele de arhitectură ale fluxurilor de analiză?” În cele din urmă, încercăm să facem. Aceasta este arhitectura Lambda în care combinați datele istorice și informațiile în timp real și le vedeți în același timp. Asta permite Sigma. Cu toții avem astăzi arhitectura lotului și imaginea întreprinderii. Ne aplecăm într-un fel de stivă de BI și de utilizare și se adaugă arhitectura Lambda. În ceea ce privește stratul de viteză sau nevoia și Lambda, este vorba despre contopirea acelor două perspective și de a vedea asta într-un mod combinat, într-un mod bogat care combină ambele perspective.

Există o altă paradigmă numită arhitectura Kappa, care este propusă în cazul în care conjectura este că stratul de viteză este singurul mecanism de intrare care va persista pe termen mai lung. Totul va trece prin acest strat de viteză. Nici măcar nu va exista un mecanism ETL offline. Tot ETL se va întâmpla. Curățare, curățare date, ETL de calitate - toate acestea se vor întâmpla pe fir, pentru că rețineți că toate datele s-au născut în timp real. La un moment dat, era timpul real. Ne-am obișnuit să punem asta pe lacuri, râuri și oceane, apoi am făcut-o pe analize statice încât am uitat că datele s-au născut la un moment dat în timp real. Toate datele sunt născute de fapt ca un eveniment în timp real care s-a întâmplat în timp și majoritatea datelor de astăzi de pe lac au fost introduse pe baza de date pentru o analiză ulterioară și avem acum avantajul în arhitectura Lambda și Kappa de fapt. văzându-l, analizându-l, prelucrându-l în prealabil și reacționând la el pe măsură ce ajunge. Aceasta este ceea ce este permis de aceste tehnologii. Când o privești ca pe o imagine de ansamblu, seamănă cu așa ceva în care există Hadoop în interior, există MPP-uri și depozite de date pe care le ai deja.

Am pus acest lucru pentru că este important să nu vorbim doar despre noile tehnologii dintr-o insulă. Ei trebuie să se integreze. Trebuie să aibă sens în contextul actual al întreprinderii și, în calitate de furnizori de soluții care servesc întreprinderile, suntem foarte sensibili la acest aspect. Ajutăm întreprinderile să integreze totul. Există surse de date din partea stângă care se alimentează atât în ​​straturile Hadoop și în depozitul de date, cât și în stratul în timp real deasupra și fiecare dintre aceste entități sunt computere stoc, după cum puteți vedea, iar stratul de consum de date este pe dreapta. latură. Există un efort constant pentru a muta majoritatea conformității, guvernanței, securității, gestionării ciclului de viață etc., care este disponibil astăzi, toate au fost adunate în această nouă tehnologie.

Unul din lucrurile pe care încearcă să le facă analiza fluxului, dacă te uiți la peisajul de astăzi, există multe lucruri care se întâmplă în peisajul tehnologiei de streaming și din punct de vedere al clienților din întreprindere, sunt atât de multe de înțeles. Sunt atât de multe pentru a ține pasul. Există mecanisme de colectare a datelor pe partea stângă - NiFi, Logstash, Flume, Sqoop. Evident, am susținut o exonerare de răspundere în care spune că nu este exhaustivă. Intrând în cozile de mesaje și apoi intrând în motoarele de streaming open-source - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron este probabil că nu este încă open source. Nu sunt sigur dacă este, de pe Twitter. Aceste motoare de streaming conduc apoi sau susțin o componentă de aplicație analitică de configurare, cum ar fi procesarea complexă a evenimentelor, învățarea automată, analiza predictivă, modulul de alertă, fluxul ETL, filtre de operații statistice de îmbogățire. Acestea sunt tot ceea ce numim acum operatori. Setul acelor operatori, atunci când sunt conectați, ar putea, de asemenea, să fie oarecum personalizate în mare măsură încheiate, dacă este necesar, devine o aplicație de streaming care rulează pe un motor de streaming.

Ca parte a acestui lanț de componente, trebuie să stocați și să indexați datele în baza de date preferată, indexul preferat. De asemenea, poate fi necesar să distribuiți memoria cache și din nou, ceea ce duce în stratul de vizualizare a datelor din partea dreaptă din partea superioară a produselor comerciale sau a produselor open source, dar în final, aveți nevoie de un fel de produs pentru a vizualiza aceste date în timp real. De asemenea, trebuie să figurați uneori și alte aplicații. Cu toții am văzut că valorile obținute doar prin acțiunea pe care o întreprindeți în acest sens, acea acțiune va fi un declanșator dintr-o stivă analitică într-o altă stivă de aplicații care poate a fost modificată în partea IVR sau poate declanșa un centru de apel. apel de ieșire sau ceva de genul. Trebuie să avem aceste sisteme integrate și un mecanism pentru clusterul dvs. de streaming pentru a declanșa alte aplicații de trimitere a datelor în aval.

Aceasta este stiva generală de la a merge de la stânga la dreapta. Apoi aveți straturile de serviciu, monitorizarea intermediară, nivelul general de securitate, etc. În ceea ce privește produsele care sunt acolo, în spațiul întreprinderii, clienții văd ca distribuții Hadoop, care toate au streaming cum am spus și există un produs comercial sau unic -vindorizăm soluții care sunt evident în concurenții noștri. Există și multe altele în peisajul pe care poate nu l-am menționat aici.

Ceea ce vedeți acolo vede în mare parte utilizatorul întreprinderii. Un peisaj tehnologic complex și cu evoluție rapidă pentru procesarea fluxului, după cum puteți vedea. Trebuie să simplificăm alegerea și experiența utilizatorului. Ceea ce credem că întreprinderile au într-adevăr nevoie este abstracția funcțională a tuturor celor într-o interfață unică, ușor de utilizat, care reunește toate aceste tehnologii care face ușor de utilizat și nu expune toate piesele mobile și probleme de degradare și de performanță și de întreținere a ciclului de viață pentru întreprindere.

Abstracția funcționalității este una. A doua parte este abstractizarea fluxului de motor. Motoarele de streaming și domeniile open-source apar odată la trei, patru sau șase luni acum. Era Furtună mult timp. Samza a venit și acum este Spark Streaming. Flink ridică capul, începând să atragă atenția. Chiar și foaia de parcurs Spark Streaming, ele creează o modalitate de utilizare a unui motor diferit pentru procesarea pură a evenimentelor, deoarece își dau seama, de asemenea, că Spark a fost conceput pentru loturi și creează un mod în viziunea lor de arhitectură și a foii de parcurs pentru a avea un potențial diferit motor pentru procesarea fluxului în plus față de modelul actual de microbatch din Spark Streaming.

Este o realitate la care trebuie să te confrunți cu faptul că va fi o evoluție foarte mare. Chiar trebuie să vă protejați de fluxul tehnologic. Deoarece implicit, va trebui să alegeți unul și apoi să trăiți cu acesta, ceea ce nu este optim. Dacă te uiți la asta într-un alt mod, te lupți între: „bine, trebuie să cumpăr o platformă proprie, unde nu există un blocaj, nu există nici un efect al open source, ar putea fi costuri foarte mari și limitate flexibilitate față de toate aceste teancuri open source unde trebuie să o faceți singur. ”Din nou, așa cum am spus, este mult costul și întârzierea la venirea pe piață. Ceea ce spunem este StreamAnalytix este un exemplu de platformă excelentă, care reunește clasa de întreprindere, furnizor de încredere, unic furnizor, servicii profesionale acceptate - toate acestea de care aveți nevoie cu adevărat ca întreprindere și puterea de flexibilitate a ecosistemului open source unde o singură platformă le reunește - Ingest, CEP, analitice, vizualizare și toate acestea.

De asemenea, face un lucru foarte, foarte unic, care reunește multe motoare diferite de tehnologie sub o singură experiență de utilizator. Credem cu adevărat că viitorul se referă la posibilitatea de a utiliza mai multe motoare de streaming deoarece diferite cazuri de utilizare solicită într-adevăr arhitecturi de streaming diferite. Așa cum a spus Robin, există un spectru întreg de latențe. Dacă vorbești cu adevărat despre un nivel de latență milisecundă, zeci sau chiar sute de milisecunde, ai nevoie de Storm în acest moment, până când există un alt produs la fel de matur, pentru un interval de timp mai scăzut sau indulgent și latențe de aproximativ două secunde, trei, patru, cinci secunde, acea gamă, apoi puteți utiliza Spark Streaming. Potențial, există și alte motoare care ar putea face ambele. Linia de jos, într-o întreprindere mare, vor exista cazuri de utilizare de tot felul. Vrei într-adevăr ca accesul și generalitatea să aibă mai multe motoare cu o singură experiență de utilizator și asta încercăm să construim în StreamAnalytix.

Doar o privire rapidă asupra arhitecturii. Vom reface puțin acest lucru, dar, în esență, există mai multe surse de date care vin pe partea stângă - Kafka, RabbitMQ, Kinesis, ActiveMQ, toate acele surse de date și cozi de mesaje care vin pe platforma de procesare a fluxului. veți ajunge să asamblați o aplicație, unde puteți trage și arunca de la operatori precum ETL-urile, toate lucrurile despre care am vorbit. În dedesubt, există mai multe motoare. În momentul de față, avem Streaming Storm și Spark ca fiind singura și prima platformă de streaming de clasa a întreprinderilor care are mai mult suport motor. Aceasta este o flexibilitate foarte unică pe care o oferim, pe lângă toate celelalte flexibilități de a avea tablouri de bord în timp real. Motor CET încorporat. Avem integrarea perfectă cu indexurile Hadoop și NoSQL, Solr și Apache. Puteți ateriza la baza dvs. de date preferată, indiferent de ce este vorba și puteți construi aplicații într-adevăr rapid și puteți ajunge pe piață într-adevăr rapid și să rămâneți doveditori viitori. Aceasta este întreaga noastră mantră în StreamAnalytix.

Cu asta, cred că îmi voi încheia observațiile. Nu ezitați să veniți la noi pentru mai multe întrebări. Aș dori să mențin cuvântul deschis pentru întrebări și întrebări și discuții.

Rebecca, peste tine.

Rebecca Jozwiak: Bine, bine. Mulțumesc mult. Dez și Robin, aveți câteva întrebări înainte de a le transmite publicului Q&A?

Robin Bloor: Am o întrebare. Îmi voi pune căștile înapoi ca să mă auzi. Unul dintre lucrurile interesante, dacă ai putea să-mi spui cu drag, asta din ceea ce am văzut în spațiul open-source arată ceea ce mi-aș spune imatur. Într-un anumit sens, da, poți face diverse lucruri. Dar se pare că ne uităm la software în prima sau a doua versiune în realitate și mă întrebam doar cu experiența dvs. ca organizație, cât de mult vedeți imaturitatea mediului Hadoop ca fiind problematică sau este ceva care nu face asta? nu creați prea multe probleme?

Anand Venugopal: Este o realitate, Robin. Ai dreptate. Imaturitatea nu se află neapărat în domeniul stabilității funcționale și al lucrurilor, dar poate și în unele cazuri. Dar imaturitatea este mai degrabă pregătită de utilizare. Produsele open-source pe măsură ce ies și chiar în condițiile în care sunt oferite de distribuția Hadoop, toate sunt o mulțime de produse capabile diferite, componente doar prinse între ele. Acestea nu funcționează perfect și nu sunt concepute pentru o experiență fără probleme de utilizator pe care o vom obține ca Bank of America sau Verizon sau AT&T, pentru a implementa o aplicație de analiză în streaming în câteva săptămâni. Nu sunt concepute pentru asta cu siguranță. Acesta este motivul pentru care intrăm. Îl reunim și îl facem ușor de înțeles, de desfășurat etc.

Cred că într-o mare măsură există maturitatea funcțională a acesteia. Multe companii mari folosesc, de exemplu, furtuna astăzi. Multe companii mari joacă astăzi cu Spark Streaming. Fiecare dintre aceste motoare are limitările lor în ceea ce pot face, de aceea este important să știți ce puteți și ce nu puteți face cu fiecare motor și nu are rost să vă spargeți capul de perete și să spuneți: „Uite eu am ales Spark Streaming și nu funcționează pentru mine în această industrie anume. ”Nu va merge. Vor exista cazuri în care Spark Streaming va fi cea mai bună opțiune și vor exista cazuri în care Spark Streaming nu poate funcționa deloc pentru dvs. De aceea aveți nevoie cu adevărat de mai multe opțiuni.

Robin Bloor: Ei bine, trebuie să aveți echipe de experți la bord pentru cea mai mare parte a acestui lucru. Adică nici nu știu de unde să încep asta. O cooperare sensibilă a persoanelor calificate. Ma intereseaza modul in care te implici si cum se intampla. Se datorează faptului că o anumită companie este după o anumită aplicație sau vedeți un fel de ceea ce aș numi adopția strategică unde doresc o întreagă platformă să facă o mulțime de lucruri.

Anand Venugopal: vedem exemple ale ambelor, Robin. Unele dintre primele zece mărci pe care le știe toată lumea se ocupă într-un mod foarte strategic. Ei știu că vor avea o varietate de cazuri de utilizare, așa că evaluează platforme care să se potrivească acestei nevoi, care este o varietate de cazuri de utilizare diferite, într-o manieră multi-chiriași, care să fie dislocate într-o întreprindere. Există și povești de caz de unică utilizare, care încep și ele. Există un anumit caz de utilizare de tip de monitorizare a activității de afaceri într-o companie de credit ipotecar, pe care lucrăm pe care nu ți-ai imagina-o ca fiind cazul pentru prima utilizare, dar acesta este soluția de business sau cazul de utilizare cu care au apărut și apoi am conectat punctele la streaming . Am spus: „Știi ce? Acesta este un caz excelent pentru fluxurile de analiză și acesta este modul în care îl putem implementa. ”Așa a început. Apoi, în acest proces, ei sunt educați și spun: „Oh, wow, dacă putem face acest lucru și dacă aceasta este o platformă generică, atunci putem separa aplicația, stratifica-le în platformă și construi o mulțime de aplicații diferite pe aceasta platformă."

Robin Bloor: Dez, ai întrebări?

Anand Venugopal: Dez este probabil mut.

Dez Blanchfield: Scuze, mut. Eu am avut doar o conversație bună. Doar urmărind observația inițială a lui Robin, ești absolut corect. Cred că acum provocarea constă în faptul că întreprinderile au un ecosistem și un mediu cultural și comportamental în care software-ul gratuit și open-source este ceva care le este cunoscut și sunt capabili să utilizeze instrumente precum Firefox ca browser și a avut un sistem decent durata de viață până devine stabil și sigur. Însă unele dintre aceste platforme foarte mari pe care le folosesc sunt platforme proprietare de tip business. Așadar, adoptarea a ceea ce consider eu platforme open-source nu este întotdeauna ceva care le este ușor să se descurce cultural sau emoțional. Am văzut acest lucru doar prin adoptarea unor programe mici care erau proiecte locale pentru a juca doar cu date și analize mari ca un concept fundamental. Cred că una dintre provocările cheie, sunt sigur că le-ați văzut acum în cadrul organizațiilor, este dorința lor de a obține rezultatul, dar, în același timp, cu un picior blocat în vechea cutie de unde ar putea cumpăra asta de la „Introduceți o marcă mare” Oracle, IBM și Microsoft. Aceste branduri noi și cunoscute vin prin intermediul platformelor Hadoop și chiar mai mult. Branduri mai interesante vin prin intermediul tehnologiei de vârf precum fluxul.

Care sunt tipurile de conversații pe care le-ați obținut sau le-ați tranșat? Știu că avem o prezență masivă în această dimineață și un lucru pe care sunt sigur că este în mintea tuturor este „Cum pot să parcurg întregul strat provocator de la bord până la nivelul de conducere, oh este sursa prea deschisă și marginea prea sângerătoare? „Cum au loc conversațiile pe care le aveți cu clienții și cum vă descurcați până în acel punct în care aveți un fel de a calma aceste tipuri de temeri pentru a lua în considerare adoptarea like-urilor StreamAnalytix?

Anand Venugopal: De fapt, considerăm că este destul de ușor să ne vindem propunerea de valoare, deoarece clienții se îndreaptă în mod natural către open source ca opțiune preferată. Nu renunță cu ușurință și spun: „Bine, acum voi merge open source.” De fapt, trec printr-o evaluare foarte angajată a unui produs major, să zicem că este un IBM sau un produs tipic, pentru că au aceste relații de vânzători. Ei nu ne-ar trata sau motorul open-source împotriva acelui produs. Vor trece prin șase până la opt până la douăsprezece săptămâni de evaluare. Ei se vor convinge că aici vreau un anumit nivel de performanță și stabilitate, iar apoi se gândesc să spună: „Uau, știi ce, pot efectua asta”.

Astăzi, de exemplu, avem un telco mai important de nivel, care are fluxuri de analiză care funcționează în producție pe o mulțime de stive și evaluează asta față de un alt vânzător foarte cunoscut și foarte mare și au fost convinși abia după ce am demonstrat tot performanța, stabilitatea și toate aceste lucruri. Nu o iau de la sine. Ei au descoperit că sursa deschisă este competentă prin evaluările lor și își dau seama că, cel mai rău caz, „Poate că sunt acele două cazuri de utilizare pe care, poate, nu le pot face, dar cele mai multe dintre firmele mele de accelerare a cazurilor de utilizare sunt astăzi eminamente posibile cu open-source stivă. ”Și activăm utilizarea acesteia. Deci acesta este marele punct dulce chiar acolo. Ei doreau open source. Chiar caută să iasă din situația de blocare a vânzătorului cu care au fost obișnuiți mulți, mulți ani. Apoi venim și spunem: „Știi ce, vom face open source mult, mult mai ușor și mai ușor de utilizat pentru tine.”

Dez Blanchfield: Cred că cealaltă provocare pe care o găsesc întreprinderile este că atunci când aduc tradiționalele tradiționale, acestea sunt adesea o generație în spatele unora dintre marginea sângerării a lucrurilor interesante despre care vorbim aici și nu vreau să spun asta ca negativ ușor. Doar că realitatea este că au o generație și o călătorie de parcurs pentru a lansa ceea ce consideră platforme stabile prin care vor trece, dezvoltarea vechilor școli și cicluri de integrare și testare și documentare UATN, precum și marketing și vânzări. În timp ce, de tipul pe care îl faceți, cred că lucrul la care sunt interesat să mă gândesc este acela că analizând unele dintre cele mai recente versiuni ale voastre, aseară, faceți un fel de lucrări de cercetare, aveți acest amestec acum unde aveți competență din punct de vedere al consultanței în avans și a unei implementări, dar ai și un teanc pe care îl poți reda. Cred că aici se vor lupta pentru un timp. Am văzut multe dintre ele ca și mine pe piață. Ele sunt adesea în ceea ce numesc noduri captive, în timp ce din ceea ce ne spuneți atunci când sunteți acolo, faceți acele conversații și sunteți acolo punând în aplicare.

Ne puteți oferi câteva exemple despre unele dintre verticalele de frontieră pe care le-ați văzut în adopție? De exemplu, există un mediu cu adevărat de top precum știința rachetelor și punerea sateliților în spațiu și colectarea datelor de pe Marte. Există doar o mână de oameni care fac asta pe planetă. Există însă verticale mari precum sănătatea, de exemplu, în aeronautică, în transport maritim și logistică, în fabricație și inginerie, care sunt câteva exemple ale sectoarelor mai mari și mai ample ale industriei pe care le-ați văzut până acum. adopția în?

Anand Venugopal: Telco este un mare exemplu.

O să îmi rezolv rapid diapozitivele aici. Puteți vedea diapozitivul aici, studiul de caz 4?

Acesta este un caz al unei telco-uri mari care ingerează date set-top box și face mai multe lucruri cu acesta. Se uită la ce fac clienții cu adevărat în timp real. Ei analizează locurile în care se întâmplă erori în timp real în set-top box-uri. Încearcă să informeze centrul de apel, dacă acest client apelează chiar acum, informațiile despre legătura de cod din caseta set-top a acestui client, informațiile despre biletul de întreținere corelează rapid dacă set-top-ul clientului respectiv are o problemă sau nu chiar înainte clientul rostește un cuvânt. Fiecare companie de cablu, fiecare telecomanda majoră încearcă să facă acest lucru. Ingeresc set-top box-urile, fac analize în timp real, fac analize de campanie pentru a-și putea plasa reclame. Există un caz de utilizare uriaș.

După cum am spus, există această companie ipotecară, care este din nou un model generic în care sisteme mari sunt implicate în procesarea datelor de la. Datele care circulă prin sistemul A către sistemul B către sistemul C, iar acestea sunt afaceri reglementate, încât totul trebuie să fie consecvent. Adesea, sistemele se sincronizează între ele, un sistem spune: „Procesez o sută de împrumuturi cu o valoare totală de 10 milioane USD”. Sistemul spune: „Nu, procesez 110 împrumuturi ale unora număr diferit. ”Ei trebuie să rezolve asta într-adevăr rapid, deoarece de fapt prelucrează aceleași date și fac interpretări diferite.

Fie că este vorba despre un card de credit, procesare de împrumut, proces de afaceri sau dacă este vorba despre un proces de afaceri ipotecar sau altceva, îi ajutăm să facă corelație și reconciliere în timp real pentru a ne asigura că acele procese de afaceri rămân sincronizate. Acesta este un alt caz interesant de utilizare. Există un antreprenor major al guvernului american care se uită la traficul DNS pentru a depista anomalie. Există un model de formare offline pe care l-au construit și efectuează punctajul pe baza acelui model de trafic în timp real. Unele dintre aceste cazuri de utilizare interesante. Există o companie aeriană majoră care se uită la cozile de securitate și încearcă să vă ofere acea informație care, „Hei, este poarta pentru avionul dvs. pentru zborul dvs. Azi coada TSA este de aproximativ 45 de minute față de două ore față de altceva. ”Obțineți această actualizare în avans. Încă lucrează la asta. Cauza interesantă de utilizare a IoT, dar un caz excelent de streaming de analitice îndreptându-se către experiența clientului.

Rebecca Jozwiak: Aceasta este Rebecca. În timp ce sunteți pe tema cazurilor de utilizare, există o mare întrebare din partea unui membru al audienței care se întreabă: „Sunt studiile de caz, aceste inițiative sunt conduse din partea analitică a sistemelor informaționale ale casei sau sunt mai mult conduse de afacerea care are în minte întrebări sau nevoi specifice? ”

Anand Venugopal: Cred că vedem aproximativ 60 la sută, 50 la 55 la sută, în mare parte inițiativele tehnologice foarte proactive, entuziaste care se cunosc, care se întâmplă să fie destul de înțelepte și să înțeleagă anumite cerințe de afaceri și probabil au un sponsor pe care identificate, dar acestea sunt echipe tehnologice care se pregătesc pentru atacul cazurilor de utilizare a întreprinderilor și apoi odată ce își construiesc capacitatea, știu că pot face acest lucru și apoi merg la afaceri și vând agresiv acest lucru. În 30% până la 40% din cazuri, observăm că afacerile au deja un caz de utilizare special, care cerșește o capacitate de analiză în flux.

Rebecca Jozwiak: Asta are sens. Am primit o altă întrebare ceva mai mult tehnică de la un membru al audienței. Se întreabă dacă aceste sisteme acceptă fluxuri de date atât structurate cât și nestructurate, cum ar fi sedimentele fluxurilor Twitter sau postările Facebook în timp real sau trebuie inițial filtrate?

Anand Venugopal: Produsele și tehnologiile despre care vorbim susțin foarte iminent atât date structurate cât și date nestructurate. Pot fi configurate. Toate datele au un fel de structură, fie că este vorba de un text, un XML sau ceva deloc. Există o anumită structură în ceea ce privește existența unui flux de timbru. Este posibil să existe un alt blob care trebuie analizat, astfel încât să puteți injecta păsări în flux pentru a analiza structurile de date. Dacă este structurat, atunci spunem doar sistemului: „Bine, dacă există valori separate de virgulă, iar prima este o șir, a doua este o dată”. Deci, putem injecta acea inteligență de analiză în straturile ascendente și prelucrează cu ușurință atât date structurate cât și nestructurate.

Rebecca Jozwiak: Am o altă întrebare din partea publicului. Știu că am trecut puțin peste vârful orei. Acest participant dorește să știe, se pare că aplicațiile de streaming în timp real pot dezvolta atât o nevoie cât și o oportunitate pentru integrarea din nou în sistemele de tranzacții, de exemplu sistemele de prevenire a fraudei. În acest caz, trebuie ajustate sistemele de tranzacții pentru a se potrivi cu asta?

Anand Venugopal: Este o contopire, nu? Este o îmbinare a sistemelor de tranzacții. Ele devin uneori sursa de date în care analizăm tranzacțiile în timp real și, în multe cazuri, să zicem că există un flux de aplicații și aici încerc să arăt un site static de căutare a datelor și apoi în cazul nostru, unde un fel de streaming în și căutați o bază de date statică precum un HBase sau un RDBMS pentru a îmbogăți datele de streaming și datele statice împreună pentru a lua o decizie sau o perspectivă analitică.

Există și o altă tendință a industriei mari pe care o vedem și noi - convergența OLAP și OLTP - și de aceea aveți baze de date precum Kudu și baze de date în memorie care susțin atât tranzacții cât și procesare analitică în același timp. Stratul de procesare a fluxului va fi complet în memorie și vom analiza sau interfața cu unele dintre aceste baze de date tranzacționale.

Rebecca Jozwiak: Cred că volumul de muncă mixt a fost unul dintre ultimele obstacole în salt. Dez, Robin, mai ai două întrebări?

Dez Blanchfield: O să trec într-o ultimă întrebare și mă voi rezuma la asta dacă nu te deranjează. Prima provocare cu care organizațiile cu care m-am confruntat în ultimul deceniu au dus la această provocare interesantă a analizelor de fluxuri, primul lucru pe care tind să îl pună din nou pe masă atunci când am început conversația în jurul întregii provocări este unde obținem setul de abilități? Cum reîncercăm setul de abilități și cum obținem această capacitate pe plan intern? Faptul că Impetus intră și mâna ne ține prin călătorie și apoi implementează ca un prim pas minunat și are foarte mult sens să faci asta.

Dar pentru o organizație medie până la mare, care sunt tipurile de lucruri pe care le vedeți în acest moment pentru a vă pregăti pentru acest lucru, pentru a construi această capacitate internă, pentru a obține orice dintr-un vocabular de bază în jurul ei și cu ce mesaj pot face organizația din jurul trecerii la acest tip de cadru și preluarea personalului tehnic existent de la IT de la CEO, astfel încât să poată rula acest lucru o dată ce îl construiți și îl implementați? Doar foarte pe scurt, ce fel de provocări și cum le rezolvă, clienții cu care aveți de-a face, tipurile de provocări pe care le-au găsit și cum trec prin rezolvarea acestei recalificări și recâștigarea experienței și a cunoștințelor pentru a vă pregăti pentru acest lucru și a fi capabil să ocoliți operațional?

Anand Venugopal: Adesea, micul grup de oameni care încearcă să iasă și să cumpere o platformă de analiză de streaming este deja destul de inteligent, prin faptul că sunt conștienți de Hadoop, și-au dobândit deja abilitățile Hadoop MapReduce și pentru că lucrează strâns cu Hadoop furnizor de distribuție, ei sunt fie familiari. Totul obține Kafka, de exemplu. Ei fac ceva cu ea și fie Storm, fie Spark streaming este în domeniul lor open-source. Cu siguranță, oamenii sunt familiarizați cu acesta sau își dezvoltă abilități în jurul său. Dar începe cu un set mic de oameni suficient de pricepuți și suficient de deștepți. Participă la conferințe. Învață și își pun întrebări inteligente vânzătorilor și, în unele cazuri, învață împreună cu furnizorii. Pe măsură ce vânzătorii vin și se prezintă la prima ședință, este posibil să nu știe lucruri, dar co-citesc și apoi încep să joace cu ea.

Acest grup mic de oameni este nucleul și apoi începe să crească și toată lumea își dă seama acum că primul caz de utilizare a afacerilor este operaționalizat. Începe un val și am văzut în summit-ul Spark săptămâna trecută, unde o întreprindere mare ca Capital One era acolo și în plină putere. Au optat Spark. Vorbeau despre asta. Își educă o mulțime de oameni în Spark, deoarece contribuie la ea, de asemenea, în multe cazuri, ca utilizator. La fel se întâmplă și cu multe întreprinderi mari. Începe cu câteva seturi mici de oameni foarte deștepți, apoi începe un val de educație generală, iar oamenii știu că odată ce un VP senior sau o dată un director senior se aliniază și vor să parieze pe acest lucru și cuvântul devine în jur și toți încep să ridice aceste abilități.

Dez Blanchfield: Sunt sigur că aveți și un timp fantastic construind și acești campioni.

Anand Venugopal: Da. Facem multă educație în timp ce lucrăm cu campionii inițiali și organizăm cursuri de pregătire și multe, multe pentru clienții noștri mari pe care ne-am întors și am avut valuri și valuri de pregătire pentru a aduce o mulțime de utilizatori în faza de utilizare a curentului, în special pe site-ul Hadoop MapReduce. Am constatat că într-o companie mare de carduri de credit, care este clientul nostru, am livrat cel puțin cinci-opt programe de pregătire diferite. Avem, de asemenea, ediții gratuite ale comunității pentru toate aceste produse, inclusiv ale noastre, cutii de nisip pe care oamenii le pot descărca, obișnui și să se educe în acest fel.

Dez Blanchfield: Asta e tot ce am azi dimineață pentru tine. Mulțumesc foarte mult. Mi se pare incredibil de interesant să vezi tipurile de modele și cazurile de utilizare pe care le-ai obținut astăzi pentru noi. Mulțumesc.

Anand Venugopal: Mare. Mulțumesc mult oameni buni.

Rebecca Jozwiak: Mulțumesc tuturor că ne-am alăturat acestui webcast Hot Technologies. A fost fascinant să aud de la Dez Blanchfield, Dr. Robin Bloor și de la Impetus Technologies, Anand Venugopal. Vă mulțumim prezentatori Mulțumesc vorbitorilor și mulțumesc audienței. Avem un alt Hot Technologies luna viitoare, așa că uitați-vă la asta. Puteți găsi întotdeauna conținutul nostru arhivat pe Insideanalysis.com. De asemenea, punem mult conținut pe SlideShare și câteva biți interesante și pe YouTube.

Asta sunt oameni buni. Mulțumesc din nou și aveți o zi bună. Pa! Pa.

Exploatarea firehose: obținerea valorii de business din analiza streaming: transcriere webinar