Cuprins:
Apache Hadoop a fost baza pentru aplicații de date mari de mult timp și este considerată platforma de date de bază pentru toate ofertele legate de date mari. Cu toate acestea, baza de date în memorie și calculul câștigă popularitate din cauza performanței mai rapide și a rezultatelor rapide. Apache Spark este un cadru nou care folosește capabilități în memorie pentru a oferi o procesare rapidă (de aproape 100 de ori mai rapid decât Hadoop). Deci, produsul Spark este folosit din ce în ce mai mult într-o lume cu date mari și în principal pentru o procesare mai rapidă.
Webinar: Puterea sugestiei: modul în care un catalog de date împuternicește analistii Înregistrează-te aici |
Ce este Apache Spark?
Apache Spark este un cadru open-source pentru procesarea unor volume uriașe de date (date mari) cu viteză și simplitate. Este potrivit pentru aplicații de analiză bazate pe date mari. Scânteia poate fi folosită cu un mediu Hadoop, autonom sau în nor. A fost dezvoltat la Universitatea din California, iar ulterior a fost oferit Apache Software Foundation. Astfel, aparține comunității open-source și poate fi foarte rentabil, ceea ce permite în continuare dezvoltatorilor amatori să lucreze cu ușurință. (Pentru a afla mai multe despre sursa deschisă a lui Hadoop, consultați Care este influența surselor deschise asupra ecosistemului Apache Hadoop?)
Scopul principal al Spark este acela că oferă dezvoltatorilor un cadru de aplicații care funcționează în jurul unei structuri de date centrate. Spark este, de asemenea, extrem de puternic și are capacitatea înnăscută de a prelucra rapid cantități masive de date într-un interval scurt de timp, oferind astfel performanțe extrem de bune. Acest lucru îl face mult mai rapid decât ceea ce se spune că este cel mai apropiat concurent al său, Hadoop.