Cuprins:
Definiție - Ce înseamnă Apache Pig?
Apache Pig este o platformă care este folosită pentru a analiza seturi mari de date. Este format dintr-un limbaj la nivel înalt pentru a exprima programe de analiză a datelor, împreună cu infrastructura pentru a evalua aceste programe. Una dintre cele mai semnificative caracteristici ale Porcilor este că structura sa răspunde la o paralelizare semnificativă.
Pig operează pe platforma Hadoop, scrie date și citind date din sistemul de fișiere distribuite Hadoop (HDFS) și efectuând procesarea cu una sau mai multe joburi MapReduce. Apache Pig este disponibil ca sursă deschisă.
Porcul Apache este, de asemenea, cunoscut sub numele de limbă de programare a porcilor sau Hadoop Pig.
Techopedia explică Apache Pig
Porcul Apache are două părți: Porcul Limba latină și motorul Porc. Limba Latin Pig este un limbaj de script care permite utilizatorilor să ilustreze modul în care curgerea datelor dintr-una sau mai multe intrări trebuie citite și procesate, precum și locația în care trebuie stocate.
Unele dintre proprietățile cheie ale Latin Latin Pig sunt următoarele:
- Ușor de programat: Sarcinile complexe constând în diverse transformări de date interconectate sunt codate clar ca secvențe de flux de date. Acest lucru le face simple să scrie, să înțeleagă și să întrețină.
- Posibilități de optimizare: Modul în care sunt codificate sarcinile permite sistemului să optimizeze execuția automată. Acest lucru permite utilizatorului să acorde atenție semanticii în loc de eficiență.
- Extensibilitate: utilizatorilor li se permite să-și creeze propriile funcții pentru efectuarea procesării cu scop special. Motorul Pig este responsabil pentru execuția fluxului de date scris în Pig Latin. La fel ca un sistem standard de gestionare a bazelor de date relaționale (RDBMS), Apache Pig este format dintr-un analizor, un optimizator și un verificator de tip, pe lângă operatorii care efectuează procesarea datelor. Porcul nu include tranzacții, un catalog de date sau posibilitatea de a gestiona direct stocarea datelor sau de a folosi cadrul de execuție.