Cuprins:
Definiție - Ce înseamnă Apache Nutch?
Apache Nutch este un produs software cu crawler web care poate fi utilizat pentru a agrega date de pe web. Este utilizat împreună cu alte instrumente Apache, precum Hadoop, pentru analiza datelor.
Techopedia explică Apache Nutch
Apache Nutch este un produs open-source autorizat de Apache Software Foundation. Această comunitate de dezvoltatori deține licențe pentru o serie de instrumente software Apache care pot sorta și analiza date. Una dintre tehnologiile centrale este Apache Hadoop, un instrument de analiză a datelor mari, foarte popular în comunitatea de afaceri.
Alături de instrumente precum Apache Hadoop și funcții pentru stocarea, analiza și multe altele, rolul Nutch este de a colecta și de a stoca date de pe web prin utilizarea algoritmilor de crawling web.
Utilizatorii pot profita de comenzile simple din Apache Nutch pentru a colecta informații sub URL-uri. Utilizatorii utilizează de obicei Apache Nutch împreună cu un alt instrument open-source, un cadru numit Apache Solr, care poate acționa ca un depozit pentru datele colectate cu Apache Nutch.
