Instalējiet Apache Hadoop uz Ubuntu 17.10!

Apache Hadoop ir liels datu risinājums liela apjoma datu glabāšanai un analīzei. Šajā rakstā mēs sīki aprakstīsim Apache Hadoop sarežģītās iestatīšanas darbības, lai pēc iespējas ātrāk sāktu darbu ar Ubuntu. Šajā ziņojumā mēs instalēsim Apache Hadoop uz Ubuntu 17.10 mašīna.

Ubuntu versija

Šajā rokasgrāmatā mēs izmantosim Ubuntu 17. versiju.10 (GNU / Linux 4.13.0-38-vispārīgs x86_64).

Esošo pakotņu atjaunināšana

Lai sāktu Hadoop instalēšanu, ir jāatjaunina mūsu mašīna ar jaunākajām pieejamajām programmatūras pakotnēm. Mēs to varam izdarīt ar:

sudo apt-get update && sudo apt-get -y dist-upgrade

Tā kā Hadoop pamatā ir Java, mums tas ir jāinstalē mūsu mašīnā. Mēs varam izmantot jebkuru Java versiju virs Java 6. Šeit mēs izmantosim Java 8:

sudo apt-get -y instalējiet openjdk-8-jdk-headless

Hadoop failu lejupielāde

Visas nepieciešamās paketes tagad ir mūsu mašīnā. Mēs esam gatavi lejupielādēt nepieciešamos Hadoop TAR failus, lai mēs varētu sākt tos iestatīt un palaist programmas paraugu arī ar Hadoop.

Šajā rokasgrāmatā mēs instalēsim Hadoop v3.0.1. Lejupielādējiet atbilstošos failus ar šo komandu:

wget http: // spogulis.cc.Kolumbija.edu / krogs / programmatūra / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.darva.gz

Atkarībā no tīkla ātruma tas var aizņemt dažas minūtes, jo fails ir liels:

Hadoop lejupielāde

Šeit atrodiet jaunākos Hadoop bināros failus. Tagad, kad mums ir lejupielādēts TAR fails, mēs varam iegūt pašreizējā direktorijā:

darva xvzf hadoop-3.0.1.darva.gz

Tas aizņems dažas sekundes, jo arhīvā ir liels faila lielums:

Hadoop atarhivēts

Pievienoja jaunu Hadoop lietotāju grupu

Tā kā Hadoop darbojas, izmantojot HDFS, jauna failu sistēma var izjaukt mūsu pašu failu sistēmu arī Ubuntu mašīnā. Lai izvairītos no šīs sadursmes, mēs izveidosim pilnīgi atsevišķu lietotāju grupu un piešķirsim to Hadoop, lai tajā būtu savas atļaujas. Mēs varam pievienot jaunu lietotāju grupu ar šo komandu:

pievienošanas grupa hadoop

Mēs redzēsim kaut ko līdzīgu:

Hadoop lietotāju grupas pievienošana

Mēs esam gatavi pievienot jaunu lietotāju šai grupai:

useradd -G hadoop hadoopuser

Lūdzu, ņemiet vērā, ka visas mūsu vadītās komandas ir pašas root lietotnes. Ar komandu aove mēs varējām pievienot jaunu lietotāju izveidotajai grupai.

Lai Hadoop lietotājs varētu veikt darbības, mums jānodrošina arī root piekļuve. Atveriet / etc / sudoers failu ar šo komandu:

sudo visudo

Pirms kaut ko pievienojam, fails izskatīsies šādi:

Sudoers failu pirms kaut ko pievienot

Faila beigās pievienojiet šādu rindu:

hadoopuser ALL = (VISI) VISI

Tagad fails izskatīsies šādi:

Sudoers fails tiek pievienots pēc Hadoop lietotāja

Tas bija galvenais iestatījums, lai Hadoop nodrošinātu platformu darbību veikšanai. Mēs tagad esam gatavi iestatīt viena mezgla Hadoop kopu.

Hadoop viena mezgla iestatīšana: atsevišķs režīms

Runājot par Hadoop reālo spēku, tas parasti tiek iestatīts vairākos serveros, lai tas varētu mērogot lielu daudzumu datu kopas, kas atrodas Hadoop izplatītā failu sistēma (HDFS). Parasti tas ir labi ar atkļūdošanas vidēm un netiek izmantots ražošanas vajadzībām. Lai process būtu vienkāršs, mēs paskaidrosim, kā mēs šeit varam veikt viena mezgla iestatīšanu Hadoop.

Kad būsim pabeiguši Hadoop instalēšanu, mēs arī palaidīsim Hadoop lietojumprogrammas paraugu. No šī brīža Hadoop fails tiek nosaukts kā hadoop-3.0.1. pārdēvēsim to par hadoop vienkāršākai lietošanai:

mv hadoop-3.0.1 hadoop

Tagad fails izskatās šādi:

Kustīgais Hadoops

Laiks izmantot iepriekš izveidoto hadoop lietotāju un piešķirt šim failam īpašumtiesības:

chown -R hadoopuser: hadoop / root / hadoop

Labāka Hadoop atrašanās vieta būs / usr / local / direktorija, tāpēc pārvietosim to tur:

mv hadoop / usr / local /
cd / usr / local /

Hadopa pievienošana ceļam

Lai izpildītu Hadoop skriptus, mēs tos tagad pievienosim ceļam. Lai to izdarītu, atveriet failu bashrc:

vi ~ /.bashrc

Pievienojiet šīs rindas saraksta beigām .bashrc failu, lai ceļš varētu saturēt izpildāmā Hadoop faila ceļu:

# Konfigurējiet Hadoop un Java Home
eksportēt HADOOP_HOME = / usr / local / hadoop
eksportēt JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
eksportēt PATH = $ PATH: $ HADOOP_HOME / bin

Fails izskatās šādi:

Hadopa pievienošana ceļam

Tā kā Hadoop izmanto Java, mums jāpasaka Hadoop vides fails hadoop-env.sh kur tā atrodas. Šī faila atrašanās vieta var atšķirties atkarībā no Hadoop versijām. Lai viegli atrastu, kur atrodas šis fails, palaidiet šo komandu tieši ārpus Hadoop direktorija:

atrast hadoop / -nosaukums hadoop-env.sh

Mēs iegūsim faila atrašanās vietas izvadi:

Vides faila atrašanās vieta

Rediģēsim šo failu, lai informētu Hadoop par Java JDK atrašanās vietu, un ievietojiet to faila pēdējā rindiņā un saglabājiet to:

eksportēt JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

Hadoop instalēšana un iestatīšana tagad ir pabeigta. Mēs esam gatavi palaist mūsu parauga lietojumprogrammu tūlīt. Bet pagaidiet, mēs nekad neesam izveidojuši pieteikuma paraugu!

Parauga lietojumprogrammas palaišana ar Hadoop

Patiesībā Hadoop instalēšana tiek nodrošināta ar iebūvētu parauga lietojumprogrammu, kas ir gatava darbam, tiklīdz esam pabeiguši Hadoop instalēšanu. Izklausās labi, pareizi?

Palaidiet šo komandu, lai palaistu JAR piemēru:

hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-piemēri-3.0.1.burku vārdu skaits / root / hadoop / README.txt / root / Output

Hadoop parādīs, cik lielu apstrādi tas veica mezglā:

Hadoop apstrādājot statistiku

Kad esat izpildījis šo komandu, mēs redzam failu part-r-00000 kā izvadi. Iet uz priekšu un apskatiet izejas saturu:

kaķu daļa-r-00000

Jūs saņemsiet kaut ko līdzīgu:

Hadoop izlaida vārdu skaitu

Secinājums

Šajā nodarbībā mēs apskatījām, kā mēs varam instalēt un sākt izmantot Apache Hadoop Ubuntu 17.10 mašīna. Hadoop ir lieliski piemērots, lai uzglabātu un analizētu lielu daudzumu datu, un es ceru, ka šis raksts palīdzēs jums ātri sākt to izmantot Ubuntu.