Apache Hadoop ir liels datu risinājums liela apjoma datu glabāšanai un analīzei. Šajā rakstā mēs sīki aprakstīsim Apache Hadoop sarežģītās iestatīšanas darbības, lai pēc iespējas ātrāk sāktu darbu ar Ubuntu. Šajā ziņojumā mēs instalēsim Apache Hadoop uz Ubuntu 17.10 mašīna.
Ubuntu versija
Šajā rokasgrāmatā mēs izmantosim Ubuntu 17. versiju.10 (GNU / Linux 4.13.0-38-vispārīgs x86_64).
Esošo pakotņu atjaunināšana
Lai sāktu Hadoop instalēšanu, ir jāatjaunina mūsu mašīna ar jaunākajām pieejamajām programmatūras pakotnēm. Mēs to varam izdarīt ar:
sudo apt-get update && sudo apt-get -y dist-upgradeTā kā Hadoop pamatā ir Java, mums tas ir jāinstalē mūsu mašīnā. Mēs varam izmantot jebkuru Java versiju virs Java 6. Šeit mēs izmantosim Java 8:
sudo apt-get -y instalējiet openjdk-8-jdk-headlessHadoop failu lejupielāde
Visas nepieciešamās paketes tagad ir mūsu mašīnā. Mēs esam gatavi lejupielādēt nepieciešamos Hadoop TAR failus, lai mēs varētu sākt tos iestatīt un palaist programmas paraugu arī ar Hadoop.
Šajā rokasgrāmatā mēs instalēsim Hadoop v3.0.1. Lejupielādējiet atbilstošos failus ar šo komandu:
wget http: // spogulis.cc.Kolumbija.edu / krogs / programmatūra / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.darva.gzAtkarībā no tīkla ātruma tas var aizņemt dažas minūtes, jo fails ir liels:
Hadoop lejupielāde
Šeit atrodiet jaunākos Hadoop bināros failus. Tagad, kad mums ir lejupielādēts TAR fails, mēs varam iegūt pašreizējā direktorijā:
darva xvzf hadoop-3.0.1.darva.gzTas aizņems dažas sekundes, jo arhīvā ir liels faila lielums:
Hadoop atarhivēts
Pievienoja jaunu Hadoop lietotāju grupu
Tā kā Hadoop darbojas, izmantojot HDFS, jauna failu sistēma var izjaukt mūsu pašu failu sistēmu arī Ubuntu mašīnā. Lai izvairītos no šīs sadursmes, mēs izveidosim pilnīgi atsevišķu lietotāju grupu un piešķirsim to Hadoop, lai tajā būtu savas atļaujas. Mēs varam pievienot jaunu lietotāju grupu ar šo komandu:
pievienošanas grupa hadoopMēs redzēsim kaut ko līdzīgu:
Hadoop lietotāju grupas pievienošana
Mēs esam gatavi pievienot jaunu lietotāju šai grupai:
useradd -G hadoop hadoopuserLūdzu, ņemiet vērā, ka visas mūsu vadītās komandas ir pašas root lietotnes. Ar komandu aove mēs varējām pievienot jaunu lietotāju izveidotajai grupai.
Lai Hadoop lietotājs varētu veikt darbības, mums jānodrošina arī root piekļuve. Atveriet / etc / sudoers failu ar šo komandu:
sudo visudoPirms kaut ko pievienojam, fails izskatīsies šādi:
Sudoers failu pirms kaut ko pievienot
Faila beigās pievienojiet šādu rindu:
hadoopuser ALL = (VISI) VISITagad fails izskatīsies šādi:
Sudoers fails tiek pievienots pēc Hadoop lietotāja
Tas bija galvenais iestatījums, lai Hadoop nodrošinātu platformu darbību veikšanai. Mēs tagad esam gatavi iestatīt viena mezgla Hadoop kopu.
Hadoop viena mezgla iestatīšana: atsevišķs režīms
Runājot par Hadoop reālo spēku, tas parasti tiek iestatīts vairākos serveros, lai tas varētu mērogot lielu daudzumu datu kopas, kas atrodas Hadoop izplatītā failu sistēma (HDFS). Parasti tas ir labi ar atkļūdošanas vidēm un netiek izmantots ražošanas vajadzībām. Lai process būtu vienkāršs, mēs paskaidrosim, kā mēs šeit varam veikt viena mezgla iestatīšanu Hadoop.
Kad būsim pabeiguši Hadoop instalēšanu, mēs arī palaidīsim Hadoop lietojumprogrammas paraugu. No šī brīža Hadoop fails tiek nosaukts kā hadoop-3.0.1. pārdēvēsim to par hadoop vienkāršākai lietošanai:
mv hadoop-3.0.1 hadoopTagad fails izskatās šādi:
Kustīgais Hadoops
Laiks izmantot iepriekš izveidoto hadoop lietotāju un piešķirt šim failam īpašumtiesības:
chown -R hadoopuser: hadoop / root / hadoopLabāka Hadoop atrašanās vieta būs / usr / local / direktorija, tāpēc pārvietosim to tur:
mv hadoop / usr / local /cd / usr / local /
Hadopa pievienošana ceļam
Lai izpildītu Hadoop skriptus, mēs tos tagad pievienosim ceļam. Lai to izdarītu, atveriet failu bashrc:
vi ~ /.bashrcPievienojiet šīs rindas saraksta beigām .bashrc failu, lai ceļš varētu saturēt izpildāmā Hadoop faila ceļu:
# Konfigurējiet Hadoop un Java Homeeksportēt HADOOP_HOME = / usr / local / hadoop
eksportēt JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
eksportēt PATH = $ PATH: $ HADOOP_HOME / bin
Fails izskatās šādi:
Hadopa pievienošana ceļam
Tā kā Hadoop izmanto Java, mums jāpasaka Hadoop vides fails hadoop-env.sh kur tā atrodas. Šī faila atrašanās vieta var atšķirties atkarībā no Hadoop versijām. Lai viegli atrastu, kur atrodas šis fails, palaidiet šo komandu tieši ārpus Hadoop direktorija:
atrast hadoop / -nosaukums hadoop-env.shMēs iegūsim faila atrašanās vietas izvadi:
Vides faila atrašanās vieta
Rediģēsim šo failu, lai informētu Hadoop par Java JDK atrašanās vietu, un ievietojiet to faila pēdējā rindiņā un saglabājiet to:
eksportēt JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64Hadoop instalēšana un iestatīšana tagad ir pabeigta. Mēs esam gatavi palaist mūsu parauga lietojumprogrammu tūlīt. Bet pagaidiet, mēs nekad neesam izveidojuši pieteikuma paraugu!
Parauga lietojumprogrammas palaišana ar Hadoop
Patiesībā Hadoop instalēšana tiek nodrošināta ar iebūvētu parauga lietojumprogrammu, kas ir gatava darbam, tiklīdz esam pabeiguši Hadoop instalēšanu. Izklausās labi, pareizi?
Palaidiet šo komandu, lai palaistu JAR piemēru:
hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-piemēri-3.0.1.burku vārdu skaits / root / hadoop / README.txt / root / OutputHadoop parādīs, cik lielu apstrādi tas veica mezglā:
Hadoop apstrādājot statistiku
Kad esat izpildījis šo komandu, mēs redzam failu part-r-00000 kā izvadi. Iet uz priekšu un apskatiet izejas saturu:
kaķu daļa-r-00000Jūs saņemsiet kaut ko līdzīgu:
Hadoop izlaida vārdu skaitu
Secinājums
Šajā nodarbībā mēs apskatījām, kā mēs varam instalēt un sākt izmantot Apache Hadoop Ubuntu 17.10 mašīna. Hadoop ir lieliski piemērots, lai uzglabātu un analizētu lielu daudzumu datu, un es ceru, ka šis raksts palīdzēs jums ātri sākt to izmantot Ubuntu.