Šis raksts ļaus ieskatīties piecos populāros atvērtā pirmkoda rīkos, kurus var izmantot, lai izveidotu datu analīzes platformu.

Lielie dati ir dati terabaitu vai petabaitu secībā un ārpus tā, kas sastāv no ieguves, analīzes un lielu datu kopu prognozēšanas modelēšanas. Informācijas un tehnoloģiju straujais pieaugums ir sniedzis unikālu iespēju privātpersonām un uzņēmumiem visā pasaulē gūt peļņu un attīstīt jaunas iespējas, no jauna definējot tradicionālos biznesa modeļus, izmantojot liela mēroga analīzi.

Šis raksts sniedz putna lidojuma skatu uz piecām populārākajām atvērtā pirmkoda datu platformām. Šeit ir mūsu saraksts:

Apache Hadoop

Apache Hadoop ir atvērtā pirmkoda programmatūras platforma, kas izplatītā vidē apstrādā ļoti lielas datu kopas attiecībā uz uzglabāšanu un skaitļošanas jaudu, un galvenokārt ir balstīta uz zemu cenu aparatūru.

Apache Hadoop ir paredzēts, lai viegli palielinātu serveru skaitu no dažiem līdz tūkstošiem. Tas palīdz apstrādāt lokāli saglabātos datus vispārējā paralēlajā apstrādes iestatījumā. Viena no Hadoop priekšrocībām ir tā, ka tā rīkojas ar kļūmēm programmatūras līmenī. Šis attēls ilustrē Hadoop ekosistēmas vispārējo arhitektūru un dažādos ietvarus tajā:

Apache Hadoop nodrošina sistēmu failu sistēmas slānim, kopu pārvaldības slānim un apstrādes slānim. Tas atstāj iespēju citiem projektiem un ietvariem nākt strādāt kopā ar Hadoop ekosistēmu un izstrādāt savu sistēmu jebkuram no sistēmas pieejamiem slāņiem.

Apache Hadoop sastāv no četriem galvenajiem moduļiem. Šie moduļi ir Hadoop izplatītā failu sistēma (failu sistēmas slānis), Hadoop MapReduce (kas darbojas gan ar klastera pārvaldību, gan ar apstrādes slāni), vēl viens resursu sarunu vedējs (YARN, klastera pārvaldības slānis) un Hadoop Common.

Elasticsearch

Elasticsearch ir pilna teksta meklēšanas un analīzes dzinējs. Tā ir ļoti pielāgojama un izplatīta sistēma, kas īpaši paredzēta efektīvai un ātrai darbībai ar lielo datu sistēmām, kur viens no galvenajiem lietošanas gadījumiem ir žurnāla analīze. Tas spēj veikt sarežģītus un sarežģītus meklējumus un gandrīz reāllaikā veikt uzlabotas analīzes un operatīvās informācijas apstrādi.

Elasticsearch ir rakstīts Java valodā, un tā pamatā ir Apache Lucene. Izlaists 2010. gadā, un tas ātri ieguva popularitāti elastīgās datu struktūras, pielāgojamās arhitektūras un ļoti ātrās reakcijas laika dēļ. Elasticsearch ir balstīts uz JSON dokumentu ar bez shēmas struktūru, padarot adopciju ērtu un bez problēmām. Tā ir viena no visaugstākā līmeņa uzņēmuma meklētājprogrammām. Jūs varat uzrakstīt tā klientu jebkurā programmēšanas valodā; Elasticsearch oficiāli darbojas ar Java, .NET, PHP, Python, Perl un tā tālāk.

Elasticsearch galvenokārt mijiedarbojas, izmantojot REST API. Tas iegūst datus JSON dokumentu veidā ar visiem nepieciešamajiem parametriem un sniedz atbildi līdzīgā veidā.

MongoDB

MongoDB ir NoSQL datu bāze, kuras pamatā ir dokumentu krātuves datu modelis. MongoDB viss ir vai nu kolekcija, vai dokuments. Lai saprastu MongoDB terminoloģiju, kolekcija ir aizstājējs vārds tabulai, savukārt dokuments ir alternatīvs vārds rindām.

MongoDB ir atvērtā pirmkoda, uz dokumentiem orientēta un starpplatformu datu bāze. Tas galvenokārt ir rakstīts C++. Tā ir arī vadošā NoSQL datu bāze, kas nodrošina augstu veiktspēju, augstu pieejamību un ērtu mērogojamību. MongoDB izmanto JSON līdzīgus dokumentus ar shēmu un nodrošina bagātīgu vaicājumu atbalstu. Dažas no tām ir galvenās funkcijas: indeksēšana, replikācija, slodzes līdzsvarošana, apkopošana un failu glabāšana.

Kasandra

Cassandra ir atvērtā koda Apache projekts, kas paredzēts NoSQL datu bāzes pārvaldībai. Kasandras rindas ir sakārtotas tabulās un indeksētas ar atslēgu. Tas izmanto tikai pievienotu, žurnālu bāzes glabāšanas motoru. Kasandras dati tiek sadalīti vairākos bezmezglu mezglos bez viena kļūmes punkta. Tas ir augstākā līmeņa Apache projekts, un tā attīstību šobrīd pārrauga Apache programmatūras fonds (ASF).

Kasandra ir izstrādāta, lai atrisinātu problēmas, kas saistītas ar darbību lielā (tīmekļa) mērogā. Ņemot vērā Kasandras bezgala arhitektūru, tā spēj turpināt veikt operācijas, neskatoties uz nelielu (kaut arī ievērojamu) aparatūras kļūmju skaitu. Kasandra darbojas vairākos mezglos vairākos datu centros. Tas atkārto datus visos šajos datu centros, lai izvairītos no kļūmēm vai dīkstāves. Tas padara to par ļoti izturīgu pret kļūdām.

Kasandra izmanto savu programmēšanas valodu, lai piekļūtu datiem visos mezglos. To sauc par Cassandra Query Language vai CQL. Tas ir līdzīgs SQL, kuru galvenokārt izmanto Relāciju datu bāzes. CQL var izmantot, palaižot savu lietojumprogrammu ar nosaukumu cqlsh. Kasandra nodrošina arī daudzas integrācijas saskarnes vairākām programmēšanas valodām, lai izveidotu lietojumprogrammu, izmantojot Kasandru. Tās integrācijas API atbalsta Java, C ++, Python un citus.

Apache HBase

HBase ir vēl viens Apache projekts, kas paredzēts NoSQL datu krātuves pārvaldībai. Tā ir izstrādāta, lai izmantotu Hadoop ekosistēmas funkcijas, tostarp uzticamību, kļūdu toleranci utt. Tā izmanto HDFS kā failu sistēmu uzglabāšanas vajadzībām. Ir vairāki datu modeļi, ar kuriem darbojas NoSQL, un Apache HBase pieder uz kolonnām orientētajam datu modelim. Sākotnēji HBase pamatā bija Google Big Table, kas ir saistīts arī ar kolonnu orientētu modeli nestrukturētiem datiem.

HBase visu uzglabā atslēgu un vērtību pāra formā. Svarīgi atzīmēt, ka HBase atslēga un vērtība ir baitu formā. Tātad, lai informāciju glabātu HBase, informācija jāpārvērš baitos. (Citiem vārdiem sakot, tā API nepieņem neko citu kā baitu masīvu.) Esiet uzmanīgs ar HBase, jo, glabājot datus, jums jāatceras tā sākotnējais tips. Dati, kas sākotnēji bija virkne, tiks atgriezti kā baitu masīvs, ja tie tiks atsaukti nepareizi. Rezultātā tas izveidos kļūdu jūsu lietojumprogrammā un avarēs jūsu lietojumprogrammu.

Ceru, ka jums patika šis raksts. Ja jūs meklējat arhitektūras un dizaina lietojumprogrammas, kurās ir daudz datu, varat izpētīt Anuj Kumar Datu ietilpīgu lietojumprogrammu veidošana. Šis grāmata ir jūsu vārteja viedu datu ietilpīgu sistēmu veidošanai, tieši lietojumprogrammu arhitektūrā iekļaujot galvenos datu ietilpīgos arhitektūras principus, modeļus un paņēmienus.

5 atvērtā koda lielo datu platformas

Apache Hadoop

Elasticsearch

MongoDB

Kasandra

Apache HBase