Vizsgálatok - beadására szikra

Spark - a számítástechnikai infrastruktúra nyílt forráskódú, képes együttműködni az úgynevezett nagy adatok (Big adatok); ez egyre népszerűbb, különösen a gépi tanulási forgatókönyvek. Ebben a cikkben fogom leírni, hogyan kell telepíteni Spark futtató számítógéphez Windows operációs rendszert, és el fogja magyarázni az alapvető funkciókat tekintve .NET fejlesztő.

Ábra. 1. Spark akcióban

szikra-shell Scala generál parancsértelmező, amely végre a héj és viszont kiad egy parancsot, hogy adja meg a Scala (scala>). Scala - egy programozási nyelv, amely a Java. Vannak más módon, hogy befolyásolja a Spark, de a használata Scala tolmács - a leggyakoribb megközelítés részben azért, mert a Spark Infrastruktúra van írva a legtöbb a Scala. Azt is kölcsönhatásba léphet a Spark, a Python parancsok vagy létre egy programot a Java.

Figyelni, hogy bizonyos figyelmeztetéseket látható. 1. Ezek az üzenetek jelennek meg gyakran induláskor Spark, mivel Spark van több választható összetevők, amelyek révén keletkezett hiányában egy figyelmeztetés. Elvileg ezeket az üzeneteket figyelmen kívül lehet hagyni egyszerű forgatókönyveket.

Az első csapat lépett a demo ülés:

A szabad értelmezése azt jelenti, „mentse README.md fájl tartalmát egy megváltoztathatatlan objektumot RDD-f». Scala tárgyakat lehet deklarálni val vagy var. Tárgyak nyilvánították val, megváltoztathatatlanok.

A Scala tolmács beágyazott objektum Spark összefüggésben elemzi sc, amelyet elérni a Spark funkciót. TextFile funkciót betölti a tartalmát egy szöveges fájlt a Spark adatstruktúra úgynevezett hibatűrő elosztott adatállomány (rugalmas elosztott adatbázis, RDD). RDD alapvető szoftver absztrakciós használt Spark. Azt lehet gondolni RDD valami hasonló .NET-set, a memóriában tárolt és forgalmazott több számítógép között.

Szöveges fájl README.md (.md kiterjesztés alapján «árleszállítás dokumentum» [Document Markup]) található a gyökérkönyvtárban C: \ spark_1_4_1. Ha a kívánt fájl található valahol máshol, akkor adja meg a teljes elérési utat, például: C: \\ \\ adatok ReadMeToo.txt.

A második parancs a demo ülés:

Ez azt jelenti: a „Save as megváltoztathatatlan RDD-nevű objektumot ff csak azokat a sorokat a tárgy f, ami az»Spark«». Funkció szűrő veszi az úgynevezett lezárás (lezárás). Circuit lehet tekinteni, mint valami, mint egy névtelen függvényt. Van zárásával vesz egy sor vonal bemeneti paramétere és visszatérési értéke true, ha a sorban «Spark», vagy egyébként false.

Mivel a vonal - egy paraméter neve, jól jönne a lezárás bármely más nevet, például:

számolni függvény elemek száma RDD - ebben az esetben a sorok számát README.md tartalmazó fájl szó «Spark». Az ilyen sorok - 19. A kilépéshez a munkamenet Spark Scala, a parancsot: q.

Telepítése Spark a Windows gépen

A telepítési folyamat Spark a Windows gép négy fő lépésből áll. Először telepíti a Java Development Kit (JDK) és a Java Runtime Environment (JRE). Másodszor, akkor állítsa be a Scala nyelv. Harmadszor, telepítése Spark infrastruktúra. És negyedszer, a rendszer változók vannak beállítva a géphez.

Spark eloszlása biztosított a tömörített .tar formátumban, így szüksége lesz egy segédprogram kivonat fájlokat Spark. Azt tanácsolom, hogy telepítse a 7-Zip program nyílt forráskódú.

JDK fut egy önkicsomagoló fájl, hogy megtalálja az interneten keresnének. Régebben egy változata a jdk-8u60-windows-x64.exe.

Amikor telepíti a 64 bites változata a JDK az alapértelmezett telepítési könyvtár a C: \ Program Files \ Java \ jdkx.x.x_xx \, ábrán látható. 2. Ajánlott, hogy ne módosítsa az alapértelmezett könyvtárat.

Ábra. 2. Az alapértelmezett telepítési könyvtár JDK

Amikor telepíti a JDK telepítve, és a hozzá tartozó JRE. A Java telepítése befejeződött, a szülő könyvtár alapértelmezésben a JDK könyvtár és a kapcsolódó JRE könyvtár, ábrán látható. 3.

Ábra. 3. Java JDK és JRE telepítve a C: \ Program Files \ Java \

Jegyezd meg, hogy a rendszer valószínűleg akkor is megjelenik, Java könyvtár egy vagy több jegyzékét 32 bites JRE a C: \ Program Files (x86). Ez normális, ha a rendszer 32-bites és 64-bites változatát a JRE, de azt tanácsolom, hogy csak a 64 bites változata a Java JDK.

telepítése Scala

A következő fázis - telepítés a Scala nyelv, de először meg kell, hogy menjen a honlapján letölthető Spark (lásd a következő részben ezt a cikket), és hogy melyik verziót telepíteni kívánt Scala. Scala változat összeegyeztethetőnek kell lennie a változat a Spark, ami akkor telepíti át a következő szakaszba.

Sajnos, információk Scala és Spark verziókompatibilitás nagyon rossz. Amikor telepítettem a Spark alkatrészek (néhány évvel ezelőtt), a jelenlegi változat 1.5.0 Spark, de nem találtam információt, hogy milyen a Scala változat kompatibilis ez a verzió a Spark. Ezért én inkább a korábbi verziót a Spark (1.4.1), találtam néhány érdekes információt a fejlesztői fórumok, ahol azt jelentették, hogy a Scala változat 2.10.4 valószínűleg kompatibilis a Spark 1.4.1.

Állítsa Scala könnyen. Ehhez egyszerűen fuss MSI telepítő fájlt.

Scala folyamat fut a beállítási varázslót. Érdekes, hogy az alapértelmezett telepítési könyvtárat Scala található a könyvtár 32 bites programok - C: \ Program Files (x86) \, és nem inkább a könyvtárban 64-bit - C: \ Program Files \ (4. ábra).

Ábra. 4. Scala van beállítva, hogy a C: \ Program Files (x86) \ scala \

Ha szándékában áll együttműködni a Spark, ami egy Java program használata helyett a Scala csapat, akkor több kell segédprogram - Scala Egyszerű Építőanyag Tool (SBT). Kölcsönhatás Spark összeállított segítségével a Java-program sokkal nehezebb, mint az interaktív Scala szerdán.

telepítése Spark

A következő lépés - beállítás Spark Infrastructure. De először győződjön meg róla, van egy támogató program, mint a 7-Zip, képes kicsomagolni .tar formátumban. Spark A telepítési folyamat kézzel történik, amely lehetővé teszi, hogy Ön letöltse a tömörített mappába a helyi gépen, kitermelésére tömörített fájlokat, és másolja őket a gyökérkönyvtárban. Tehát, ha azt szeretnénk, hogy távolítsa el a Spark, Spark akkor csak törölni a fájlokat.

Weboldal Spark - spark.apache.org. letöltési oldal lehetővé teszi, hogy válassza ki a típusát és változatát a csomagot. Spark - a számítástechnikai infrastruktúrát igénylő jelenlétében elosztott fájlrendszer (Distributed File System, DFS). Eddig a leggyakoribb a DFS, használt Spark Infrastructure - Distributed File System Hadoop (HDFS). A vizsgálatok és a kísérletezés, mint például a demonstrációs ülésen látható. 1. Spark lehet telepíteni a rendszert anélkül, hogy DFS. Ebben a forgatókönyvben a Spark fogja használni a helyi fájlrendszer.

Ha még nem kicsomagolva .tar fájlt, ez a folyamat tűnhet egy kicsit zavaró, mert mint általában, ki kell bontania a fájlokat kétszer. Először is, le a .tar fájlt (Van egy fájlt úgynevezett szikra-1.4.1-bin-hadoop2.6.tar) bármely ideiglenes könyvtárba (I használt C: \ Temp). Ezután a jobb gombbal a .tar fájlt, válassza kivonat fájlokat a helyi menü, és bontsa ki a tartalmát egy új helyen időn belül.

Az első lépés, egy új csomagoljuk ki a tömörített fájlt nélkül kiterjesztés (esetemben - szikra-1.4.1-bin-hadoop2.6). Ezután a jobb gombbal az új fájlt, újra válassza ki a kivonat fájlokat a helyi menü, és ki a tartalmát egy másik könyvtárba. Miután a második menetben olyan infrastrukturális fájlok Spark.

Könyvtárat létrehozni ezeket a fájlokat. Szerint a forgalmazási megállapodás, akkor létre kell hozni egy könyvtárat C: \ spark_x_x_x, ahol x - értékek, amelyek meghatározzák a verziót. Ezzel a konvenció, hoztam létre egy mappát a C: \ spark_1_4_1 és másolja a kibontott fájlokat (5. ábra).

A számítógép üzembe helyezése

A telepítés után a Java, a Scala és Spark marad, hogy konfigurálja a géphez. Ez a folyamat a letöltés különleges kiegészítő fájl a Windows, amelyben három rendszer környezeti változók, felhasználó által definiált feladat Path környezeti változó, és (adott esetben) a módosítás a konfigurációs fájl Spark.

Spark futtatása Windows megköveteli, hogy ez a különleges kiegészítő fájlt, winutils.exe található, a helyi könyvtárban C: \ Hadoop. Megtalálható ez a fájl több helyen az internetes keresés. Csináltam egy mappát a C: \ Hadoop, majd talált egy példányt winutils.exe public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe linkre, és töltse le a fájlt az könyvtárba.

Ezután hozzon létre, és a rendszer kiépítése a környezeti változók, felhasználó által meghatározott, és módosítsa a PATH környezeti változóhoz. Menj a Vezérlőpult | rendszer | Advanced System Settings | előrehaladott állapotban | Környezeti változók. A Felhasználói változók részben hozzon létre három új változót a következő nevek és értékek:

reduceByKey funkciója egyesíti az objektum m, hozzátéve, az egész értékeket, amelyek kapcsolatban vannak az azonos kulcsokat. A parancs cts.take (10), látni fogja a 10 szavait README.md, majd a hányszor szó megjelenik a fájl. Ezen felül, akkor valószínűleg észre, hogy a szavakat a tárgy CTS nem feltétlenül követi az adott sorrendben.

A függvény reduceByKey áramkört. Ezért, ha lehet használni egy másik rövidített jelölése Scala:

Így van 66 üres / null szava README.md, 21 a szó «a», 14 szó «Spark» és így tovább. D.

következtetés

Szeretném kifejezni hálámat a cikket szakértők felülvizsgálata Microsoft gázai Iqbal (Gas Iqbal) és Umesh Madani (Umesh Madan).