Date: Fri, 28 Feb 2014 20:41:47
Subject: Tom White, Hadoop The definitive guide

Hej!

Nu har jag läst ut Hadoop The definitive guide. O'Reilly 2012, 627 s.
Den handlar om Hadoop, MapReduce, HDFS, YARN, Pig, Hive, HBase,
ZooKeeper och Sqoop. Kortfattat om hur man kan hantera stora
datamängder i kluster av datorer. T.ex. sortera 200 miljoner ord på en
minut genom att dela ut (Map) problemet och sen slå ihop (Reduce)
svaren. Ett av exemplen i boken handlar om temperatur från tiotusentals
väderstationer under hundra år. Beräkna max, medel, min osv.

Hadoop, och de andra ovan, är fritt och gratis. Man kan köra det såväl
på en dator för tvåtusen kr som ett kluster för två miljoner.

Det används av stora sajter som Facebook, Yahoo, Last.FM osv. Chefen
bad mig att lära mig mer om sånt här. På vissa saker är vår teknik tio
ggr snabbare, så det kan vara bra att jämföra med Hadoop. Och även
använda det, för sånt det är bra på.

Boken höll vanlig hög O'Reilly-klass. Dock hade jag brister i
förkunskap, främst vad gäller Java och SQL. Men vissa saker förstod
jag. HDFS verkar vara intressant. Man kan sätta upp t.ex. tio datorer
och data sprider sig jämnt över dem. Man bara anger hur många kopior
man vill ha (2 eller 3 är lämpligt). Sen om en dator går sönder är det
bara att koppla in en ny, man tappar ingen info och behöver aldrig ta
eller återställa från backup. Även om diskutrymmet börjar ta slut är
det bara att lägga till flera noder. HDFS kör "ovanpå" vanligt
filsystem, i en specifik katalog, så man kan använda datorerna till
annat också.

Använd lästid: 16,94 timmar från september 2013 till idag.

mvh aö