Date: Fri, 28 Feb 2014 20:41:47 Subject: Tom White, Hadoop The definitive guide Hej! Nu har jag läst ut Hadoop The definitive guide. O'Reilly 2012, 627 s. Den handlar om Hadoop, MapReduce, HDFS, YARN, Pig, Hive, HBase, ZooKeeper och Sqoop. Kortfattat om hur man kan hantera stora datamängder i kluster av datorer. T.ex. sortera 200 miljoner ord på en minut genom att dela ut (Map) problemet och sen slå ihop (Reduce) svaren. Ett av exemplen i boken handlar om temperatur från tiotusentals väderstationer under hundra år. Beräkna max, medel, min osv. Hadoop, och de andra ovan, är fritt och gratis. Man kan köra det såväl på en dator för tvåtusen kr som ett kluster för två miljoner. Det används av stora sajter som Facebook, Yahoo, Last.FM osv. Chefen bad mig att lära mig mer om sånt här. På vissa saker är vår teknik tio ggr snabbare, så det kan vara bra att jämföra med Hadoop. Och även använda det, för sånt det är bra på. Boken höll vanlig hög O'Reilly-klass. Dock hade jag brister i förkunskap, främst vad gäller Java och SQL. Men vissa saker förstod jag. HDFS verkar vara intressant. Man kan sätta upp t.ex. tio datorer och data sprider sig jämnt över dem. Man bara anger hur många kopior man vill ha (2 eller 3 är lämpligt). Sen om en dator går sönder är det bara att koppla in en ny, man tappar ingen info och behöver aldrig ta eller återställa från backup. Även om diskutrymmet börjar ta slut är det bara att lägga till flera noder. HDFS kör "ovanpå" vanligt filsystem, i en specifik katalog, så man kan använda datorerna till annat också. Använd lästid: 16,94 timmar från september 2013 till idag. mvh aö