Date: Tue, 18 Nov 2014 02:10:02
Subject: Jeroen Janssens, Data Science at the Command Line

Hej!

Nu har jag läst ännu en O'Reilly-bok.  Data Science at the Command Line 
av Jeroen Janssens.

Jag hade klickat bevaka och köpte direkt när den kom ut för några veckor 
sen. 185 sidor läst på 4,94 XM-timmar mellan 20/10 och idag. Mestadels 
nattetid, både hemma och på KC.

Den var som väntat mycket bra. Hur man kan kombinera verktyg som är 
nyskrivna och sådana från 70-talet för att jobba med ett av de hetaste 
områdena inom IT nu: Big Data. Författaren förstår det han skriver om, 
har bra urval och prioriteringar av vilka kommandon att beskriva. Jag 
hittade bara fem små fel, kanske mejlar honom om dem senare.

Jag kommer nog både dela med mig av delar av det jag lärt mig (på intern 
wiki) och tipsa om den här boken på jobbet.

Några saker som var nytt och nyttigt för mig: parallel (men jag har 
träffat Ole Tange som har skapat det programmet); csvcut, csvsql, 
csvgrep mm från Csvkit; och några som Jeroen har skapat själv: Rio (som 
gör att man kan pajpa data till R), body (som gör att man kan t.ex. köra 
sort på allt utom första raden), header (som gör tvärtom, lägger till 
och tar bort rubriker i CSV-filer). Och förstås klassiker som grep, cut, 
sort, for, while, sed, awk osv.

En kul sak är att första gången han nämner ett kommando ger han cred 
till de som skrivit/underhåller dem, med året för den version han 
använder T.ex "cURL (Stenberg 2012)" eller "rm (Rubin, MacKenzie, 
Stallman & Meyering, 2012). Som vore de böcker, och det är ju 
människoskapad text som bygger upp vartenda litet kommando så jag gillar 
den idén.

mvh aö