Date: Tue, 18 Nov 2014 02:10:02 Subject: Jeroen Janssens, Data Science at the Command Line Hej! Nu har jag läst ännu en O'Reilly-bok. Data Science at the Command Line av Jeroen Janssens. Jag hade klickat bevaka och köpte direkt när den kom ut för några veckor sen. 185 sidor läst på 4,94 XM-timmar mellan 20/10 och idag. Mestadels nattetid, både hemma och på KC. Den var som väntat mycket bra. Hur man kan kombinera verktyg som är nyskrivna och sådana från 70-talet för att jobba med ett av de hetaste områdena inom IT nu: Big Data. Författaren förstår det han skriver om, har bra urval och prioriteringar av vilka kommandon att beskriva. Jag hittade bara fem små fel, kanske mejlar honom om dem senare. Jag kommer nog både dela med mig av delar av det jag lärt mig (på intern wiki) och tipsa om den här boken på jobbet. Några saker som var nytt och nyttigt för mig: parallel (men jag har träffat Ole Tange som har skapat det programmet); csvcut, csvsql, csvgrep mm från Csvkit; och några som Jeroen har skapat själv: Rio (som gör att man kan pajpa data till R), body (som gör att man kan t.ex. köra sort på allt utom första raden), header (som gör tvärtom, lägger till och tar bort rubriker i CSV-filer). Och förstås klassiker som grep, cut, sort, for, while, sed, awk osv. En kul sak är att första gången han nämner ett kommando ger han cred till de som skrivit/underhåller dem, med året för den version han använder T.ex "cURL (Stenberg 2012)" eller "rm (Rubin, MacKenzie, Stallman & Meyering, 2012). Som vore de böcker, och det är ju människoskapad text som bygger upp vartenda litet kommando så jag gillar den idén. mvh aö