在第15天時有討論資料處理的一些項目與過程.
其中一項是從網路上擷取資料.
從網路上擷取資料的方式很多,今天要介紹 curl.
我們從古騰堡計畫的網站來擷取馬基維利的君王論.
curl -s http://www.gutenberg.org/cache/epub/1232/pg1232.txt > prince.txt
做簡單的統計,單字的使用情形,降冪排列
< prince.txt tr '[:upper:]' '[:lower:]' |
grep -oE '\w+' |
sort |
uniq -c |
sort -nr |
head -n 10
3111 the
2116 to
1938 and
1802 of
994 in
922 he
783 a
746 that
640 his
586 it
使用head只顯示出10行.
grep 相信大家都很熟悉了;其餘指令在敝人另外使用
丁小雨帳號參賽的蠻可愛的指令中有介紹.
可以看到雖是Linux的指令,對我們在處理資料時,
有極大的幫助,速度也快.
因為當年UNIX在發展時,一個主要的任務,
就是協助處理貝爾實驗室大量的專利文件.