從網路上擷取資料以及指令組合運用

DAY 20

蠻可愛的資料庫與資料處理系列第 20 篇

鐵人賽蠻可愛的丁大丙資料處理

丁大丙

2014-10-20 22:20:19

1989 瀏覽

分享至

在第15天時有討論資料處理的一些項目與過程.
其中一項是從網路上擷取資料.

從網路上擷取資料的方式很多,今天要介紹 curl.

我們從古騰堡計畫的網站來擷取馬基維利的君王論.

curl -s http://www.gutenberg.org/cache/epub/1232/pg1232.txt > prince.txt

做簡單的統計,單字的使用情形,降冪排列

< prince.txt tr '[:upper:]' '[:lower:]' |
grep -oE '\w+' |
sort |
uniq -c |
sort -nr |
head -n 10

   3111 the
   2116 to
   1938 and
   1802 of
    994 in
    922 he
    783 a
    746 that
    640 his
    586 it

使用head只顯示出10行.
grep 相信大家都很熟悉了;其餘指令在敝人另外使用
丁小雨帳號參賽的蠻可愛的指令中有介紹.

可以看到雖是Linux的指令,對我們在處理資料時,
有極大的幫助,速度也快.
因為當年UNIX在發展時,一個主要的任務,
就是協助處理貝爾實驗室大量的專利文件.

CSVKit 4

過濾資料探討1

系列文

蠻可愛的資料庫與資料處理共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

蠻可愛的資料庫與資料處理系列 第 20 篇

從網路上擷取資料以及指令組合運用

尚未有邦友留言

標記使用者

蠻可愛的資料庫與資料處理系列第 20 篇