iT邦幫忙

DAY 20
0

蠻可愛的資料庫與資料處理系列 第 20

從網路上擷取資料以及指令組合運用

  • 分享至 

  • xImage
  •  

在第15天時有討論資料處理的一些項目與過程.
其中一項是從網路上擷取資料.

從網路上擷取資料的方式很多,今天要介紹 curl.

我們從古騰堡計畫的網站來擷取馬基維利的君王論.

curl -s http://www.gutenberg.org/cache/epub/1232/pg1232.txt > prince.txt

做簡單的統計,單字的使用情形,降冪排列

< prince.txt tr '[:upper:]' '[:lower:]' |
grep -oE '\w+' |
sort |
uniq -c |
sort -nr |
head -n 10

   3111 the
   2116 to
   1938 and
   1802 of
    994 in
    922 he
    783 a
    746 that
    640 his
    586 it

使用head只顯示出10行.
grep 相信大家都很熟悉了;其餘指令在敝人另外使用
丁小雨帳號參賽的蠻可愛的指令中有介紹.

可以看到雖是Linux的指令,對我們在處理資料時,
有極大的幫助,速度也快.
因為當年UNIX在發展時,一個主要的任務,
就是協助處理貝爾實驗室大量的專利文件.


上一篇
CSVKit 4
下一篇
過濾資料探討1
系列文
蠻可愛的資料庫與資料處理30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言