非常幸運的在 Google 的茫茫大海中找到了 awesome crawler repo,從列表就可以很清楚知道 Python 的爬蟲庫資源,遠遠甩開其他語言。
對岸某位開發者,自產了一個用 Go 語言寫的 Crawler 框架叫 Pholcus,雖然不可能採用這個框架,但框架提供的功能跟文件完整度,真的非常的驚人。
雖然看似 Scrapy 完勝,但是由於我完全不會 Python 語言,對我是一個兩難的決定,或許現在採用 Scrapy 依附在它生態系之下把資料爬回來會比較簡單,但是爬回來之後的處理及後續跟其他架構的銜接,還是得要一些對 Python 語言的熟悉度,如果我採用 Scrapy,勢必得花很多時間學 Python,若採用 Simple Crawler 是熟悉的程式語言,但可能會遇到 Crawler 架構不完整,需自行在擴充實作的部分。