沒想到過了這麼久
davistai 大大對這個冷知識還有興趣
http://ithelp.ithome.com.tw/question/10001989
我就只好在各位面前班門弄斧一下
在開始之前
先將泠知識編個號
比較容易區別
01.作業系統-------:CentOS
02.網站伺服-------:Apache 2.2.3
03.軟體架構-------:Zend framework
04.會員人數-------:2,961
05.全部筆數(1,967):有效(871)/無效(1,096)
06.有效筆數( 871):問題(490)/分享(381)
07.全部問題( 490):已解(417)/未解(73)
08.已解問題( 417):自選(232)/網友(185)
09.最早註冊:scottchen
10.點數最多:skite
11.分享最多:5min (40筆)
12.等級最高:skite
13.最早換卡:antijava
----01,02
可以用一個簡單的方法知道網站所使用的Web伺服器
就是輸入一個不存在的網址
讓伺服器出現404的回應
實做:http://ithelp.ithome.com.tw/question/10001989.html
觀察:得知 Apache 2.2.3 over CentOS
----03
早期因為程式的小Bug
被davistai試出了一個錯誤
實例:http://ithelp.ithome.com.tw/question/10001501?tab=opinion#ooa_hash
觀察:使用 Zend Framework
(iTHome的部落格使用 PHP 的 pLog 建置, 這裡使用 Zend 也是很合邏輯滴)
----04
每個會員的基本資料都是以下型式
http://ithelp.ithome.com.tw/profile?id=2XXXXXXX
故可推論XXXXXXX就是會員人數
再依據
http://ithelp.ithome.com.tw/misc/billboard
找尋裡面「新進榜」的會員
就是大概的會員人數了
要精確一點的話
就再多花一點時間自己改URL最後的數字去推測
正確的話會出現會員資料
錯誤的話會出現 invalid user id
----09
由 04 的規則
只要輸入http://ithelp.ithome.com.tw/profile?id=20000001
就是第一位註冊會員了
----05,06,07,08,11
這個沒什麼技術
只要你手邊有全部的問題及分享的資料
每個人都統計的出來
只是有沒有那麼閒而已
我的做法是
1.判斷網址
不管「問題」或「分享」
網址都是以下型式
http://ithelp.ithome.com.tw/question/10003006
因此只要取回 10000001 到 10003006 的資料存檔即可
(在「所有問答」裡的第一篇通常是最「新」的一篇, 即數字最大的一篇)
2.取回資料
一般會用砍站軟體
由於我比較懶, 也比較習慣下 command line
所以用 loadtofile 簡單做掉
!!特別注意!!
在抓資料時發現一個現象
在連續抓到第600筆左右時出現斷線現象
無法連線至 iT邦幫忙
甚至連 iTHome 的 Blog 都連不上去
後來知道
是IP被封掉了
(後來是換了另一個IP才完成的 @_@)
這點要向 iT邦幫忙 致敬, 網路管理得不錯 ^_^
我們敬愛你,我們感謝你,我們像你致上最敬禮~~(有人'看'得出來我是用唱的嗎?)
呵呵,antijava大,您真的是非常聰明啊^^難怪Tecksin & Skite 大如此推崇呢^^
ㄚ我終於明白為什麼您老是說我是駭客了,害我以為自己很厲害哩~~
而且也了解在連續抓到第600筆左右時出現斷線現象,不過並不明白為什麼iT邦幫忙要封掉IP??
我們敬愛你,我們感謝你,我們像你致上最敬禮~~(有人'看'得出來我是用唱的嗎?)
我們敬愛你, 更感謝你, 要向你獻上最敬禮
歌名 : 遍地桃李(電影:黃埔軍魂主題曲)
作詞:孫儀 作曲:劉家昌
革命陣營裡,我們共生死同相依,
經過多少艱苦,多少暴風雨,
看遍地桃李,已經開滿了大地,
我們敬愛您,更懷念您,要向您獻上最敬禮,
我們需要您的愛,
我們需要您的鼓勵,
不管到那裡,我們心和您在一起,
請您不要忘記,這群好子弟,
勝利的花朵總有一天獻給您,
我們敬愛您更懷念您,要向您獻上最敬禮。
對一個網站而言
來自同一個IP「短時間」「連續」「大量」的HTTP request
會被視為是不善意的行為
為了保持網站正常運作
將該IP封掉是很合理滴
有點防DDOS的味道
令人比較有興趣的是
iTHome是用什麼設備或軟體達到這項功能的 ^_^
Tecksin大,呵呵,爾後有歌曲相關問題定當向您請教才是^^
不過,不能說懷念你啦,
因為Antijava大又回來啦,呵呵..
Antijava 兄又出現了,真是大歡迎說,這些東西應該算是 iT 人員第三眼或是第六感吧 xd,有時候也會注意到某方面的能手,能夠注意到的地方都很特別