進公司前,公司已有用Linux Server架設一套系統
此系統是架設在與公司官網同網域下的資料夾(須使用帳號密碼檢驗登入)
www.123.com/system <--像這樣
有同仁反應從系統上傳的檔案可在Google上用關鍵字(檔案內資料)查詢到
請問我該調整該資料夾(system)權限,抑或是當初系統設計上的錯誤(不該跟官網架設於同一網域)
有甚麼辦法能防止資料外洩?
麻煩各位前輩幫忙
謝謝
你的問題是出在《架設的網站,存取權限設定錯誤》而不是單單只在於給不給 Google 索引到。因為 Google 還算是客氣的引擎,會看 robots.txt 的設定,但是像百度、新浪這類搜尋引擎,根本不鳥。能搜到什麼機密那更好。
所以要檢查你的帳密驗證是不是有漏洞。直接在 Google 上面搜尋你的網站是否有洩露哪些 URL 出去。下這樣的搜尋條件 (假設 www.123.com 對應IP是 1.2.3.4):
site:www.123.com
或者是
site:1.2.3.4
來看看有哪些 URL 洩露了。用瀏覽器試連看看是不是真的可以不用認證就抓到檔案。若可以,修改你的網站的認證設定,再重覆試,直到有認證的保護為止。
Web 的根目錄內是否有 robots.txt
若沒有就自己建一個內容如下, 列出不允許搜尋引擎造訪的目錄(請自行修改)
User-agent: *
Disallow: /cache/
Disallow: /images/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
有密碼驗證正常是不會被查詢到的,你要看你被查到的是實體檔案(doc,pdf...etc)還是網頁,如果是網頁被搜尋到就應該檢查該頁是否真的有需要帳號密碼驗證才能進入,如果是檔案,就要看完整連結是否被貼到網路上去,才導致所有資料被搜尋到(這種情形,就算網頁有加上帳號密碼驗證保護也沒用),因為他找到是程式無法保護的網址。
不用爬蟲工具辛苦抓伺服器內的隱密資料,搜尋公司借瀏覽器將LOAD完的頁面再回傳到搜尋引擎就好,因此伺服器設什麼密碼權限都會破功。