您是否曾經想過知道平方英里內有多少家餐廳,就能賺錢? 沒有免費的午餐,但是,如果您知道如何使用Google地圖,則可以提取並收集餐廳的GPS,並將其存儲在自己的數據庫中。 有了這些信息並進行了一些數學計算,您就可以創建大數據在線服務。
在本文中,我將向您展示如何使用一種簡單的方法快速提取Google Maps坐標。 讓我們深入了解它。
很難注意到坐標實際上隱藏在URL內。 在這種情況下,我們需要提取URL,並使用正則表達式來查找我們要查找的完全匹配的文本字符串。 讓我們以西雅圖的太空針塔地標為例。
首先,在瀏覽器中打開Google Maps,然後在搜索欄中輸入Space Needle.
頁面加載完成後,在URL中查找坐標。 坐標位於“ @”符號後面。
接下來,我們可以開始提取URL。我們使用的工具是Octoparse。您可以使用自己喜歡的任何工具。 Octoparse是我見過的最好的Web抓取工具,因為它的直觀用戶界面非常容易拿起,特別是對於初學者。最好是已經在計算機上,或者可以在此處下載。
1.單擊“ +”號以高級模式構建新任務
2.將網址輸入到https://www.google.com/maps/place/Space+Needle/@47.6205099,-122.3514661,17z/data=!4m5!3m4!1s0x5490151f4ed5b7f9:0xdb2ba8689ed0920d!8m2!3d47.6205063063 !4d-122.3492774
3.點擊“保存URL”繼續。
現在,我們已經成功創建了一個新任務。問題是Google Maps無法在其內置瀏覽器中正確加載。為什麼?這是因為Google Maps無法容納當前瀏覽器的用戶代理。要解決此問題,請單擊圖標。找到用戶代理切換器。選擇Firefox 45.0,然後單擊“保存”。 Octoparse將重新加載網頁本身。
網頁加載完成後,我們可以通過單擊內置瀏覽器來開始提取。單擊名稱,操作提示將顯示您可以使用的選項。選擇“提取所選元素的文本”
現在,您應該注意到提取已成功創建並添加到下面的工作流程中。我們可以在右上方的設置區域中輸入所需的名稱來編輯字段名稱。
轉到提取字段,然後在底部找到“添加預定義字段”。單擊以顯示下拉菜單,然後選擇“添加當前頁面信息”,然後選擇“網頁URL”。
現在,網頁URL已成功添加到數據字段中。這很棒!當然,我們需要編輯URL表單以刪去多餘的部分並提取確切的坐標。
點擊底部的“自定義”圖標(小鉛筆)。選擇“精煉提取數據”。然後單擊添加步驟按鈕。這將帶您進入功能列表,您可以在其中選擇進行數據清洗。在這種情況下,我們選擇“使用正則表達式匹配”。你應該到達這裡。
這樣,您就可以通過編寫正則表達式來根據需要編輯數據。正則表達式是用於描述搜索模式的特殊文本字符串。考慮到大多數人在編寫表達式時遇到困難,我們可以使用內置的RegEx工具來幫助我們。單擊“嘗試RegEx工具”按鈕。
注意,我們要在“ @”符號之後但在第二個逗號之前提取該部分。選中“開始於”框,然後輸入“ @”。這是告訴正則表達式,您想要標誌後的零件。同樣,選中“ End With”框,然後輸入“,1”。由於“ @”後面有兩個逗號,因此最好定義所需的逗號。只需簡單地在逗號後面添加數字,在這種情況下,請添加數字“ 1”。這告訴RegEx,您需要在逗號和數字1之前的部分。單擊“生成”按鈕,正則表達式應能夠顯示在盒子。
現在,只需單擊“匹配”按鈕確認我們是否設置正確。它在右側生成相應的表達式。繁榮!這正是我們想要的。現在繼續,單擊“應用”,然後單擊“確定”進行確認。
而已!大功告成讓我們運行搜尋器,看看它是否有效。單擊“開始提取”,然後選擇“本地提取”。
現在,如果您要查找1000個地址怎麼辦?不用擔心,Octoparse允許您在設置任務時輸入10,000個以上的URL。它看起來很簡單。