iT邦幫忙

0

抓取500強公司的招聘職位 - 網頁爬蟲

Linkedin在人力資源和就業市場領域非常成功,與所有其他招聘平台相比,招聘人員更願意在Linkedin上尋找合適的職場人。

擁有求職者數據和資源的人將擁有數百萬美元的市場。實際上,Indeed, Monster, Ziprecruiter都知道這一點。甚至谷歌也在2017年開始分享就業市場的蛋糕。
但是,個人如何收集這些複雜而龐大的就業信息?
在本文中,我將引導您從零開始構建抓取世界500強職位的整個過程。此外,我將分析Linkedin的商業模式以促進您的業務。

求職網站充當中介,以將合適的候選人與潛在的公司進行匹配。雇主付費在網站上發布工作清單,求職者將簡歷和求職信發送給感興趣的公司。因此,職位列表的質量和數量對於網站的生存至關重要。有兩種方法可以抓取網站上的職位列表:

1.從公司網站的“職業”部分中抓取工作清單

2.從求職平台中介&搜索引擎(例如Linkedin和Indeed)中采集

第一種方法:

因為每個公司都有其網站,所以我們需要為所有公司構建一個爬蟲。傳統方法是使用Beautiful Soup編寫python。這導致較高的初始成本和維護成本。我們需要為每個公司編寫一個單獨的腳本,因為每個網站都有獨特的設計。此外,該網站可能會更改其網絡結構。因此,我們必須重寫腳本並構建一個新的Spider來抓取該網站。另外,有這麼多的網站只能由一群技術專家創建,以使您的網站可持續發展。對於公司而言,增加一個額外勞動力的高邊際成本是不可持續的。

網頁抓取工具可作為最有效的替代工具,而成本卻低得多。它使我們無需編寫腳本即可自動執行整個抓取過程。Octoparse是最好的網頁爬蟲工具。它將使初學者和經驗豐富的技術專家都可以在可視化的點擊界面中提取數據

由於有500個網站,因此我將以Facebook為例。(這是《財富》 500強公司網站列表,歡迎充分使用:

如您所見,該網頁包含十個列表,並有多個頁面。我們將單擊每個職位列表,提取每個職位的標題,位置,職責,最低要求和首選要求。對於具有嵌套列表的網頁,我們可以:

收集列表網址的第一層以加快抓取過程,尤其是在網站包含大量列表時。
設置自動抓取規則以抓取詳細信息頁面。

1. URL遵循與固定主機名和最後一個頁面標記一致的模式。該數字隨您頁面的變化而變化。這樣,我們將URL從第一頁複製到電子表格,然後將其向下拖動以獲取網站URL列表。

2. 然後,我們使用Octoparse使用該列表的URL配置搜尋器。

使用內置的瀏覽器,我們可以使用給定的命令在網頁上提取目標元素。在這種情況下,我們單擊頁面中的職位列表,然後選擇“ 全選 ”以創建包含所有列表的循環元素。

3. 然後選擇“循環單擊每個元素 ”以瀏覽每個詳細信息頁面

4.同樣,從詳細信息頁面中選擇以提取項目,包括職位,職位,職責,最低和首選要求。您應該能夠像這樣提取DEMO_Facebook_Career_List的工作清單

遵循相同的想法,我們可以使用Octoparse創建任意數量的搜尋器。另外,使高維護成本的風險最小化。您可以設置一個抓取程序,並通過API門戶將更新的作業列表發送到數據庫。

第二種方法:

諸如Indeed和Monster.com之類的職位搜索引擎提供了大量的工作列表。我們可以使用網絡搜尋器從大小公司那裡獲取工作信息。另一方面,如果您從求職引擎獲得信息,則不會給您帶來競爭優勢。最容易獲得的解決方案是找到一個利垂直領域。我們可以將範圍縮小到特定群體,而不是廣泛的網站。您可以根據供應和需求發揮創造力。在這種情況下,抓取10,000個工作清單和相關位置,並將它們與地圖結合起來以查看“數據科學”工作的地理分佈

數據科學職位主要集中在沿海地區,其中西雅圖和紐約的需求最高。考慮到這一點,這將是一個很好的機會,可以幫助更多的科技公司通過本地數據科學家社區找到合適的人選。

我有一個類似的視頻,教您如何抓取工作清單。

Yes

Linkedin為什麼成功?

Linkedin在商業策略方面非常成熟。以下是受它們啟發的四個因素,這些因素將在許多方面使您的業務受益:

查找合適的傳播者:最初的開始是邀請“champions”和行業領導者傳播您的網站。這些人才具有超凡魅力,可以凝聚才華和追隨者。

社交網絡社區:訂戶聚在一起便擁有更多的商業價值。社區生成了UGC(用戶生成的內容)以吸引更多優質的用戶分享他們的想法。這些都是可以提高競爭力的資產。

信譽:求職網站的目的是幫助和指導大家職業生涯。說“幫助別人幫助自己”有點陳詞濫調,但是如果您希望自己的企業成功,這就是正確的心態。


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
melisa
iT邦新手 5 級 ‧ 2020-07-17 12:28:15

点击查看原文章&更多博客内容:Herramientas de Scraping

我要留言

立即登入留言