iT邦幫忙

0

請教爬蟲資料整理問題

  • 分享至 

  • xImage

工作需要整理出一套資料庫專門儲存各行各業的公司是營運什麼產業,目前在使用的主要有兩個方法
方法一是google直接搜尋關鍵字,在進入網站把裡面的所有文字資料使用monica ai來判斷該公司是屬於哪一個產業
方法二寫爬蟲把有公司名錄的網站爬下來,像是台灣黃頁這種的

方法二雖然爬下來的公司產業比較準確一點,但是資料非常少
方法一會把官網主頁面裡面所有的文字都蒐集起來,接著透過這些資料讓monica ai來判斷老四川是屬於哪一個產業,但是有時候不是很準確,想嘗試beautifulsoup來判斷出公司產業,不過完全沒有頭緒該怎麼開始,因為資料來源非常雜,例如老四川官網主頁的文字完全沒有提到餐飲或是類似餐飲的關鍵字,這種情況好像就沒辦法透過beautifulsoup來判斷出公司產業
所以想請問各位大佬有沒有一個可以準確的判斷出產業的方式,效率不要太差都可以QQ

看更多先前的討論...收起先前的討論...
froce iT邦大師 1 級 ‧ 2024-08-06 08:47:35 檢舉
能不能截圖或是找官網裡有最大容量的圖片去做圖片摘要?
ccutmis iT邦高手 2 級 ‧ 2024-08-06 11:01:57 檢舉
下面的網址給樓主參看看看是不是有用...

1. 商工行政資料開發平台(有csv下載 也有api):
https://data.gcis.nat.gov.tw/main/index

2. 商工登記公示資料查詢服務:
https://findbiz.nat.gov.tw/fts/query/QueryBar/queryInit.do
cashrain iT邦新手 5 級 ‧ 2024-08-08 08:57:27 檢舉
回force大大:
不太懂您說做圖片摘要指的是甚麼,請問是指辨識圖片裡面的文字再丟給ai判斷嗎?
cashrain iT邦新手 5 級 ‧ 2024-08-08 09:09:19 檢舉
回ccutmis大大:
第一個方法感覺蠻有機會可以整理出相關公司資訊!謝謝!
之前有去商工登記公示資料查詢服務這個網站爬過,但是網站裡面整理的公司營運產業太廣了,感覺不太適合
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 個回答

0
jiatool
iT邦研究生 2 級 ‧ 2024-08-05 22:02:19

我有想到幾個有一絲絲機會的想法,與問問 AI 發現的思路:

  1. 除了你說的爬網站的文字之外,從網站 HTML 的 meta 裡面也會有 keyword 或 description 的資訊。
    例如老四川的有 <meta name="description" content="老四川巴蜀麻辣燙火鍋官網,於台北、新竹、桃園、台中、嘉義、台南、高雄均有據點,可線上訂位、門市外帶、最新菜單、會員開卡,另有線上專賣店可網路宅配。">

  2. Google 搜尋或 Google 地圖搜尋,從搜尋結果可以分析出產業類別。
    以下是 AI 回覆的 API,但我沒用過:
    https://developers.google.com/maps/documentation/places/web-service/overview?hl=zh-tw
    https://developers.google.com/knowledge-graph?hl=zh-tw

  3. 從人力銀行網路爬蟲。
    人力銀行上搜尋公司,也會寫出這家公司是哪個產業,不過就要先確保他們網站是否可以網路爬蟲。(可以透過 /robots.txt 來確認)
    或 LinkedIn 有 API,也可以試試,看有什麼資料。

(以上取得的結果也可以再搭配你說的 monica ai 來分析)

以上只是我稍微想到的,也不知道是否可行,給你參考~

cashrain iT邦新手 5 級 ‧ 2024-08-06 10:10:23 檢舉

謝謝! 我再來研究看看

0
meebox
iT邦新手 4 級 ‧ 2024-08-06 10:08:13

我建議可以直接把官網內容送給語言模型判斷業別就可以了, 像是以下就是用 OpenAI 的 gpt-4o-mini 模型判斷老四川的結果:

[
    {
        "result": "餐飲服務業",
        "id": "chatcmpl-9t3nI116bSRSMyrpa8KUdM7soFBk1",
        "object": "chat.completion",
        "created": "2024-08-06T02:00:52.000Z",
        "model": "gpt-4o-mini-2024-07-18",
        "choices": [
            {
                "index": 0,
                "message": {
                    "role": "assistant",
                    "content": "餐飲服務業"
                },
                "logprobs": null,
                "finish_reason": "stop"
            }
        ],
        "usage": {
            "prompt_tokens": 10549,
            "completion_tokens": 4,
            "total_tokens": 10553
        },
        "system_fingerprint": "fp_48196bc67a"
    }
]

這裡的分類取自 104 網站。

cashrain iT邦新手 5 級 ‧ 2024-08-06 10:25:03 檢舉

謝謝! 目前也有在考慮串GPT的API來用 但是大量使用累積的費用還是蠻可觀的

meebox iT邦新手 4 級 ‧ 2024-08-06 10:32:13 檢舉

花錢省功夫和時間其實是很划算的啦

我要發表回答

立即登入回答