iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 22
0

嚴格來說,要寫手機APP其實常見的資料來源都是外部,像是API或是資料庫等外部來源。

但也不表示說手機APP本身不能處理像爬蟲這類的資料來源需求。
特別是當我們還在學習的階段,其實多懂一點也沒什麼不好。


回到Jsoup正題。

Jsoup 是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作資料。

對,它是JAVA基底。

好在Kotlin本身提倡與Java相容,Java Code可以無轉讀取並編譯。
既然官方都這麼說了,那就安心的來寫看看。


JSOUP的幾個常見用法

  • 從一個URL,檔或字串中解析HTML
  • 使用DOM或CSS選擇器來查找、取出資料
  • 可操作HTML元素、屬性、文本

可以看到Jsoup能夠處理的檔案類型,從網址到檔案、字串,網頁資源等只要是能處理成文字的並且有特定規格的都可以使用。


所以我們著手Jsoup資料處理時,可以想像Jsoup大概都在處理什麼。

Jsoup的解析對象

  • HTML String解析
  • body片段解析
  • 從URL加载Document解析
  • 從File加载解析

那麼,有了要處理的資料對象,也要有相對應的資料處理方法。
Jsoup提供了幾個方式來作資料處理

Jsoup解析器

  • DOM
  • Select

DOM是我們說在前端進行網頁開發時,或多或少都會接觸過的架構。
Select就是Jsoup的重點了,可以透過規範格式來作抓取資料的參考。

以上就是關於Jsoup簡單介紹了。


上一篇
Retrofit 使用GET還要帶Body? 帶了還要被ERROR?
下一篇
來聊Jsoup : Jsoup的解析對象
系列文
跟Kotlin一起來聊Android元件 或許還有應用,或許還有一些資訊雜談30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言