電子書閱讀器上的瀏覽器 [Day20] 翻譯功能 (II) 取得網頁全文

2021 iThome 鐵人賽

DAY 20

Mobile Development

如何開發適合電子書閱讀器使用的瀏覽器 Android APP系列第 20 篇

13th鐵人賽 android android app 電子書

Daniel Kao

2021-09-20 00:04:20

1457 瀏覽

分享至

接著來講講怎麼取得 browser 目前網頁中的本文內容，然後再把它轉給昨天介紹字典 App。

取得需要翻譯的網頁全文

網頁內容千奇百怪，如果直接抓取整個網頁的所有文字，其中會有很多不必要的資訊：像是標題，側邊欄，其他相關文章連結說明，留言，等等等。

這時，之前開發好的閱讀模式就可以派上用場了。閱讀模式正是把不相干的元件都去除，只留下真正重要的內容。如果先在網頁上套用閱讀模式，再抓取文字內容，就可以得到比較純正的內容。把這些內容再拿去翻譯就不會顯示雜亂無章。

閱讀模式功能採用的 Readability.js 很好心的提供了一個 textContent 的變數，讓我可以直接拿到裡頭的純文字部分。(第 563 行)

下面的程式碼片段則是在將網頁先切換成閱讀模式，然後才去取得裡頭的文字部分：

    suspend fun getRawText() =  suspendCoroutine<String> { continuation ->
         if (!isReaderModeOn) {
             injectMozReaderModeJs(false)
             evaluateJavascript(getReaderModeBodyTextJs) { text -> continuation.resume(text.substring(1, text.length-2)) }
         } else {
             evaluateJavascript(
                 "(function() { return document.getElementsByTagName('html')[0].innerText; })();"
             ) { text -> continuation.resume(text) }
         }
     }

實作上述三個環節後，就大功告成啦。由於這功能只支援 Onyx 的設備，所以我在工具列中加了一個全文翻譯的按鈕，但目前只有在 Onyx 的設備中才會顯示。