在這裡先預告明天會有這編文章內容的續集,今天都在閱讀文檔跟測試程式碼,不小心讓寫作時間太緊繃
前幾天的文章開始導入運用 Spacy 的 Dependency Parsing 結構分析,也針對找出意見句中的意見持有者、意見動詞、意見句範圍的任務設計了第一個版本的 match pattern,但是問題來了,有第一版後要怎麼產生出第二版的 match pattern?在這麼大量的新聞資料下,怎麼比對標註結果是否正確會是比較有效率的工作流程?
人工比對每張 Displacy 產生的圖表顯然不是個好辦法,所以我決定使用現成的標註工具來輔助我完成正確結果的標注與比對。
由於之前的程式碼大多仰賴 Spacy,所以首先找到的自然是由同一生態環境開發的標著工具 — prodigy,但因為 prodigy 只有貴的嚇到我的付費版本,所以並沒有採用。在經過一番網路搜尋後決定採用有免費版本的 Label Studio 這樣標註工具。
Label Studio 這樣標註工具的應用範圍很廣,包含圖片、音訊、文字、影片等形式的資料標註,並且有著支援預先標註、可搭配 ML backend 的特色。
由於今天沒寫完將昨天 [Day-13] 以 Spacy 的 DependencyMatcher 找出意見持有者、動詞、句子範圍 的標注結果作為預先標註輸入到 Label Studio 的程式碼,接下來會先簡單介紹 Label Studio 的安裝、啟動與網頁介面操作,剩下的部分會在明天繼續。
pip install label-studio
label-studio start
執行上方程式碼後,可連線到 Label Studio 的網頁介面 http://localhost:8080。
http://localhost:8080/user/signup
http://localhost:8080/user/login
http://localhost:8080/projects
注意:這次所開發的應用會使用到 NLP 的 NER 標註模板,後續再針對需求做更改。
點選上一張圖右上角的 Setting ,再點選 Labeling Interface,就可以看到以下畫面。
Template 的 html 程式碼定義了使用者的標注介面,以及如何讀取要標注的資料。