iT邦幫忙

2023 iThome 鐵人賽

0

經過文字分析後,獲得的結果成為詞(Term),我們利用它建立索引。首先使用獲得的詞建立一個字典,然後對字典按字母順序進行排序,最好合併相同的,行程文件倒排表(Posting List)。
1 使用此產生字典
2 對字典按字母順序排序
3 合併相同的詞,形成文件倒排鏈結串列
在文件倒排表中,有幾個概念需要解釋一下。文件頻率 (DocumeneFreauenoy),表示共有多少個文件包含這個詞。詞頻率( Term Frequency),表示這個文件中包含此詞的個數。在圖1-4 中,左邊是按字母順序排序的字典合併相同詞,並統計出該詞在文件中出現次數的結果。中間和右邊是文件1和文件2 中包含某個詞的次數一詞頻率。它們之間是用鏈結串列的形式串起來的,又因為是根據詞的值來尋找相關文件的,而非在文件中尋找相關的值,和正常順序是相反的,故稱其為文件倒排鏈結串
列或倒排索引。


參考資料:深智數位《CV+AI自己動手完成圖像搜尋引擎》


上一篇
旋積神經網路—旋積
下一篇
局部特徵—SIFT描述符號1
系列文
多媒體:影像處理30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言