iT邦幫忙

0

推薦 Browser/Server 架構的檔案內文搜尋軟體

目前有個需求是眾多使用者需要大量搜尋同一批 WORD 文件的內文。
是否有推薦的軟體可以使用(付費軟體亦可)。
希望是有 Browser/Server or Client/Sever 架構的軟體。
可以集中管理被搜尋的來源資料與 Index.
同時又可以讓多個使用者同時搜尋不同關鍵字
以上,麻煩大家推薦了,謝謝 !!

2 個回答

4
raytracy
iT邦大神 1 級 ‧ 2021-05-14 22:14:44
最佳解答

你可以把 WORD 文件導入 ELK 去做搜尋, 這裡有實作:
https://blog.csdn.net/UbuntuTouch/article/details/115467774

中文字會牽涉斷字詞的問題, 請安裝額外套件來解決:
https://blog.toright.com/posts/5319/fulltext-search-elasticsearch-kibana-bigdata.html

關於 ELK 的特性和用途, 網路上很多文件可搜尋, 此處不再贅述...

LICHANGM iT邦新手 5 級 ‧ 2021-05-15 16:56:01 檢舉

感謝回答!
想請教中文字會牽涉斷字詞的問題這部分是什麼意思?
感謝感謝

raytracy iT邦大神 1 級 ‧ 2021-05-15 18:56:39 檢舉

例如, 你想搜尋包含:
後悔莫及
這一組詞的所有文件, 但是....

如果沒有正確斷詞的話, 他會被分別拆成:
後、悔、莫、及
四個單獨的中文字去搜尋, 結果就會搜出這四篇段落:

...自從昨天之, 我們就發現他....
...亢龍有,出自我們上古天書《易經》...
...須有出自《宋史•岳飛傳》,意思是「也許有」...
...劍。 出自:《左傳.宣公十四年》...

不幸的是, 以上四篇都跟你想找出包含:
後悔莫及
的內容完全無關....所以, 你會搜出成千上萬篇毫不相干的文件..

必須安裝正確的中文專用斷詞字典, 才能把這四個字組合成一個完整的搜尋詞彙去搜出: 真正有 後悔莫及 連續四個字的文件...

LICHANGM iT邦新手 5 級 ‧ 2021-05-19 13:41:25 檢舉

感謝說明!

1

Recoll 也可以參考看看:

[套件分享] 開源檔案搜尋與全文檢索軟體:Recoll
http://blog.jason.tools/2021/04/recoll.html

我要發表回答

立即登入回答