iT邦幫忙

0

中文辯視方面的困惑

  • 分享至 

  • xImage

大家好:
我又來問PDF檔案的問題了

我有支PDF檔, 位置如下,檔案有50M
http://www.heyday.com.tw/_TEMP/cc_scan.rar
它是PDF檔案形式
有273頁
中文直式的
不是用WORD轉檔
是掃瞄轉成PDF檔

檔案內容是絕版的古書
我們是家受某研究機構委託的公司
需要將其內容轉為文字檔(.TXT)
因為內容含很多框線
手邊的辯視軟体(漢王)需將框線刪除
才可以進行辯視
又沒有其它的軟体
不知iT邦這裡有否好心的前輩
方便將其轉成TXT檔(毋需校稿)
或告知以何軟体處理
無需刪除框線
即可進行OCR辯視
因不方便將信箱秀出
還請好心的前輩代為轉檔後
再以簡訊通知

以上

鐵殼心 iT邦高手 1 級 ‧ 2013-06-20 18:02:51 檢舉
"辨識" 不是 "辯視" Orz
別挑我錯字了.
錯別字挑不完的..
也看過很多人都在「做車」...
筆記
ted99tw iT邦高手 1 級 ‧ 2013-06-22 15:43:58 檢舉
iT邦幫忙MVPtecksin提到:
"辨識" 不是 "辯視"


其實寫成“弁四”也成啊...偷笑
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
4
poemnite
iT邦研究生 2 級 ‧ 2013-06-20 16:34:18
最佳解答

剛用 ABBY FineReader 11 試過
辯識率大概六到七成左右

竹添光鴻會箋
周南關雎話訓傳第一 毛詩國風
~箋曰、趴氏詩譜云、員召者禹實雍州岐山之陽地考今屬右扶風美陽;1朱》 子集傳云、在鳳翔府岐山縣、明淸因宋制不改、而漢美陽縣兼有今扶胍縣 之地、周、地名、猶之召亦地名、非後來之國號矣、周召同爲地名、猶之.邶與『 亦同爲地名也、周召皆畿內之地、則應同隸於王、必繫之周召者、以所得詩 I:之,地名之、存其舊也、二南皆民聞歌^謠、其體係乎瑪所稱淑女、君子II夫八^| 子、之子、皆自民間口中說出也、正義..曰II雎者詩篇之名、旣以關雎爲首、遂 '以關聽歲一卷之目^請傳者注解之別名、漢初爲傳訓#、罾與經別行、『^1 傳之文、不與經連、故石經書公羊傳、皆無經文、藝文志云、毛詩'經二十九'卷、圓 ~毛詩故訓棒三十.卷、是.毛爲詁訓、亦與释別也、及爲周禮之注、乃云欲 省擧者猶讀、敌属載本史、然則後漢以來、始,就邀爲注、未審此詩引經附德、 是誰爾之、其毛詩經二十九卷、不知併何卷部關雎第一、元是丸師所題也、~ 詁訓傅毛叫題之、睦:德明.釋文.云、故賴:舊本名作故、今或作詁、案詁故皆是 古義.1-以献行、今宜隨本、不煩改夫蘑瑞辰玛漢藝到割歡家化六务#!以 ^故名隹、鲁故‘韓故#后总故.孫氏故、是也、有以薅名者、赛后氏傳瘭氏傳.韓 :| || &奢拿磬周南願料―I―^:「「舻:I拖,樓
卷第一
毛詩會箋
| | 1「「110 1為3 一
內傳外傳、是也、惟毛詩兼名話訓#,、員書揚—罾II少而好學术爲章句、 訓故通而已、後漢書桓譚傳亦言、譚循通五.經、皆話訓大義、不爲章句、則知 ^話訓與章旬有辦、章旬者..離,I早辨句、委曲支派、而語多傅會、繁而不殺、劇邕 所謂前儒特爲章句.者、皆用其,意、傅#其本.「辱者也、詁’訓.則博習古文、通其〈 丨8!:抝假垮不煩章解旬釋、面典翁良鼸秦燦胸禽儒林傳、漢藝刻志.皆言#:71 申公爲詩訓故、而漢#楚元主傅,及魯+豫先賢傳皆言.申公始爲說傳、則知 漢志所載^故者、卽昏傳也、何体^公羊傳法亦1傳謂話訓、似 無甚異、而漢泰.魏載齊后我1氏傲着故、#繁齊后氏傳孫兵1內外 傳、即|||1亂||#文自不同、蓋散言則故訓傳俱#通衝對言則故訓—傳異、 連言轮爽與分言故訓者又,異、故領卽:.古#11、又作詁訓、說文、話零故言也、至 於傳。則釋名訓爲傳示之#、正義以爲#!通其義、蓋話1111第就^
而詮釋之、傳:則蓝經文所未言者,而引:伸之、此詁訓與傳之別也、古有倉頡一 訓故、又有三蒼訓&:連#软訓砠、爾#'廣雅俱以#話釋 曰、話者古也、古今異語、通之使人知也、酬者道也、道物之貌以吿人也、此分一 言話訓也續話故.言、由今通古皆曰話:割^!^!!)!!!詁、而單詞則爲話、‘I 重語則爲訓話、第就其字之羲旨而證明之、訓閲喷^之比興而訓導11: 此話與訓之辨也、毛八^!1.多古文^:#!^!#!^!^!!)!!!#!,^^!?^'書^1
話訓傳、嘗卽關雎一詩言之、如^!^.#逑匹也之類、話之體也、關關和聲也之」 ^!、丨訓之體也、若夫婦有別則一 廷正則王化成、則傳之體也、而餘可類推矣、訓故不可以該傳、而傳可以統|

看更多先前的回應...收起先前的回應...

辯視度有7成即可
我主要是可以省去刪格子的時間
可以完全轉檔嗎
273頁
不知需多久時間
若真得可以處理到6-7成
我會認真考慮是否採購此產品
因為日後還有許多case.謝謝

yesyesok iT邦研究生 4 級 ‧ 2013-06-20 17:55:23 檢舉

網路上似乎有試用版!?@@
總之先用過再決定,不然買了覺得不好用老闆會瞪你@@

我是老闆,沒有人會蹬我..

poemnite iT邦研究生 2 級 ‧ 2013-06-21 10:18:04 檢舉

網路上有試用版
每次可以辯識一頁
不想買的話, 就把 PDF 先存成 JPG
再來一頁一頁轉也可以

PDF 一定要先最佳化
轉成 JPG 也有好處, 銳化再拉高對比, 可以增加辯識率,
我拿第一頁轉 JPG 再處理後丟給 Abby, 其實效果還可以:

色寺I!|1丨1~|^0!、五"本無、今依唐& 芽一及摺本延文本補、每卷首放.之、
竹添光鴻會:::;
周南關雎話訓傳第一 毛詩國風
箋曰、鄭氏詩譜云、周召I者劚實雍州岐山之陽地名、今屬右扶風美陽:.縣、朱 子集傳云、在鳳翔府岐山縣、明淸因宋制不改、而漢美陽縣兼有今扶胍縣 之地、周、地名、猶之召亦地名、非後來之國號矣、周召同爲地名、猶之’邶與鄘 亦同爲地名也、周召皆畿內之地、則應同隸於王、必繫之周召者、以所得詩 I之,地名之、存其舊也、二南皆民間歌謠、其體係乎風、所稱淑女、君子、與夫公 子、之子、皆自民間口中說出也、正義.5、關雎者詩篇之名、旣以關雎爲首、遂 以關雎璐一卷之目、話訓傳者注解之別名、漢初爲傅訓者、皆與經別.行、三 傳之文、不與經連、故石經書公羊傳、皆無經文、藝文志云、毛詩經二十九卷、 毛詩故訓傳三十.卷、是.毛.爲詁訓、亦與鞸別也、^.員融爲周禮之注、乃云欲 省學者兩讀、故具載本丈、然則後漢以來、始就邂爲注、未審此詩引經附得、 是誰免之、其毛I詩經二十九卷、不知併何’化、關雎第一、元是大師所題也、 詁訓傅毛良題之、睦:德明釋文.云、故棚舊本多作故、今或作話、案話故皆是 ^|義、所以#:行、今宜隨本、不煩改字、馬瑞辰曰、漢.藝文志載静凡六家、有以 ^故名者、魯故^韓故.齊后氏故.孫氏故、是也、有以磚名者、齊后氏傳^孫氏傳.韓 , |一 &奢拿薯周南關唯丨 ^ ^ 一「1獨I抱,樓
卷第一

tamp0001 iT邦新手 3 級 ‧ 2013-06-21 15:32:49 檢舉

試過幾個 OCR 軟體,推薦 ABBY FineReader,原稿掃描解析度調高一點、OCR 軟體一些辨識設定正確,對辨識也有幫助。

我有抓試用版
只能用50頁和15天..落寞

poemnite iT邦研究生 2 級 ‧ 2013-06-24 17:11:38 檢舉

一套不到 3000 元, 老闆就直接買了吧
反正沒有人會瞪你阿.. 拍手

http://buy.yahoo.com.tw/gdsale/gdsale.asp?gdid=3044388

8
richardsuma
iT邦大師 1 級 ‧ 2013-06-20 14:42:29

Dear heyday:
看過你的原始PDF檔案,就如你所講273頁直式掃描格式,檔案大約61.4MB。
如果你要使用OCR辨識這個檔案會有下列問題:

  1. 檔案太大,使用 Adobe Acrobat 做OCR辨識會當機。
  2. 即使使用 Adobe Acrobat 的OCR,也無法完全辨識所以文字,
    所以你的要求「毋需校稿」是不可能?
  3. 如果轉存 Word 檔,超過 512 MB,會開不起來,所以也不可行?
  4. 使用其他 OCR 辨識軟體,一樣會出現「格式對不齊」、「文字無法辨識」、「甚至會多出字元」...等?
  5. 就算先將印出,再以事務機掃描成 Word,也會出現第4點一樣的狀況。
  6. 還有原始檔案的格式,除了有特定格線外,還加上字體大小不一,段落空白也不相同,這些在在影響
    OCR 辨識的困難度。

所以,以其要花非常多的心力,用 OCR 辨識,不如找一位工讀生重新輸入比較快。
不是使用 OCR 就會比人工快...哈哈

看更多先前的回應...收起先前的回應...
yesyesok iT邦研究生 4 級 ‧ 2013-06-20 14:49:57 檢舉

樓上說的沒錯
https://mega.co.nz/#!adEBxYQT!MpE7_xyuC8_9AakR9GaxGEBUWRkI1H_JkDs6NYzruWQ

https://mega.co.nz/#!adEBxYQT!MpE7_xyuC8_9AakR9GaxGEBUWRkI1H_JkDs6NYzruWQ
這是我用ACROBAT轉的檔,文字檔不用說完全不能看
文字辨識則是到第28頁鐵當~所以我跳過那頁把其他都辨識完
辨識的結果你下載回去看看= =....

不知yesyesok所用的辯視系統為何??疑惑

richardsuma 說:
2. 即使使用 Adobe Acrobat 的OCR,也無法完全辨識所以文字,
所以你的要求「毋需校稿」是不可能?

我所說「毋需校稿」是指:辯視後,我再自行校稿,無需請前輩您校稿..謝謝

真的不建議你使用 OCR。

不過你真的要用,試試Plustek,買 Scanner 就附送了。
如果沒有格線且字體大小一樣,辨識度應該可以上看80%以上。
因為之前有測試過...哈哈

newkevin iT邦高手 1 級 ‧ 2013-06-21 09:53:02 檢舉

檔案太大 可以 另存2個檔案 在不行 在切哈哈

6
花輪
iT邦大師 1 級 ‧ 2013-06-20 22:45:35

建議 GOOGLE 一下 JOCR => http://everrex.com/

另外,台灣的力新國際有出 丹青OCR 最新版是 V5.5,下載:
http://www.newsoft.com.tw/download/download_login_style.php?F_Id=19&P_Id=17

Try it~ Good Luck!

JOCR 檔案小,效果又奇佳
辨識效果還不錯
很陽春又很簡便的系統
只是它不能批次處理
嘆氣

我要發表回答

立即登入回答