Python 讀取含中文的 txt 檔問題

python python3 中文

kjfang 2018-04-09 09:25:01 ‧ 10412 瀏覽

分享至

Python 讀取資料時
一個中文（全形）字與一個文數（半形）字都一樣算1
小弟要讀取其他系統丟來含有中文字的 txt 檔，例如下面這樣的內容

姓名       地址                         電話
---------- ---------------------------- ------------
張三       台北市館前路5號              02-12345678
王大明     台北市中山北路二段321號      (02)87654321
諸葛小明   台北市忠孝東路二段1234號5樓  0987-654321

用一般的文字編輯器看是很整齊的 txt 檔
但用 python 讀取時，就變成長短不一
請問：該如何以 Python 正確解讀含有中文全形字的資料？

看更多先前的討論...收起先前的討論...

饅頭 iT邦新手 4 級 ‧ 2018-04-09 14:14:35 檢舉

你是想要 python 讀檔後做什麼事?
還是單純 print 出來而已?

kjfang iT邦新手 4 級 ‧ 2018-04-09 15:12:48 檢舉

回饅頭大大：
要在解讀後，依欄位資料更新或寫入資料庫。
其中有些數字欄位還要用來計算，若欄位切錯了，就會影響計算結果。

froce iT邦大師 1 級 ‧ 2018-04-09 17:24:26 檢舉

建議你用re.split或是re.findall來做，根本不用管字數又快。

kjfang iT邦新手 4 級 ‧ 2018-04-09 18:32:20 檢舉

回froce大大：
傳來的資料檔是連續的，中間沒有固定的空格或是其他符號，無法用re.split切。
同理，無法用 re.findall 搜尋哪個特定字。
貼一段收到的資料如下：
99994071100666 000000000009958000000000332.170029.9800020171201全形中文VIATION(MJE001)#JETEX 201710063

weiclin iT邦高手 4 級 ‧ 2018-04-09 19:35:59 檢舉

為什麼你收到的資料跟你上面貼的例子差這麼多..

froce iT邦大師 1 級 ‧ 2018-04-09 19:58:43 檢舉

拜託拿跟正式資料像一點的例子出來好嗎？這樣寫出來也不知道是不是你要的。

另外請去看正規表示法\S代表什麼。
findall版本：https://ideone.com/ByBDO7
split版本：https://ideone.com/1szyTo

kjfang iT邦新手 4 級 ‧ 2018-04-09 20:42:44 檢舉

感謝兩位大大的回應：
很抱歉，無法提供正式資料......
但重點就是，我想要用 Python 依固定的位置去切收到的txt檔，卻因為中文的問題，導致無法順利抓到中文後面的資料。
我之前做的例子，為閱讀方便，欄位間以空白隔開，而froce大大要我用 re 去切。所以後面才特別說明：
實際的資料是中、英、數字混在一起，且中間沒有特殊字元或空白（數字欄位未填滿前面補0、文字欄位若未填滿，後面補空白）。
其實，若欄位之間有固定的間隔字元，用csv來讀或許比用 re 要方便些。

目前小弟有一個比較麻煩的想法：
1.用 '字串'.encode('utf-8') 轉換後
2.再去計算有幾個 '\x' ，把這數字除以3，就可以知道整個字串裡面有幾個中文字
3.再依格式說明書中該欄位的長度，減去中文字數讀取。應該可以讀取到正確的資料。

只是覺得上面的步驟有點笨，所以上網來請教各位高手，是否有更好的方法。