我後來研究了一下,這邊碰到的亂碼問題是在medical dataset裡面就存在的,是數據本身的問題...
恩~謝謝你的建議,我應該會用使用的dataset自己重新訓練一個tokenizer來解決亂碼的問題~...