一、前言
學習對醫療文本(如病歷、診斷報告等)進行清理和預處理。
使用程式碼完成文本清理,包括去除符號、標點、特殊字符等,為後續的文本生成奠定基礎。
二、目標
去除不必要的標點符號和特殊字符。
分詞處理:將文本拆解成有意義的單詞或短語。
去停用詞:去掉對文本主題沒有實際意義的字,如「的」、「是」等。
三、程式碼與結果
四、分析
通過使用jieba進行中文分詞,並結合自定義的停用詞列表,成功去除了「患者」、「醫生」等無意義詞彙,保留了關鍵診斷資訊如「高血壓」、「糖尿病」、「疲勞」等。這次的預處理結果顯示,jieba適合中文的分詞任務,並且有效提升了文本清理的準確度。去除換行符等額外字符是未來優化的一部分。這為後續進一步應用生成式AI進行診斷報告生成或摘要生成打下了良好基礎。
五、小結反思
今天的實作主題是對醫療文本進行預處理,重點是使用jieba進行中文分詞,去除無意義的詞彙。通過自定義停用詞列表,成功地將不重要的詞去除,保留了關鍵的健康資訊,如「高血壓」、「疲勞」等。這次實作展示了正確的文本預處理對後續分析的重要性。中文分詞需要更精確的工具,jieba目前比較合適的選擇,但在處理過程中仍需不斷調整停用詞列表,以確保去除所有不必要的詞彙。若未來遇到長篇醫療文本要處理時,可以寫利用程式去蕪存菁,將沒有意義的字或詞刪掉,以加速閱讀的速度及重點的整理。
我們明天再見囉