iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
生成式 AI

30天掌握生成式AI的未來應用系列 第 16

Day16:實作第六天-醫療文本處理(python)

  • 分享至 

  • xImage
  •  

一、前言
學習對醫療文本(如病歷、診斷報告等)進行清理和預處理。
使用程式碼完成文本清理,包括去除符號、標點、特殊字符等,為後續的文本生成奠定基礎。

二、目標
去除不必要的標點符號和特殊字符。
分詞處理:將文本拆解成有意義的單詞或短語。
去停用詞:去掉對文本主題沒有實際意義的字,如「的」、「是」等。

三、程式碼與結果
https://ithelp.ithome.com.tw/upload/images/20241008/20169264Ox5BgDKW0s.png

四、分析
通過使用jieba進行中文分詞,並結合自定義的停用詞列表,成功去除了「患者」、「醫生」等無意義詞彙,保留了關鍵診斷資訊如「高血壓」、「糖尿病」、「疲勞」等。這次的預處理結果顯示,jieba適合中文的分詞任務,並且有效提升了文本清理的準確度。去除換行符等額外字符是未來優化的一部分。這為後續進一步應用生成式AI進行診斷報告生成或摘要生成打下了良好基礎。

五、小結反思
今天的實作主題是對醫療文本進行預處理,重點是使用jieba進行中文分詞,去除無意義的詞彙。通過自定義停用詞列表,成功地將不重要的詞去除,保留了關鍵的健康資訊,如「高血壓」、「疲勞」等。這次實作展示了正確的文本預處理對後續分析的重要性。中文分詞需要更精確的工具,jieba目前比較合適的選擇,但在處理過程中仍需不斷調整停用詞列表,以確保去除所有不必要的詞彙。若未來遇到長篇醫療文本要處理時,可以寫利用程式去蕪存菁,將沒有意義的字或詞刪掉,以加速閱讀的速度及重點的整理。

我們明天再見囉


上一篇
Day15:實作第五天-AI輔助診斷
下一篇
Day17:實作第七天-醫療文本的摘要生成與優化(python)
系列文
30天掌握生成式AI的未來應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言