機器視覺:目標是讓計算機能夠「看」和「理解」視覺數據,並幫我們完成分類與辨識。
人臉識別: 用於身份驗證、安全系統、社交媒體標記等。人臉辨識是一種機器視覺領域的技術,旨在識別和驗證人臉的身份。運作流程簡單來說會是:人臉偵測→特徵提取→特徵匹配。而其中在特徵提取的地方我們就可以用卷積神經網路來幫忙
醫學影像分析: 檢測和診斷疾病,例如腫瘤檢測、X光解讀、皮膚病識別等
虛擬現實和擴增現實: 用於創建虛擬世界、視覺增強的應用像是VR遊戲
交通監控: 大概在生活中最能有感覺的就是車牌識別、以及google map的交通流量監測
環境監測: 可以幫助預測氣象條件、監測地震、火災等自然災害,並監測環境中的有害物質。
之前我都講圖片的處理,那如果是文字呢?在文字方面,首先要將字轉成電腦能理解的形式,也就是要將文字轉成數字。這部分我們在最一開始有跟大家介紹過兩種方法,其中最常用的就是詞向量 (word vector)
還記得我們在做MNIST手寫圖片時有做過資料的預處理嗎?對於文字我們也需要,這些預處理步驟有助於減少文字資料的維度。我們來講一下常見預處理動作
斷句與斷字 (Tokenization): 將文本分成獨立的詞彙單元(token)的過程。 Token可以是單字、數字、符號或標點符號等。幫助將文字分解成機器可以理解的部分。
將全部字母轉成小寫: 將文本中的字母全部轉為小寫有助於減小文本資料的維度,並確保不同大小寫的詞彙被視為相同的詞彙。
移除停用詞(Stop Words): 停用詞是指那些在文本中頻繁出現但通常沒有表示特別意思的詞彙,如"the", "a", "and"等。
移除標點符號: 標點符號對於大多數NLP模型通常沒有特殊的資訊價值,因此可以被移除。但在某些情況下,問號等標點符號可能包含有用信息,因此可以保留。
中文文字預處理與英文有些相似之處,但也有一些不同之處。接下來我們來講講中文的處理方式
中文字元編碼: 在處理中文文字時,需要確保文字以正確的字元編碼進行處理,如UTF-8編碼。
移除停用詞: 像英文一樣,中文文本中也包含許多停用詞,如「的」、「是」、「在」等。 這些詞彙通常沒有特定語義,因此可以被移除。
移除標點符號: 與英文一樣,標點符號通常被移除,因為它們通常不攜帶特定語意訊息。
中文字元規範化: 中文文字中的字元可能有不同的形式,繁體字和簡體字等。在預處理過程中,可以對字元進行規範化,確保它們具有一致的形式。
完成這些預處理步驟後,我們就可以來架設模型讓文字用於各種NLP任務,例如文字分類、情緒分析、資訊檢索等。
最後30天的競賽這樣就寫完了,最後一天真的覺得把所有我讀到、學會的都已經記錄下來,有點不知道要寫什麼有點可惜。
有人說養成一個習慣需要 21 天,放棄只需要 1 天,這連續 30 天裡每天都學一點知識,其實也格外覺得充實,雖然常常想破頭不知道怎麼寫怎麼表達。
能堅持下來的人都很了不起,《原子習慣》一書說過「每天進步1%,一年後你會進步37倍」,希望大家都可以獲得自己想要的。謝謝大家