雖然說, Data Engineer/Scientist 這邊說的資料大多是量化的數字, 但畢竟人的溝通大部份是靠語言與文字, 甚至很多原始指資料都是從文字開始, 只是透過量化的技巧去做分析的, 所以說要學會語意分析是很重要的.
當然要讓了解電腦人類的語言之前, 要我們先深入了解語言的本質, 這就包含:
等等這些的 Know-How, 這些都不能只靠數學或電腦的高手就能做到, 還要對這些語言學有足夠的了解, 這邊就是所謂的
事實上要了解這些技術, 還不如先去了解幾個方法:
要能夠做好這些事不是只有數學, 還包含其專業領域, 才能夠做好這件事, 也更能證明身為一個 Data Engineer 不能只懂得自以為須要的專業而已, 而是一個須要多領域, 跨領域與混領域的學習.
文字探勘有幾個步驟:
這些步驟若能夠完整, 文字探勘就差不多了.
但最近常看到的語意網路 Semantic Web 更是種須要建立更好的資料源的眾人智慧才能做好的, 須要挑戰的事有:
所以與其說語意網路是種技術, 更是一種標準, 目前常見的語意網路標準有:
其中可以透過下面一張圖知道個大概:
這條路單單要走深入是相當不簡單的, 完全不輸給之前說的科目/課程.
開放課程:
電子書:
關鍵字: