一、概述:
整個文章集將爬梳整個機器學習中(視情況談及深度學習),取得資料、整理資料、分析資料直到預測資料的流程,並將自然語言處理作為分析及預測上面的實作案例,帶大家一步步進到機器學習的領域。
二、包含技術:
網路爬蟲、pandas資料分析、matplotlib資料視覺化、自然語言處理、分群演算法、分類演算法、視心情狀況談及聊天機器人與深度學習。
三、目標對象:
內行的人可以汲取自己不族的技術、外行的人可以做為半年的學習教材,循序入門機器學習。
提醒: 本篇文章的code在這裡: iThome鐵人文章分析 MurMur 在寫這堆文章前,自己對於這個自己文章的期許,大約是用有架構跟條理的方式呈現給大家。這...
前言 接下來為了讓大家有實際操作的機會,我將以kaggle中Titanic練習資料集作為示範,詳細的內容請自行詳閱比賽中的資料介紹頁面。另外,由於後續的文章應該...
提醒: 本篇文章的code在這裡: Titanic DataFrame的索引 pandas好用的原因其中之一就是其索引的功能非常強大,相比於sql語法要敲一長串...
提醒: 本篇文章的code在這裡: Titanic 新增資料 新增資料有兩種可能的意思: 要新增column或是要新增row,在pandas可透過concat完...
提醒: 本篇文章的code在這裡 概述 所謂自然語言處理,就是希望可以讓電腦讀懂人類的文字。不過,這篇文章只會處理已經存成文字檔的文字,暫時不會提到手寫文字辨識...
前言 中文自然語言處理,與英文最大的差別就在斷詞,但是說實話,這個部分至今仍然沒有一個套件可以做好很好。目前而言,繁體中文有兩個套件可以使用,一個是中研院開發的...
概述 文件檢索英文叫Inofrmation Retrieval,簡稱IR。簡單來說,他想要處理的問題就是:如何在大量的文件中,尋找出使用者需要的那一份文件。 這...
續 承接上一篇文章,爬蟲、整理分析方法都已經在前面文章教學過,本篇文章就直接進入正題,進行分析。 各組別文字分析(全文) def tokenize(senten...
code在這裡 前言 昨天雖然已經交代過理論,也有一些些簡單的實作,不過為了讓大家更了解一般會如何打造出一個檢索引擎,因此這篇文章將帶領大家一步步打造出一個檢索...
一、前言 在評價資訊檢索時,人們在意的指標有很多面相,在過去比較重要的像是搜尋的數量跟速度,但隨著科技的進步,現在更趨向於不同面相精準,這也是本章節的重點。不過...