玩轉資料與機器學習-以自然語言處理為例 :: 2018 iT 邦幫忙鐵人賽

王選仲(GoatWang) (jeremy4555)

iT邦新手 4 級 ‧ 點數 355

43917

累計瀏覽數

站內簡訊追蹤

鐵人檔案

2018 iT 邦幫忙鐵人賽

回列表

AI & Machine Learning

玩轉資料與機器學習-以自然語言處理為例系列

一、概述:
整個文章集將爬梳整個機器學習中(視情況談及深度學習)，取得資料、整理資料、分析資料直到預測資料的流程，並將自然語言處理作為分析及預測上面的實作案例，帶大家一步步進到機器學習的領域。
二、包含技術:
網路爬蟲、pandas資料分析、matplotlib資料視覺化、自然語言處理、分群演算法、分類演算法、視心情狀況談及聊天機器人與深度學習。
三、目標對象:
內行的人可以汲取自己不族的技術、外行的人可以做為半年的學習教材，循序入門機器學習。

鐵人鍊成｜共 31 篇文章｜ 176 人訂閱訂閱系列文 RSS系列文

2 Like 0 留言 12475 瀏覽

DAY 1

達標好文資料分析師的學習之路

預防針本文章集將以Python作為實踐語言。期望以其他語言學習者，可以參考看看就好。網路上很多影片說得很厲害，只要幾堂課的時間就可以讓你成為資料科學家，我...

2017-12-06 ‧ 由王選仲(GoatWang) 分享

1 Like 0 留言 14802 瀏覽

DAY 2

資料分析師的學習之路(續)

資料處理資料處理部分最重要的有三個部分，「標記資料」、「資料清理」以及「特徵值篩選」。標記資料標記資料的工作關注在訓練出模型之後想要預測的結果(也稱為Y或...

2017-12-07 ‧ 由王選仲(GoatWang) 分享

7 Like 1 留言 32857 瀏覽

DAY 3

達標好文網路爬蟲Day1 - 概述

前言MurMur... 原本規畫這個部分可以寫個十天左右。不過，因為我之前就有寫過爬蟲文章，所以為了不讓自己太偷懶(笑)，所以可能會縮短一點。另外，再加上，早上...

2017-12-08 ‧ 由王選仲(GoatWang) 分享

2 Like 1 留言 34649 瀏覽

DAY 4

網路爬蟲Day2 - html檔的取得及常見問題

一、概述要取得html檔，我們首先就必須了解，前端(瀏覽器)是如何跟每個網站的伺服器要資料，以下詳細說明。二、Http動詞從RestfulApi的理論來說...

2017-12-09 ‧ 由王選仲(GoatWang) 分享

7 Like 1 留言 51934 瀏覽

DAY 5

達標好文網路爬蟲Day3 - html檔的取得及常見問題(續)

接續昨天的文章... 4. 實務問題三: 一般網站的防爬蟲機制因為網站的防爬蟲機制，一般都是在requests的階段會碰到問題，所以就在這部分講一講，比較常遇...

2017-12-10 ‧ 由王選仲(GoatWang) 分享

1 Like 0 留言 38903 瀏覽

DAY 6

網路爬蟲Day4 - html檔的解析

概述在解析html檔時，我們首先需要了解兩個概念，第一個是html標籤，這個部分也是組成網頁的最主要部分，第二個是定位html標籤的方法selector以及X...

2017-12-11 ‧ 由王選仲(GoatWang) 分享

0 Like 0 留言 12469 瀏覽

DAY 7

網路爬蟲Day5 - 爬蟲進階: 非同步爬蟲程式的撰寫

概述在網頁的取得上，因為每次去要求server回傳html檔時，都要等待回應一段時間，此時client端(也就是你的電腦)其實是沒有在運算的，因此若能夠使用這...

2017-12-12 ‧ 由王選仲(GoatWang) 分享

2 Like 0 留言 11082 瀏覽

DAY 8

網路爬蟲Day6 - 爬蟲進階: 非同步爬蟲配上多執行續

概述在開始看這篇文章之前，非常建議大家先熟悉個別的技術: 非同步技術以及多執行緒網頁爬取技術。以下，我想針對「他們的差別」以及在「多執行緒的技術理解焦點」兩個...

2017-12-13 ‧ 由王選仲(GoatWang) 分享

1 Like 0 留言 30037 瀏覽

DAY 9

達標好文 Python與MongoDB的互動

承接著爬蟲，大家或許對於爬下來的資料如何儲存還是會有一點疑惑，當然最簡單的方式其實就是存成txt檔，不過讀檔出來時就可能會遇到一些障礙。進階一點，你可以選擇js...

2017-12-14 ‧ 由王選仲(GoatWang) 分享

0 Like 0 留言 15590 瀏覽

DAY 10

Pandas(Python中的Excel)Day1-資料類型與讀寫檔案

前言 Pandas作為Python最強大的表格處理工具，其操作上非常簡單、方便，也很彈性。所謂簡單，指初學寫程式的人也容易快速上手。所謂方便，指程式碼很短、很簡...

2017-12-15 ‧ 由王選仲(GoatWang) 分享

王選仲(GoatWang)的鐵人檔案

王選仲(GoatWang)的收藏

王選仲(GoatWang)的追蹤

王選仲(GoatWang)的Like

王選仲(GoatWang)的紀錄

王選仲(GoatWang)的訂閱列表