iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 7
0
AI & Data

跟top kaggler學習如何贏得資料分析競賽 系列 第 7

[Day 7] Word2vec, CNN

week 1 是 亞歷珊卓主講, 看了一個禮拜, 一次又一次反覆的看著, 聽者俄式英文加上不僅神似 NPH (Neil Patrick Harris in how i met your mother), 連動作, 表情, 手勢都讓我不禁聯想他們是否為親戚. 總之我很高興第二週換迪米崔, 是有點像羅斯(Friends/六人行影集的nerd)啦, 期待下一週不要像第一週這麼慌亂, 有幾天是在神智不清下完成的, 要再等有空時來慢慢修正. 因為...開學了.....言歸正傳, 今天是 text, image 的資料處理 part 2, Word2Vec 一樣是把文字變向量, 但是 pretrain model 的特性讓功能更強大, 對了文字還是 focus 在英文, 因為主流競賽是以英文為主, 圖像會談到一點 CNN.

Word2vec / w2v

詞嵌入 embeded, w2v 跟 BO W一樣是文字轉向量, 但是 w2v 是 nearby words, 且向量間可以加減運算關係後得出正確詞語. 例如常見的 king + woman - man = queen

https://ithelp.ithome.com.tw/upload/images/20190908/20108719k9rxNU65gS.png
截圖自coursera

針對字詞, 句子的 pretrained models

Words : Word2Vec, Glove, FastText, etc
Sentence : Doc2vec, etc

比較 BOW 跟 w2v

bag of words Word2vec
Very large vectoer Relatively small vectors
Meaning of each value in vector is known Values in vector can be interprested only in some cases
The words with similar meaning often have similar embeddings

Image -> Vector

CNN (convolutiontional neural network)

  1. Descriptors /描述
  2. 從 scratch 訓練 model
  3. finetuning : 在 VGG-16 之後以 2016 data science 競賽為例, Keras, PyTorch, Caffe 有常用的圖像辨識 library 直接使用.

VGG-16 架構
https://ithelp.ithome.com.tw/upload/images/20190908/20108719z9TaIA5on8.png
截圖自coursera

Finetuning example, 擴增 (image augmentation)

  • 加上 角度轉 180度的照片, 訓練樣本數增加一倍
  • 再加上 角度轉 90度的照片變成第二個 class. 依此類推可增加到 3倍, 4倍的訓練樣本數.

[原始圖檔]

https://ithelp.ithome.com.tw/upload/images/20190908/20108719cLj2TBjqBh.png

[原始+擴增圖檔]

https://ithelp.ithome.com.tw/upload/images/20190908/201087196udaxzeXFk.png
截圖自coursera

文字特徵提取, 圖像特徵提取

Text

1. 預處理

Lowercase, stemming, lemmarization, stopwords

2. 詞袋 / Bag of words

大向量
Ngram 可以用在本地文檔
TFiDF 可用在預處理階段

3. Word2Vec

相對小向量
pretrained models

Images

1. 特徵提取可依照不同 layers

2. 仔細挑選 pretrained models

3. pretrained models 也可 finetuning

4. 資料擴增可以改善 model


上一篇
[Day 6] bag of words / BOW 詞袋
下一篇
[Day 8] EDA / Exploratory Data Analysis
系列文
跟top kaggler學習如何贏得資料分析競賽 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言