iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2 Like 0 留言 61097 瀏覽

鐵人賽學生 DAY 4

Data Mining 學習路：概念、技術與工具系列第 4 篇

技術 Data Mining：Day 4 - Data Mining 工具介紹 - Weka

Weka 是...? Weka (Waikato Environment for Knowledge Analysis)，是一套提供 data mining...

rickjung88 ‧ 2014-09-19

0 Like 0 留言 22125 瀏覽

鐵人賽學生 DAY 7

Data Mining 學習路：概念、技術與工具系列第 7 篇

技術 Data Mining 學習路 - Day 7 資料處理第一步：（3）準備輸入檔案 ARFF

# 分析檔案的第一步準備輸入檔案是任何分析的第一步，但並不是把想要的研究的資料湊在一起就好，除了必須依照程式的規格來建構檔案，也因為現實中的資料往往存在著各...

rickjung88 ‧ 2014-09-22

0 Like 0 留言 14747 瀏覽

鐵人賽學生 DAY 6

Data Mining 學習路：概念、技術與工具系列第 6 篇

技術 Data Mining：Day 6 資料處理第一步：（2）研究你的資料

# 資料的呈現當我們決定了我們的分析目標後，就必須找一個方式來整理資料，如果資料沒有經過整理，就會像一堆糾纏在一起的毛線一樣，根本無從去做分析跟理解。資料有...

rickjung88 ‧ 2014-09-21

0 Like 0 留言 14177 瀏覽

鐵人賽學生 DAY 3

Data Mining 學習路：概念、技術與工具系列第 3 篇

技術 Data Mining 學習路：Day 3 - Data Mining 的應用實例

應用案例這回事網路上很多，也有各種書籍跟論文在介紹和探討不同領域的應用，這邊就大概講一下有什麼比較常見的應用吧。商業上的應用商業應用算一般人滿常見到的一種資...

rickjung88 ‧ 2014-09-18

0 Like 0 留言 9736 瀏覽

鐵人賽學生 DAY 15

Data Mining 學習路：概念、技術與工具系列第 15 篇

技術將資料化為資訊：Divide and Conquer - Decision Trees(2/2)

# information entropy 要怎麼算？基本的公式在此： ps.1 Pn 表示個別分類結果的占總數量有多少 ps.2 通常 log 以 2...

rickjung88 ‧ 2014-09-30

0 Like 0 留言 8675 瀏覽

鐵人賽學生 DAY 10

Data Mining 學習路：概念、技術與工具系列第 10 篇

技術 Data Mining 學習路： Day 10 資料如何呈現：（3）Instance-based Representation and Clusters

# 單純的呈現方式：Instance-based Representation Instance-based representation 其實滿原始的，這個方...

rickjung88 ‧ 2014-09-25

2 Like 0 留言 7516 瀏覽

鐵人賽學生 DAY 2

Data Mining 學習路：概念、技術與工具系列第 2 篇

技術 Data Mining 學習路：Day 2 - 簡介 Data Mining 及相關領域

# 數據挖掘, 挖什麼？在過去，小規模的資料分析只要靠人就可以做了，然而隨著網路的發展以及資料儲存技術的提升，資料越來越多，慢慢出現那種資料量大到無法以人工的...

rickjung88 ‧ 2014-09-17

0 Like 0 留言 6993 瀏覽

鐵人賽學生 DAY 5

Data Mining 學習路：概念、技術與工具系列第 5 篇

技術 Data Mining：Day 5 資料處理第一步：（1）要挖什麼資料

# 四種學習種類在分析資料之前，我們得先決定要讓我們的機器做怎麼樣的學習、想要得到什麼樣子的結果，有四種基本的形式：分類學習（classification...

rickjung88 ‧ 2014-09-20

0 Like 0 留言 6141 瀏覽

鐵人賽學生 DAY 9

Data Mining 學習路：概念、技術與工具系列第 9 篇

技術 Data Mining 學習路 - Day 9 資料如何呈現：（2）Trees and Rules

# Trees 這就是 tree，又稱為 decision tree。樹幫助我們根據資料的屬性，來表達分類或者決策的結果，樹可以由上到下，很清晰地表達一個分...

rickjung88 ‧ 2014-09-24

0 Like 0 留言 5595 瀏覽

鐵人賽學生 DAY 14

Data Mining 學習路：概念、技術與工具系列第 14 篇

技術將資料化為資訊：Divide and Conquer - Decision Trees (1/2)

# 建立決策樹（Decision Tree） [決策樹圖] 決策樹是一種非常直覺且容易理解的分析模型，樹上的每個節點（node）代表資料的分類依據，資料通過節點...

rickjung88 ‧ 2014-09-29

1 Like 1 留言 5164 瀏覽

鐵人賽學生 DAY 1

Data Mining 學習路：概念、技術與工具系列第 1 篇

技術 Data Mining 學習路：Day 1 - 前言

好吧，這是小弟第二次參賽，上次半途而廢了上課上得要死要活還要準備文章真的不容易啊 XD 這次剛好有接觸到一些 data mining 的東西，想說可以來稍微...

rickjung88 ‧ 2014-09-16

0 Like 0 留言 4507 瀏覽

鐵人賽學生 DAY 11

Data Mining 學習路：概念、技術與工具系列第 11 篇

技術將資料化為資訊：Data Mining 基礎算法簡介

# 有了資料之後... 當輸入的資料都準備好之後，需要透過一些分析方法來取得我們想要的資訊。往後幾天會介紹資料分析中最基本的幾種方式、如何實作以及產生的結果。...

rickjung88 ‧ 2014-09-26

0 Like 0 留言 4376 瀏覽

鐵人賽學生 DAY 13

Data Mining 學習路：概念、技術與工具系列第 13 篇

技術將資料化為資訊：Inferring rudimentary rules (con.)

繼續說說昨天的 1R 當資料屬性值有缺少時怎麼辦如果說某一條資料裡的某個屬性值不見時，會造成 1R 無法使用，因為我們會不知道要它是啥，也就沒辦法拿它來分類...

rickjung88 ‧ 2014-09-28

0 Like 0 留言 4338 瀏覽

鐵人賽學生 DAY 12

Data Mining 學習路：概念、技術與工具系列第 12 篇

技術將資料化為資訊：Inferring rudimentary rules

# 簡單至上，1-rule, 1R 就如同這個方法的名字一樣，使用一個屬性（attribute）來做分類，產生一個只有一層的決策樹。 1R 簡單、低成本，但別看...

rickjung88 ‧ 2014-09-27

0 Like 0 留言 4155 瀏覽

鐵人賽學生 DAY 8

Data Mining 學習路：概念、技術與工具系列第 8 篇

技術 Data Mining 學習路 - Day 8 資料如何呈現：（1）Table and Linear Models

# 如何呈現資料在先前介紹資料處理的第一步時，有說到我們可以依據不同的需求，進行不同種類的學習模式，來取得我們所需的資訊。為了能夠精準的表達不同學習模式的結...

rickjung88 ‧ 2014-09-23

0 Like 0 留言 2950 瀏覽

鐵人賽學生 DAY 16

Data Mining 學習路：概念、技術與工具系列第 16 篇

技術將資料化為資訊：Statistical Modelling - Naïve Bayes Classifier(1/3)

# 注意，本文有些與統計相關的知識，由於本人對於統計沒有很多研究，如果有寫錯的地方麻煩跟我說 Orz # 用統計分析解決問題先前介紹的 1R 只用資料的一個屬...

rickjung88 ‧ 2014-10-01

0 Like 0 留言 2845 瀏覽

技術數據挖掘的CRISP-DM方法論

CRISP-DM（Cross-Industry Standard Process for Data Mining，跨行業數據挖掘標準流程）是目前最為廣泛使用的數...

Ring.CL.Wu ‧ 2024-07-28

0 Like 0 留言 1669 瀏覽

鐵人賽 Software Development DAY 27

台南不需要米其林系列第 27 篇

技術 Day27 分析訪客資訊使用GA

前言、摘要基本的功能已經實作完畢，只剩下陸續增加店家資訊。我們也希望平台可以讓愈多人使用愈好，為了邁向遠大的目標，我們可以做一些準備。接下來幾天內容會包含系統...

yenshaoting ‧ 2022-10-12 ‧團隊台南巷弄美食獵人

1 Like 0 留言 1602 瀏覽

鐵人賽 AI/ ML & Data DAY 2

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 2 篇

技術 [Day 2] Kaggle 自動作文評分競賽（一）- 淺談數據洩露與內容匹配：如何確認訓練數據中的潛在泄漏？

在一個平凡的周末午後，高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力，但三個班每人每週一篇長文寫作，安娜的批改速度總是趕不上學生...

壓縮甜 ‧ 2024-09-16

1 Like 0 留言 1068 瀏覽

鐵人賽 AI/ ML & Data DAY 7

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 7 篇

技術 [Day 7]別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（中）- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像，老師給的分數會越高嗎？直覺上來說，摘要和原文一點都不像，應該會超低分，代表根本沒有在根據原文寫作；但如果和原文一字...

壓縮甜 ‧ 2024-09-21

1 Like 0 留言 1019 瀏覽

鐵人賽 AI/ ML & Data DAY 4

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 4 篇

技術 [Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧！

前情提要在前一天的內容中，我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...

壓縮甜 ‧ 2024-09-18

2 Like 0 留言 1005 瀏覽

鐵人賽 AI/ ML & Data DAY 5

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 5 篇

技術 [Day 5] Kaggle 自動作文評分競賽（四）- 前四名優勝作法解析：彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略

前情提要昨天我們從主題建模、prompt name 與 score 的分佈等，更全面地探勘本次賽題的訓練資料集；也透過設計一些專用於這種 code compe...

壓縮甜 ‧ 2024-09-19

1 Like 0 留言 943 瀏覽

鐵人賽 AI/ ML & Data DAY 3

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 3 篇

技術 [Day 3] Kaggle 自動作文評分競賽（二）- 比賽用的隱藏測試資料也和訓練資料一樣，有同樣的來源嗎？

前情提要昨天通過一番資料分析，確認主辦方提供的 17,307 筆 training data 中，有 12,873 筆完全一模一樣的 essay 內容出現在...

壓縮甜 ‧ 2024-09-17

1 Like 0 留言 705 瀏覽

鐵人賽 AI/ ML & Data DAY 6

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 6 篇

技術 [Day 6] 別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（上）

在一個充滿活力的校園里，安娜老師是深受學生喜愛的教師。但是這幾年她發現，在這個信息爆炸的時代，擁有良好的摘要能力變得尤為重要。然而，許多學生在總結時往往抓不住...

壓縮甜 ‧ 2024-09-20