iT邦幫忙

data mining相關文章
共有 24 則文章
鐵人賽 學生 DAY 4

技術 Data Mining:Day 4 - Data Mining 工具介紹 - Weka

Weka 是...? Weka (Waikato Environment for Knowledge Analysis),是一套提供 data mining...

鐵人賽 學生 DAY 7

技術 Data Mining 學習路 - Day 7 資料處理第一步:(3)準備輸入檔案 ARFF

# 分析檔案的第一步 準備輸入檔案是任何分析的第一步,但並不是把想要的研究的資料湊在一起就好, 除了必須依照程式的規格來建構檔案,也因為現實中的資料往往存在著各...

鐵人賽 學生 DAY 6

技術 Data Mining:Day 6 資料處理第一步:(2)研究你的資料

# 資料的呈現 當我們決定了我們的分析目標後,就必須找一個方式來整理資料,如果資料沒有經過整理,就會像一堆糾纏在一起的毛線一樣,根本無從去做分析跟理解。 資料有...

鐵人賽 學生 DAY 3

技術 Data Mining 學習路:Day 3 - Data Mining 的應用實例

應用案例這回事網路上很多,也有各種書籍跟論文在介紹和探討不同領域的應用,這邊就大概講一下有什麼比較常見的應用吧。 商業上的應用 商業應用算一般人滿常見到的一種資...

鐵人賽 學生 DAY 15

技術 將資料化為資訊:Divide and Conquer - Decision Trees(2/2)

# information entropy 要怎麼算? 基本的公式在此: ps.1 Pn 表示 個別分類結果的占總數量有多少 ps.2 通常 log 以 2...

鐵人賽 學生 DAY 10

技術 Data Mining 學習路: Day 10 資料如何呈現:(3)Instance-based Representation and Clusters

# 單純的呈現方式:Instance-based Representation Instance-based representation 其實滿原始的,這個方...

鐵人賽 學生 DAY 2

技術 Data Mining 學習路:Day 2 - 簡介 Data Mining 及相關領域

# 數據挖掘, 挖什麼? 在過去,小規模的資料分析只要靠人就可以做了,然而隨著網路的發展以及資料儲存技術的提升,資料越來越多,慢慢出現那種資料量大到無法以人工的...

鐵人賽 學生 DAY 5

技術 Data Mining:Day 5 資料處理第一步:(1)要挖什麼資料

# 四種學習種類 在分析資料之前,我們得先決定要讓我們的機器做怎麼樣的學習、想要得到什麼樣子的結果,有四種基本的形式: 分類學習(classification...

鐵人賽 學生 DAY 9

技術 Data Mining 學習路 - Day 9 資料如何呈現:(2)Trees and Rules

# Trees 這就是 tree,又稱為 decision tree。 樹幫助我們根據資料的屬性,來表達分類或者決策的結果,樹可以由上到下,很清晰地表達一個分...

鐵人賽 學生 DAY 14

技術 將資料化為資訊:Divide and Conquer - Decision Trees (1/2)

# 建立決策樹(Decision Tree) [決策樹圖] 決策樹是一種非常直覺且容易理解的分析模型,樹上的每個節點(node)代表資料的分類依據,資料通過節點...

鐵人賽 學生 DAY 1

技術 Data Mining 學習路:Day 1 - 前言

好吧,這是小弟第二次參賽,上次半途而廢了 上課上得要死要活還要準備文章真的不容易啊 XD 這次剛好有接觸到一些 data mining 的東西,想說可以來稍微...

鐵人賽 學生 DAY 11

技術 將資料化為資訊:Data Mining 基礎算法簡介

# 有了資料之後... 當輸入的資料都準備好之後,需要透過一些分析方法來取得我們想要的資訊。 往後幾天會介紹資料分析中最基本的幾種方式、如何實作以及產生的結果。...

鐵人賽 學生 DAY 12

技術 將資料化為資訊:Inferring rudimentary rules

# 簡單至上,1-rule, 1R 就如同這個方法的名字一樣,使用一個屬性(attribute)來做分類,產生一個只有一層的決策樹。 1R 簡單、低成本,但別看...

鐵人賽 學生 DAY 8

技術 Data Mining 學習路 - Day 8 資料如何呈現:(1)Table and Linear Models

# 如何呈現資料 在先前介紹資料處理的第一步時,有說到我們可以依據不同的需求,進行不同種類的學習模式,來取得我們所需的資訊。 為了能夠精準的表達不同學習模式的結...

鐵人賽 學生 DAY 13

技術 將資料化為資訊:Inferring rudimentary rules (con.)

繼續說說昨天的 1R 當資料屬性值有缺少時怎麼辦 如果說某一條資料裡的某個屬性值不見時,會造成 1R 無法使用,因為我們會不知道要它是啥,也就沒辦法拿它來分類...

鐵人賽 學生 DAY 16

技術 將資料化為資訊:Statistical Modelling - Naïve Bayes Classifier(1/3)

# 注意,本文有些與統計相關的知識,由於本人對於統計沒有很多研究,如果有寫錯的地方麻煩跟我說 Orz # 用統計分析解決問題 先前介紹的 1R 只用資料的一個屬...

鐵人賽 Software Development DAY 27
台南不需要米其林 系列 第 27

技術 Day27 分析訪客資訊 使用GA

前言、摘要 基本的功能已經實作完畢,只剩下陸續增加店家資訊。我們也希望平台可以讓愈多人使用愈好,為了邁向遠大的目標,我們可以做一些準備。接下來幾天內容會包含系統...

技術 數據挖掘的CRISP-DM方法論

CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業數據挖掘標準流程)是目前最為廣泛使用的數...

鐵人賽 AI/ ML & Data DAY 2

技術 [Day 2] Kaggle 自動作文評分競賽(一)- 淺談數據洩露與內容匹配:如何確認訓練數據中的潛在泄漏?

在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...

鐵人賽 AI/ ML & Data DAY 3

技術 [Day 3] Kaggle 自動作文評分競賽(二)- 比賽用的隱藏測試資料也和訓練資料一樣,有同樣的來源嗎?

前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...

鐵人賽 AI/ ML & Data DAY 6

技術 [Day 6] 別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(上)

在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...

鐵人賽 AI/ ML & Data DAY 7

技術 [Day 7]別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(中)- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...