iT邦幫忙

數據分析相關文章
共有 174 則文章
鐵人賽 Software Development DAY 6

技術 Day 06 - FanGraphs 投球篇

pitching_stats 昨天介紹打擊,今天就要來講投球了。他們使用的參數都一樣,因為是爬同一個連結下的資料,比較大的差異就是他回傳的欄位會變成跟投球相關的...

鐵人賽 Software Development DAY 5

技術 Day 05 - FanGraphs 打擊篇

昨天介紹了 FanGraphs 這個網站,讓大家對這個數據網站有的資訊有初步的了解。今天會從 pybaseball 上的 FanGraphs 打擊資料開始介紹。...

鐵人賽 Software Development DAY 4

技術 Day 04 - FanGraphs 介紹

簡介 FanGraphs 是在 2009 年由 David Appelman 所創立的棒球資訊網站,上面除了提供棒球相關的歷史數據之外,也有聘請專業分析師,以部...

鐵人賽 Software Development DAY 3

技術 Day 03 - 球員 ID 搜尋

在正式開始介紹數據功能前,我想先介紹 pybaseball 的球員 ID 搜尋功能。因為各大網站辨別球員的方式會有所不同,所以我們需要先獲得相對應的球員 ID...

鐵人賽 Software Development DAY 2

技術 Day 02 - 環境設置

昨天簡單介紹了 pybaseball,接下來我會介紹平常使用的開發環境與工具,希望能讓大家在起步用 Python 進行棒球分析更順利。 Jupyter Note...

鐵人賽 Software Development DAY 1

技術 Day 01 - 前言與 pybaseball 簡介

動機 這是我第一次參加鐵人賽,參賽的動機是因為最近參加了由台灣棒壘球科學研究會舉辦的棒球數據競賽,雖然最後很可惜沒有入圍決選,但也因而知道了有許多不一樣的人們有...

技術 Excelize 釋出 2. 7.1 版本,開源的 Excel 檔案基礎庫

Excelize 是 Go 語言編寫的用於操作 Office Excel 檔案基礎庫,基於 ECMA-376,ISO/IEC 29500 國際標準。可以使用它...

鐵人賽 AI & Data DAY 30

技術 〔Day30〕最後一天!心得回饋與30天連結一次看!!

終於迎來最後一天了!沒想到這天的到來會讓人如此感動這三十天,每一天都在吸收、成長,並且「學著如何寫出一篇篇教導他人的文章」。以下來跟大家說說又過了30天的心路歷...

鐵人賽 AI & Data DAY 30

技術 Ɖ30-結語/ 先別急著停下腳步

先別急著停下腳步 清華大學的彭明輝老師在他的碩士新生手冊中,有寫到這句讓人感到玩味的話「什麼時候需要讀完弄懂一篇論文所有的恆等式推導過程? NEVER 你只需要...

鐵人賽 AI & Data DAY 29

技術 〔Day29〕所有Orange初始教學片中的數據資源包,一次交給你!

在倒數兩天,接著就要跟大家Say Goodbye了,那在完賽前,要跟大家說說以下幾個事項: 鐵人賽中,參考什麼打出這些內容? 範例中,給大家使用的資源從何處來...

鐵人賽 AI & Data DAY 28

技術 〔Day28〕看看Orange將故事或文章分類的小技巧吧!

倒數兩天啦~今天要讓大家自己找檔案試試前幾集以故事為主題的教學,那就直接來囉! 選檔 這次大家可以選幾個類別的故事或文章,接著將它們用txt或tab檔存於檔案中...

鐵人賽 AI & Data DAY 29

技術 Ɖ29-布朗尼/ Pandas 的缺失值處理與應用

處理缺失數據 真實的數據很少是乾淨的。更常見的情況是,很多有意思的數據集都有很多的數據缺失。更複雜的是,不同的數據源可能有著不同指代缺失數據的方式,我們會將這些...

鐵人賽 AI & Data DAY 28

技術 Ɖ28-布朗尼/ Pandas 的索引探討與應用

索引過程 我們介紹過DataFrame表現得既像二維數組又像由共同的索引值組成的Series對象的字典。這能幫助你學習如何在DataFrame裡面進行數據選擇。...

鐵人賽 AI & Data DAY 27

技術 〔Day27〕用線性迴歸預測童話故事的類別-Logistic Regression

於上一篇,我們懂得如何歸類故事類別,那麼今天將帶大家用機器學習模型對新故事進行分類!我們開始執行吧~ 匯檔→預處理→增加文字轉換成數值之屬性 這邊跟上一篇一樣,...

鐵人賽 AI & Data DAY 27

技術 Ɖ27-布朗尼/ Pandas 的數據結構 Series 與 Datafram

從 Numpy 到 Pandas 的過程 NumPy 的數據結構為數據分析不可少的功能,雖然 ndarray 的功能已經很強大,但是當我們需要更多的靈活性的時候...

鐵人賽 AI & Data DAY 26

技術 〔Day26〕看看Orange歸類文本之效果

經過上一篇文字預處理後,我們會得到一行行的文本內容,但這樣對於機器學習來說是無法好好讀取訊息的,所以要將這些單字轉換成數值,以便後續操作。來!我們快點開始動手實...

鐵人賽 AI & Data DAY 25

技術 〔Day25〕文字預處理,過濾多餘的詞-Text

在前幾次,我們有用表格與圖像的數據來進行分析,那麼今天要來點不一樣的,換成如標題所說的「文本」做主題啦~~預備備~開始! 安裝文字插件 打開Orange上的工作...

鐵人賽 AI & Data DAY 26

技術 Ɖ26-布朗尼/ Numpy 常見四大類型介紹

從實作回到理論 你知道,在過去25天中,我們從最初的 Kaggle 進行資料 Insign 尋找,我們解析了各式不同的資料類型,並且找到合適的方法將他做分析。後...

鐵人賽 AI & Data DAY 25

技術 Ɖ25-布朗尼/ Numpy 多維陣列呈現

布朗尼 Chocolate brownie 邁入倒數的五天了,轉眼間發現30天的挑戰賽其實過得非常快,許多內容皆在轉眼間。而最後一篇章節我所要講的主題稱為布朗尼...

鐵人賽 AI & Data DAY 24

技術 〔Day24〕零程式的圖像分析(二)-Classification

在上一篇中,我們是將許多張未分類過的圖像數據,讓電腦幫我們分類與查看它們之間的相似度(屬於無監督式學習);那麼今天,就是要將另外一群已分類好之圖像數據,進行模型...

鐵人賽 AI & Data DAY 24

技術 Ɖ24-溫沙拉/ 自定義欄目大小與內容

在溫沙拉結束後 After the Salade Tiede 還記得前幾天我們提到"Salade Tiede"的意思,溫沙拉的本質並未從沙拉做改變,而是在既有的...

鐵人賽 AI & Data DAY 23

技術 Ɖ23-溫沙拉/ 簡單 Pandas 匯出報表至 Excel

成功打印出樞紐分析表後 Pivot Table Print 提及了如何利用 get_level_values 來使工作自動化,我們也利用了 xs 函數來進階了解...

鐵人賽 AI & Data DAY 22

技術 Ɖ22-溫沙拉/ 進階樞紐匯出報表

樞紐匯出表 Reports from Pivot Table 上一篇關於數據透視表的文章描述瞭如何使用 pandas 的 pivot_table 功能將數據以一...

鐵人賽 AI & Data DAY 23

技術 〔Day23〕無程式的圖像分析(一)-Clustering

經過了幾次我們對於電腦內的表格或是Orange內分享的資料集進行分析,那其實數據有著許多型式,包括圖像、表格、文本或一段音頻等等,那今天我要為大家介紹的,是如何...

鐵人賽 AI & Data DAY 22

技術 〔Day22〕利用組件找出離群點-Silhouette

於第二十篇中,我們有提到Silhouette(輪廓),它是一個評估群聚效果的方法,可以幫我們找尋到最佳群聚數。而今天我們就來深入了解其含意,並且利用它來找出數據...

鐵人賽 AI & Data DAY 21

技術 〔Day21〕了解K-means的底層運作-Educational

在上一篇我們有用到K-means把數據分群以及視覺化其分群效果,但若是沒先了解過K-means的你,經由上篇應該還沒有很懂它的運作方式吧,今天我將帶你一同了解其...

鐵人賽 AI & Data DAY 20

技術 〔Day20〕在Orange中玩玩K-means帶來的效果

來到了鐵人賽的2/3天數了!再撐十天就可以完賽啦~好興奮壓>□< 我們要堅持下去壓,我相信若有看完的你們,一定會感到很充實der!準備好,我們就繼續...

鐵人賽 AI & Data DAY 21

技術 Ɖ21-溫沙拉/ 進階樞紐分析呈現與過濾式

進階樞紐分析表 Pivot table 延續上一篇的 pandas pivot_table 函數以及數據分析與思考基本問題。 2021 - juck3080...

鐵人賽 AI & Data DAY 20

技術 Ɖ20-溫沙拉/ 進階樞紐分析表

進階樞紐分析表 Pivot table 回歸昨天提到的,大多數人可能都有在Excel中使用透視表的經驗。 Pandas 提供了一個類似的函數,叫做 Pivot_...

鐵人賽 AI & Data DAY 19

技術 Ɖ19-溫沙拉/ Excel 試算表上的簡單樞紐分析

樞紐分析表 Pivot table 樞紐分析表(Pivot Table)又被稱為資料透視表,是用來匯總不同列表的數據,把表進行分組(Grouping)並且對各個...