iT邦幫忙

2023 iThome 鐵人賽

DAY 1
0

動機

這是我第一次參加鐵人賽,參賽的動機是因為最近參加了由台灣棒壘球科學研究會舉辦的棒球數據競賽,雖然最後很可惜沒有入圍決選,但也因而知道了有許多不一樣的人們有意願一起參與棒球數據的研究。因此,想藉此介紹 pybaseball 這個工具,讓更多人能更快了解如何使用,並能激發出更多有趣的想法與運用,讓棒球數據分析的環境更熱絡。同時也希望在撰寫的過程中,能夠更熟悉這項工具,知道更多好用的方法介紹給大家。

pybaseball 介紹

pybaseball 是一個 Open Source 的 Python package 公開在 Github 上,用來取得 Baseball ReferenceBaseball Savant 以及 FanGraphs 等數據網站上的數據資料。雖然上述幾個網站的棒球數據都是免費公開的,但他們都只提供使用者在網站上面瀏覽查看,並沒有提供 API 給所有人使用。因此,假設有其他客製化的需求,像是建立機械學習的模型,或是圖表的呈現,可能就需要自行想辦法擷取內容到自己的介面做運算。

pybaseball 使用網頁爬蟲,或是直接抓取網站提供的 CSV 檔後,幫使用者抓下數據並轉換成整理好的 Pandas DataFrame,最後根據內容整理出不同的 Python methods 供大家使用。舉例來說,statcast_batting method 就是用來取得 Statcast 的打擊資料。有了這些 methods,我們就能方便且快速地取得我們想要的資料。之後的文章將會一一詳細介紹他們與他們可能的實際運用。

未來 30 天預定

本系列除了最開始的一些基本介紹,之後會大致分為五個部分來做介紹,最後可能會有個總結或是教大家如何貢獻,但也可能會隨著時間做些調整,畢竟計畫總是趕不上變化。

  • 基本介紹 (包含環境)
  • FanGraphs 相關 methods 與原始碼
  • Statcast 相關 methods 與原始碼
  • Baseball Reference 相關 methods 與原始碼
  • 其餘相關的 methods
  • 如何在 Github 上面進行貢獻 (如果還有篇幅)
  • 總結

本日小結

今天先簡單介紹一下我這次參賽的動機以及 pybaseball 的由來,以及這次鐵人賽的未來計畫,感謝大家耐心的看完。明天會來介紹一下開發環境,跟一些平常我開發時會使用的工具。這是我第一次參加,歡迎大家給我任何建議與指教,如果有哪些地方有錯誤也歡迎指正。


下一篇
Day 02 - 環境設置
系列文
Python 棒球數據分析套件 pybaseball 介紹30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言