iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 20
0
Big Data

體育競賽及日常生活裏遇到的數據收集及分析系列 第 20

體育競賽資料收集器:快速壘球篇之七

  • 分享至 

  • xImage
  •  

搜尋,壘球是一個至少九個人上場的比賽,如果有二軍,三軍,那隊上至少有18~27名球員,以國高中女
壘隊而言,還是一個教練負責訓練,這時候記錄的數字,能夠快速統計出球員的表現數字,幫助篩選出可
上場的最佳球員,是很重要的應用。

以守備而言,可做負面表列,以失誤來記分,漏接的球數,再細分為滾地球漏接,高(平)飛球漏接,
傳球的部分,暴傳的失誤。接球沒接好的失誤。投手的部分,這部分有很多現有的指標,大家都很熟的
防禦率,三振王(數),勝投是基本的,四壞球數也挺基本的。打擊部分,也都有不少現成的指標。

而就平常的訓練上,應該還要記錄額外的事項。


InfoQ的電子報,有一則文章,做Data Mining,其实大部分时间都花在清洗数据
這篇文章揭漏的,大多是一般數據挖掘/探勘的工具上,較少觸及的部分,但頗基本且重要,
因為資料來源有問題,則研究模型再怎麼好也是白搭。
他提到,

大数据平台的数据源集中来源于三个方面,按比重大小来排序:
60%来源于关系数据库的同步迁移: 大多数公司都是采用MySQL和Oracle,就拿互联网金融平台来说,这些数据大部分是用户基本信息,交易数据以及资金数据。
30%来源于平台埋点数据的采集:渠道有PC、Wap、安卓和IOS,通过客户端产生请求,
经过Netty服务器处理,再进Kafka接受数据并解码,最后到Spark Streaming划分为离线和实时清洗。
10%来源于第三方数据

以球類競賽分析的論文來看,大部分來自於youtube,且是影像串流資料。只有大聯盟等級,這類歷史悠久的商業化
團隊,才會有交易數據。自己收集的數據少, 但少了清洗的工作。但同時也不易看出真正的趨勢。

作者以用户关系网络為例,提出了一些問題/目標

问题一、如何先通过某个用户最近30天的IP列表去找到使用相同IP频数最多的那一批用户列表呢?
问题二、如何结合关系网络的每个维度(IP、设备指纹、身份证、银行卡和加密隐私等等),
去挖掘与该用户关联度最高的那一批用户列表?
问题三、如何对接产品标准化模型输出,让页面查询的效应时间变得更快些?

示範一下清洗的動作,基本的sql ,就算是no-sql的潮流方興未艾,裏面還是有基本的sql。


上一篇
體育競賽資料收集器:快速壘球篇之六
下一篇
體育競賽資料收集器:快速壘球篇之八
系列文
體育競賽及日常生活裏遇到的數據收集及分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言