搜尋,壘球是一個至少九個人上場的比賽,如果有二軍,三軍,那隊上至少有18~27名球員,以國高中女
壘隊而言,還是一個教練負責訓練,這時候記錄的數字,能夠快速統計出球員的表現數字,幫助篩選出可
上場的最佳球員,是很重要的應用。
以守備而言,可做負面表列,以失誤來記分,漏接的球數,再細分為滾地球漏接,高(平)飛球漏接,
傳球的部分,暴傳的失誤。接球沒接好的失誤。投手的部分,這部分有很多現有的指標,大家都很熟的
防禦率,三振王(數),勝投是基本的,四壞球數也挺基本的。打擊部分,也都有不少現成的指標。
而就平常的訓練上,應該還要記錄額外的事項。
InfoQ的電子報,有一則文章,做Data Mining,其实大部分时间都花在清洗数据,
這篇文章揭漏的,大多是一般數據挖掘/探勘的工具上,較少觸及的部分,但頗基本且重要,
因為資料來源有問題,則研究模型再怎麼好也是白搭。
他提到,
大数据平台的数据源集中来源于三个方面,按比重大小来排序:
60%来源于关系数据库的同步迁移: 大多数公司都是采用MySQL和Oracle,就拿互联网金融平台来说,这些数据大部分是用户基本信息,交易数据以及资金数据。
30%来源于平台埋点数据的采集:渠道有PC、Wap、安卓和IOS,通过客户端产生请求,
经过Netty服务器处理,再进Kafka接受数据并解码,最后到Spark Streaming划分为离线和实时清洗。
10%来源于第三方数据
以球類競賽分析的論文來看,大部分來自於youtube,且是影像串流資料。只有大聯盟等級,這類歷史悠久的商業化
團隊,才會有交易數據。自己收集的數據少, 但少了清洗的工作。但同時也不易看出真正的趨勢。
作者以用户关系网络為例,提出了一些問題/目標,
问题一、如何先通过某个用户最近30天的IP列表去找到使用相同IP频数最多的那一批用户列表呢?
问题二、如何结合关系网络的每个维度(IP、设备指纹、身份证、银行卡和加密隐私等等),
去挖掘与该用户关联度最高的那一批用户列表?
问题三、如何对接产品标准化模型输出,让页面查询的效应时间变得更快些?
示範一下清洗的動作,基本的sql ,就算是no-sql的潮流方興未艾,裏面還是有基本的sql。