舉個平時所接觸到的巨量資料例子:金融領域應用,股市、匯市、債市... 有人向銀行申請信用卡不過,就是因為銀行的系統偵測到一個人可能有多張信用卡,此時再根據其他因素推斷是否繼續讓此人多申辦是合適的。金融科技以網路平台為基礎,透過網路互聯進行金融服務,以線上服務架構出金融科技雲端服務平台,以社群以社群網路和搜尋引擎使用大數據應用支持金融業務服務,應用大數據的可以是網路銀行,也可以企業或個人對於小額支付、外匯交易、存款貸款的挑選。
金融科技與大數據結合的優勢,在於資訊多、資料全、搜集範圍廣、費用 / 帳目透明化、自動化以後得以節省時間人力物力、傳統銀行容易排除不易發覺的客戶... 等,但同樣有競爭加劇、資訊流通加速、資安問題的風險。我們來利用 Python 數據爬取的內建網路聯通功能,試試看取得重要的金融資訊,打開 Jupyter 利用 http 通訊模式找到遠方服務設備溝通 io 和 urllib.request,找到台灣證券交易所網址並貼進 url 裡(記得加上 https),再加上外掛去把某一頁放到 page 裡,再讀取到 mypage 的變數裡,送過來會先看到網路完全沒排版的原始碼:
建議只要不是純英文的網頁,輸出擷取資料時把內部字串加上編碼對照:
假設資訊提供者直接提供重要資訊的文件檔案,可以透過標準 java io 準備預計留下來的文件檔案,告訴它我要存成 x.html,預計寫入 (w),標準編碼是 utf-8,完成之後關閉檔案。回到 Jupyter 資料夾,就發現抓回來的文字檔被我們抓回來了。