DAY-24 延伸內容(2)：網路爬蟲、大數據技術 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 8

0

AI & Data

30天輕鬆搞定資料分析系列第 24 篇

DAY-24 延伸內容(2)：網路爬蟲、大數據技術

15th鐵人賽

2023-10-08 19:41:58

627 瀏覽

分享至

今天來講網路爬蟲、大數據技術！

網路爬蟲：

網路爬蟲是一種自動提取網頁信息的程式。這些程式被用來瀏覽互聯網，檢索和擷取所需的信息。網路爬蟲是搜尋引擎的基礎，也用於數據採集、價格比較、新聞聚合等各種應用。Google、Bing和Yahoo等搜尋引擎可以說是網絡爬蟲最成功的應用了，它們透過爬蟲在網際網路中收集優質的網站與內容，當用戶搜尋關鍵字時，就能夠找出相關的資料。

<步驟>

Step1：URL
爬蟲開始的地方。URL是統一資源定位符，用於定位網路上的資源，向目標網站請求特定網址的內容。
Step2：HTML
爬蟲通常檢索網頁的HTML代碼。HTML是一種標記語言，用於構建網頁結構。將目標文件解析並提取所需資料。
step3：爬蟲運作
爬蟲按照一定的規則遞迴地檢索頁面，並提取所需的信息。
Step4：t儲存資料
將取出的資料儲存在CSV檔案、Excel表或是資料庫當中。

大數據技術：

大數據是指由於體積巨大、種類繁多的數據而難以使用傳統數據處理工具進行捕捉、管理和處理的數據集。是一組技術和工具，用於處理、存儲和分析這種大規模數據。

4V特性：

Volume 大 -> 資料量
Veracity 真 -> 資料多樣性
Velocity 快 -> 資料即時性
Variety 雜 -> 資料真實性

概念：

分散式存儲和處理：大數據技術使用分散式存儲和處理系統，例如Hadoop和Spark。這允許平行處理，提高效率。
MapReduce：這是一種用於處理大規模數據集的編程模型，主要用於Hadoop中。
NoSQL數據庫：傳統的SQL數據庫可能無法應對大規模、非結構化的數據，因此大數據技術使用NoSQL數據庫，如MongoDB和Cassandra。
機器學習：大數據技術和機器學習相結合，用於從大數據中提取有價值的信息，進行預測和分析。
實時處理：大數據不僅僅是靜態的數據庫，還包括流式數據。實時處理框架，如Apache Kafka和Flink，用於處理這種流式數據。

網路爬蟲和大數據技術是當今數據科學和網路科技領域中不可或缺的一部分，它們能夠幫助我們從網絡和大量數據中提取有價值的信息。

DAY-23 延伸内容(1)：自然語言處理、機器學習基礎

DAY-25 資料分析實戰Step1：選擇一個小的資料集

系列文

30天輕鬆搞定資料分析共 30 篇

目錄

RSS系列文訂閱系列文

5 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙