iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0
AI & Data

30天輕鬆搞定資料分析系列 第 24

DAY-24 延伸內容(2):網路爬蟲、大數據技術

  • 分享至 

  • xImage
  •  

今天來講網路爬蟲、大數據技術!

網路爬蟲:

網路爬蟲是一種自動提取網頁信息的程式。這些程式被用來瀏覽互聯網,檢索和擷取所需的信息。網路爬蟲是搜尋引擎的基礎,也用於數據採集、價格比較、新聞聚合等各種應用。Google、Bing和Yahoo等搜尋引擎可以說是網絡爬蟲最成功的應用了,它們透過爬蟲在網際網路中收集優質的網站與內容,當用戶搜尋關鍵字時,就能夠找出相關的資料。

<步驟>

  • Step1:URL
    爬蟲開始的地方。URL是統一資源定位符,用於定位網路上的資源,向目標網站請求特定網址的內容。
  • Step2:HTML
    爬蟲通常檢索網頁的HTML代碼。HTML是一種標記語言,用於構建網頁結構。將目標文件解析並提取所需資料。
  • step3:爬蟲運作
    爬蟲按照一定的規則遞迴地檢索頁面,並提取所需的信息。
  • Step4:t儲存資料
    將取出的資料儲存在CSV檔案、Excel表或是資料庫當中。

大數據技術:

大數據是指由於體積巨大、種類繁多的數據而難以使用傳統數據處理工具進行捕捉、管理和處理的數據集。是一組技術和工具,用於處理、存儲和分析這種大規模數據。

4V特性:

  • Volume 大 -> 資料量
  • Veracity 真 -> 資料多樣性
  • Velocity 快 -> 資料即時性
  • Variety 雜 -> 資料真實性

概念:

  • 分散式存儲和處理:大數據技術使用分散式存儲和處理系統,例如Hadoop和Spark。這允許平行處理,提高效率。
  • MapReduce:這是一種用於處理大規模數據集的編程模型,主要用於Hadoop中。
  • NoSQL數據庫:傳統的SQL數據庫可能無法應對大規模、非結構化的數據,因此大數據技術使用NoSQL數據庫,如MongoDB和Cassandra。
  • 機器學習:大數據技術和機器學習相結合,用於從大數據中提取有價值的信息,進行預測和分析。
  • 實時處理:大數據不僅僅是靜態的數據庫,還包括流式數據。實時處理框架,如Apache Kafka和Flink,用於處理這種流式數據。

網路爬蟲和大數據技術是當今數據科學和網路科技領域中不可或缺的一部分,它們能夠幫助我們從網絡和大量數據中提取有價值的信息。


上一篇
DAY-23 延伸内容(1):自然語言處理、機器學習基礎
下一篇
DAY-25 資料分析實戰Step1:選擇一個小的資料集
系列文
30天輕鬆搞定資料分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言