iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0
AI & Data

夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!系列 第 11

Day 11 第二站 Exploratory Data Analysis - Athena

  • 分享至 

  • xImage
  •  

Athena可以用來Query存放在S3的資料。使用Athena有幾個好處:

  • 速度快與穩定: Serverless的服務讓我們不用擔心運算資源的問題。
  • 通用性的語法: 相信大家多少都有用SQL吧,可以無縫接軌來使用Athena,減少Learning Curve障礙。
  • 划算:僅計算搜尋Query的費用,資料欄位的修改與新增不涉及費用的計算。(每TB 5塊美金)

可接受的資料格式
Athena接受以下幾種資料格式。如果顧及更快的搜尋速度和追求更省錢的方案,可以盡量將資料格式以Column-based的方式來做儲存。例如,Parquet或者ORC資料格式。
• CSV
• JSON
• ORC(Optimized Record Columnar)
• Parquet
• Avro

透過Athena Query到的資料,可以進一步加密處理,確保資安。Athena去撈S3的資料時,資料的傳輸透過Transport Layer Security (TLS)來提供資料傳的安全性。

與各種應用介面的整合
Athena與AWS QuickSight相容,能讓搜尋結果更方便的呈現在視覺話的應用服務上。後續會再接著跟大家介紹QuickeSIght的相關內容。此外,Athena也可以跟ODBC(Open Database Connectivity)或JDBC(Java Database Connectivity)相容,讓搜尋到的資料也能在local端的視覺話應用軟體去呈現。先前提到的ETL工具,GLUE,一樣也可以跟Athena接在一起。

  • GLUE
  • Jupyter、Rstudio、Zeppelin
  • ODBC/JDBC
  • QuickSight

[補充說明]ODBC與JDBC提供串接資料庫的API給不同的應用程式。


ChatGPT老師來出題
(BTW,今天ChatGPT不知道為何,prompt怎麼調整,都無法繁體中文輸出,字體不一致,再請見諒。)

问题1:Athena的数据类型

问题: 在AWS Athena中,以下哪种数据类型可以用于表示时间戳(Timestamp)?

A) VARCHAR
B) INTEGER
C) TIMESTAMP
D) STRING

答案:C) TIMESTAMP

解释: 在AWS Athena中,TIMESTAMP 数据类型用于表示时间戳,使您能够更轻松地处理日期和时间数据。

问题2:Athena的分区策略

问题: 在AWS Athena中,分区表的主要作用是什么?

A) 加速查询性能。
B) 减少数据存储成本。
C) 提高数据的安全性。
D) 自动备份数据。

答案:A) 加速查询性能。

解释: 分区表允许您更快地查询数据,因为它们将数据按照分区键分成较小的块,从而提高了查询性能。

问题3:Athena的查询结果

问题: 在AWS Athena中运行查询后,查询结果会存储在哪里?

A) 查询结果会自动删除。
B) 查询结果存储在Amazon S3中。
C) 查询结果存储在Athena服务器上。
D) 查询结果存储在Amazon RDS中。

答案:B) 查询结果存储在Amazon S3中。

解释: 查询结果通常会被保存到指定的Amazon S3存储位置,您可以根据需要访问和管理这些结果。


上一篇
Day 10 第二站 Exploratory Data Analysis - 時間序列資料分析
下一篇
Day 12 第二站 Exploratory Data Analysis - QuickSight
系列文
夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言