A: Lambda 有最長執行 15 分鐘的限制,所以肯定不會是 A;不過如果 Athena 本身支援 Sync 的話,就可以拆成兩部份來執行
B: Step Function: https://docs.aws.amazon.com/zh_tw/step-functions/latest/dg/welcome.html
C: 單純呼叫 Glue 去進行查訊,而 B 的話,透過 Step Function 去監控 Lambda 的執行狀態,肯定貴
D: 在 Glue 裡面使用 sleep 並不會省錢
E: 看起來可行,但不會省錢
這題考 Hadoop 的 AWS 版本
B: 看起來最簡單達成
C: 支持者表示,B 的做法不合理無法直接進行混淆 We cannot directly handle PII with Glue Studio, and Glue Data Quality can be used to handle PII.
The transform Detect PII in AWS Glue Studio is specifically used to identify personally identifiable information (PII) within the data. It can detect and flag this information, but on its own, it does not perform the obfuscation or removal of these details. To effectively obfuscate or alter the identified PII, an additional transformation would be necessary. This could be accomplished in several ways, such as: Writing a custom script within the same AWS Glue job using Python or Scala to modify the PII data as needed.
Using AWS Glue Data Quality, if available, to create rules that automatically obfuscate or modify the data identified as PII. AWS Glue Data Quality is a newer tool that helps improve data quality through rules and transformations, but whether it's needed will depend on the functionality's availability and the specificity of the obfuscation requirements
選擇如何處理已識別的 PII 資料
- 如果您選擇在整個資料來源中偵測 PII,則可選取要套用的全域動作:
- Enrich data with detection results (利用偵測結果豐富資料):如果您在每個儲存格中選擇「偵測 PII」,則可以將偵測到的實體存放到新的資料行中。
- Redact detected text (將偵測到的文字設為密文):您可以使用在選擇性的取代文字輸入欄位中指定的字串來取代偵測到的 PII 值。如果未指定任何字串,則偵測到的 PII 實體會以 '*******' 取代。
- 部分遮蔽偵測到的文字:您可以使用選擇的字串取代部分偵測到的 PII 值。其中提供兩個可能的選項:保持結尾未遮罩,或透過明確的 regex 模式進行遮罩。此功能尚無法在 AWS Glue 2.0 中使用。
- Apply cryptographic hash (套用加密雜湊):您可以將偵測到的 PII 值傳遞給 SHA-256 密碼編譯雜湊函數,並以函數的輸出取代該值。
看到 orchestration 要直接連接到 Step Functions task