Hi, day11要來介紹tableau prep中的TRIM函式,這個函式可以去除字串前面&後面的空格, 在遇到需要處理字串長度的狀況可以使用到 TR...
Day10我們來看另一個tableau prep的主要功能之一, 樞紐資料(pivot), 何謂樞紐資料?在處理資料的過程, 以常見的表格來說,人們傾向於表格是...
Day9我們來聊聊甚麼是聯結資料(join) 聯結資料意思是兩個表格之間有至少一個或以上的欄位是有關連(相同)性的, 那麼就可以透過有關連性的欄位將資料表格橫向...
Day8來講講彙總資料aggregate是甚麼吧 在我們整理完資料後, 資料會一列一列的呈現出來, 例如範例資料可以看到我們整理出來的表格有交易日, STORE...
Day7我們一起來看在tableau prep中的主要處理方式之一聯集資料(union) 所謂的聯集意思是, 將不同的資料表格中, 把這些表格上下連接成一個表格...
Hi, day6讓我們來談談甚麼是正則表達式吧, 在資料處理的過程中, 我們難免會遇到資料非常髒亂的狀況, 但是在電腦的理解中, 有一個很特別的方式, 名稱叫做...
Hi, day5我們一起來看看, 遇到數字格式的欄位時, 在實務需求中會怎麼處理吧! 情境1:資料欄位FEE中, 有null值, 負數值, 正數值, 非null...
Hi, day4我們接著來介紹, 若遇到字串欄位時, 在實務中遇到需求可以怎麼處理, 情境1:資料欄位STORE_CITY, 當中包含了各縣市名稱, 若今天需求...
Hi, 今日要來介紹如何處理日期時間欄位, 首先將範例資料載入到tableau prep中, 我們點選 + 符號, 可以看到有很多步驟可以選擇, 我們的需求是要...
Hi, 在介紹今天的主題前,先說明何謂資料ETL, 也是此系列文的主題名稱有提到的 E(extract擷取):將原始資料從server端或本地端匯入暫存處(ta...
Hi, 又來到了自虐的第二年參加鐵人賽XD今年計畫介紹兩個目前於我的現職工作中常用的tableau軟體,分別是tableau prep & tablea...
終於撐完三十天啦啊啊啊啊!!!沒想到自己有一天也能完成這個壯舉(拭淚),真的太敬佩各路大神以及前輩了Orz,也非常感謝各位讀者的支持,不管是幫忙點擊、按讚、分享...
「懶惰是進步的原動力」 科技的進步降低了許多事情的門檻,例如過去要會換牌檔才能開車,現在基本上就自排;過去要會打字才能用電腦傳訊息,現在除了打字還可以語音傳圖片...
模型當然也有純理論的介紹方法,但實務上是很難單談模型的,今天這篇會介紹過去常用、也滿泛用的不需要使用機器模型的分析手法以及對應的商業需求。 人口描述 (http...
介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。但是不同的 ETL 程式又可以使用類似的系統或架構來幫助開發和管理。...
在資料分析的過程中,花最多時間的事就是在理出資料處理的邏輯,要花很多時間與資料互動,就像第二天提到資料探勘流程中的三個階段:資料準備(Data Preparat...
前面說了那麼多理論,最後幾天來寫一下開發實務吧!今天要介紹的是怎麼收集 App 使用者行為資料。 Initiate 追蹤事件是需要成本的,這些成本包括開發、蒐集...
在評估階段有幾件面向需要注意 資料產品品質 資料產品品質是需要持續監控和評估的。不同層的資料產品有不同的品質指標,基本上很難一次到位,需要持續增加觀察的指標。例...
上線之後才是開始。 第一坑 開發和部署環境不一致 如果一開始開發和部署沒有「喬好」環境的話,那上線的過程可是會吃一番苦頭。例如搞不清楚環境有哪些套件,只好正式環...
過了需求訪談後,在設計和開發階段也有要注意的事項。 第一坑 資料不熟悉 當組織規模一大,設計資料產品的人可能需要從其他人的手伸認識資料,這種時候就會發生很多誤解...
最後幾天來回顧一下在過去開發資料產品時常見的坑與應對方式,不管是專案還是產品,首先當然要面對的難題就是需求訪談。 第一坑 完全沒有畫面 資料產品在需求訪談階段通...
對於「半結構化」類型的資料可以存放至NoSQL 資料庫*之中。NoSQL 資料庫常見於需要較快寫入速度的應用場景;半結構化資料本身少了關聯式資料庫那種schem...
今天來細看 DataOps 的原則,盡量會搭配過去實作的經驗一起做說明。 1. 持續地滿足客戶需求 我們最優先的任務是透過及早並持續地交付有價值的分析洞察來滿足...
Amazon Relational Database Service (RDS) 是AWS中為「結構化資料」所準備的關聯式資料庫受管服務(Managed Ser...
資料可以是資產、也可以是負債。 當組織積累了太多無用、甚至錯誤的資料時,資料不但不能提供價值,反而需要花更多力氣與時間去儲存、除錯、整理它,變成了負債。 為了讓...
前面花了不少篇幅在討論資料產品的開發,接下來將花一些篇幅討論資料產品的治理方式。 在做資料產品治理時,有一個很重要的觀念「將資料當作資產」。如果前面介紹過的,資...
第二個「V」要思考的數據問題是多樣性Velocity,資料的格式有千百種,從數不完的副檔名就知道。軟體的蓬勃發展與進步產生出了形形色色的資料,每種資料格式也都各...
如果有疑惑說:資料湖與資料倉儲該如何選擇呢?其實它們並不衝突。因為存放的資料不同,可以做的分析也不同,所以資料湖更像是資料倉儲的延伸,感謝分析技術的進步,現在可...
如同前面所說,資料模型需要運用到實際環境中才會發揮價值 Initiation 延續之前輔助決策的初始條件,如果想使用資料來做自動決策,最重要的一樣是要釐清想解決...
大量的資料勢必可能來自不同資料源,在結構化資料庫的世界常用的就是聯合查詢。那如果我的資料不全都在結構化資料庫呢?介紹到現在許多人一定會想到強大的儲存系統S3,如...