在進行資料專案時,模型是基於數學設計的,有些資料型態不適合模型存取,為了提高數據的可用性和模型的處理,本文將以案例說明如何進行資料型態轉換,內容包含: 介...
除了採用「刪除」的方式清理資料外,為確保數據的完整性,「填補」的操作也是另一種常見的方式,本文將說明資料清理中有關填補的操作方法,內容包含: 常數填補 統...
在處理資料集時,資料清理是不可或缺的步驟,刪除不需要的數據或特徵以確保數據的品質是常見的操作,本文將說明資料清理中有關刪除的操作方法,內容包含: 刪除缺失...
資料在產生或蒐集時可能因為各種原因出現缺失值(Missing Value),導致資料集中缺少某些觀測值或該值無法表示或測量,因此,處理缺失值是數據分析中很重...
完成資料篩選後,我們可以針對特定欄位進行排序,幫助我們快速整理與觀察,以下將透過案例替大家介紹兩種資料排序的方式,內容包含: 根據數值(value)排序...
在進行大量的資料處理時,有時會需要取得符合特定條件的資料,以利後續的觀察與操作,此時就會使用到資料篩選和過濾的技能,今天將以案例搭配 loc[] 函數和大家...
繼續上一章資料處理 Python Pandas 好用的function - Part 1 #1. pd.to_datetime(df['Date']) /pd....
資料的運算除了基本的加減乘除之外,也能透過函數快速觀察和取得常見的統計值,完成資料匯總,以下將以實例介紹六種常見函數,包含: 最大值與最小值 資料加總與筆...
資料的運算是整理大型數據常見的操作,本篇將搭配新增資料的操作,以案例分享 DataFrame 的加減乘除,方便我們利用 Pandas 快速整理數據,以下內容...
經過前幾天的介紹,相信大家應該都有一個基本的概念輪廓,知道如何透過 Airflow DAG 建立所需要的 Data pipeline了。今天來談談 DAG 如何...
安裝完環境之後,想必在讀本系列文章的你,對於開發 Data pipeline 必定是躍躍欲試!如果對 Airflow 有點熟悉的朋友,這幾天可以簡單瀏覽過或是當...
嗨!大家好!了解完如何載入和觀察資料後,接著將開始一系列對資料內容的操作,今天的主題為「新增資料」,內容分別以Pandas兩種常見的數據結構說明,包含:...
在進行數據分析前,需要先了解資料的內容,以利後續資料清理、特徵工程等處理,因此本篇將延續昨日主題,以實際案例實作一次讀取外部資料,並使用基本語法觀察資料內容...
在前幾天的內容當中,我們陸續介紹了 Data pipeline、Data pipeline 的種類、資料處理,資料品質等主題,相信大家對於 Data pipel...
在上一篇當中我們常常談到資料的品質,因為在資料處理的其中一個目的就是我們要提升資料的品質。那我們要如何判斷資料的品質呢?這篇想要來聊聊資料品質,幫助大家在實作...
在前一天跟大家分享了 Data pipeline 的種類,在每種 Data pipeline 當中多半都有資料處理的步驟。實際上在各種資料應用的場景,從資料分析...
在建立Data pipeline 時我們常會碰到類似的場景。這邊帶大家了解一些常見的Data pipeline 類型,我們在開發Data pipeline 的時...
管線無所不在,雖然說日常生活中常常不會注意到其存在,但是卻對我們的生活影響非常大。舉例來說,在做裝潢時,就必須要把未來房屋的使用情景進行評估。並且需要針對屋主進...
Pandas 的優勢在於可以處理大型數據,方便使用者觀察和分析,但處理數據前需要先載入資料,因此,本文將說明如何透過檔案路徑讀取外部資料,內容包含: 介紹...
"那個Timmy啊,廠商那邊又有多一組類型的資料,你再幫忙收一下""Jerry,資料好像有少喔,幫忙看一下是哪邊的問題,以後看到類...
上一篇文章中,介紹了 Pandas 中的 Series 結構,今天要和大家聊聊 Pandas 中最常使用的資料結構——DataFrame,其概念和操作都和...
作為資料工程師,或說是負責處理資料工程的角色,我們需要具備什麼能力呢?其實從過去到現在的資料工程師的角色,隨著應用的不同以及工具的演變,資料工程師的角色默默的在...
學習撰寫程式時,常會遇到資料結構(Data Structure)這個詞彙,指的是如何用最有利的型態儲存或組織資料,並將其存在記憶體當中,以便電腦更有效率的使...
團隊的合作方式從古至今總是不斷的演變當中,雖然工程師的歷史並沒有很長,但是變化卻十分快速。就像是網站工程師一般,過去也沒有這麼細分為前端禍後端,常常每個人都是全...
決定寫文章後,發現撰寫Pandas的環境有許多種,有人會用 Anaconda 搭配 Jupyter Notebook,有人直接使用 VS Code ,也有人...
記得在學生時期,我因為對於學校的選課網站操作不太習慣,於是便自己寫了一個簡單的爬蟲程式,用來自動抓取課程資訊和教師評價。經整理後,我和朋友合作設計了一個使用者友...
嗨!大家好!我是Eva!一位正努力跨進資料科學領域的女子!這是我首次撰寫技術文章,也是第一次挑戰30天日更,希望能挑戰成功!第一篇文章,就讓我簡單介紹參賽動機、...
Every day, customer success teams interact with tens of thousands of customers....
Tableau has the fastest growth and most widespread acceptance among the differen...
今天的文章中,我們會延續昨天的題目,聊聊 Booking.com 在模型上線後發現的有趣現象。最後,我會再跟大家分享經過這 30 天的鐵人挑戰賽後,我學到的事,...