資料載入 pandas 有些函式可將表個資料讀為 DataFrame 物件,read_csv 為最常用的一種: read_csv :從檔案、URL或類檔案物件...
唯一值、值的數量以及成員資格 有一類相關的方法可以提取關於一維 Series 的值資訊: In [290]: obj = pd.Series(["c...
總結與計算描述性統計數據 pandas 物件具備一組常用的數學和統計方法,他們大多是歸約或總結統計方法,可以從 Series 提取一個值(如 sum() 與...
重複標籤 目前看到的範例都有互不相同的軸標籤 (索引值),雖然有很多 pandas 函式如 reindex 都要求標籤互不相同,但並非強制規定,假如是一個具有...
排名 (下) 我們接續上次排名的內容,可以使用降序排名: In [254]: obj.rank(ascending=False) Out[254]: 0...
排序 (下) 我們接續上次排序的內容,在預設情況下,所有缺失值都會排在 Series 的結尾: In [244]: obj = pd.Series([4, n...
排序 (上) 使用某個條件來排序資料組是另一個重要的內建操作,若要按照辭典順序來排序或是欄標籤,可以使用 sort_value() 方法,它會回傳一個排序好的...
DataFrame 與 Series 之間運算 與不同維數的 NumPy 陣列相同,pandas 也定義 DataFrame 與 Series 之間的算術運算...
特別值算術運算 使用兩個索引不完全相同的物件來做算術運算時,假如想在軸標籤其中一個物件中找到時填入特別值,例如 0。 將一個特定值設為 np.nan 來將他設...
算術與資料對齊 pandas 可以輕鬆使用具有不同索引的物件,將物件相加時,如果有兩個索引不相同,那摩產生的索引將是兩個索引的聯集: In [182]: s1...
loc 與 iloc DataFrame 與 Series 相同,有特殊的屬性 loc 和 iloc,分別搭配標籤和整數來檢索。 因為 DataFrame 是...
從一軸移除項目 如果要將一軸的項目或是多個項目移除,而且已經有不含那些項目的索引陣列或串列,可以使用 reindex 方法,或使用 .loc 來檢索,這些做法...
檢索、選擇與篩選 Series 檢索 obj[...] 的工作方式類似 NumPy 的陣列檢索,但可以使用 Series 的索引值,而不是只能使用整數。 In...
上一篇實作PaddleOCR的辨識成果可以發現,一行一行雜亂無序的資料是難以進行分析的。今天,我們將實作規劃出OCR結構化資料所需的關鍵欄位,使每一個項目在...
reindex (重設索引) 下 可使用 columns 關鍵字來 reindex 直欄: In [109]: state = ["Texas&qu...
reindex (重設索引) 上 reindex 是 pandas 物件的重要方法,將一個物件裡的值按照指定的索引重新排序並產生一個新物件。 In [98]:...
Index 物件 pandas 的 Index 物件負責保存軸的標籤 (包括 DataFrame 的欄名) 與其他詮釋資料 (例如軸名)。 當建構 Serie...
DataFrame (五) 可傳給 DataFrame 建構式的資料輸入 2D ndarray: 資料矩陣,可傳遞列與欄標籤。 陣列、串列或是 tuple...
在前篇我們透過PaddleOCR,初步將建築圖紙上的文字資訊辨識成文字資料,接下來本篇將聚焦於常見的識別情境與誤判分析。唯有深入理解各類誤判背後的結構與成因...
DataFrame (四) del 關鍵字可以刪除欄位。例如,加入新的一欄,裡面儲存 state 欄是否等於 Ohio 的布林值: In [68]: fram...
DataFrame (三) pandas 回傳的 Series 的索引和 DataFrame 的索引一樣,而且會適當的設定 name 屬性。 可以使用特殊的...
DataFrame (二) 接續上次的話題,如果指定一系列的欄 (column),DataFrame 的欄將按照那個順序來排列: In [53]: pd.Da...
DataFrame (一) DataFrame 是一種矩形的資料表,裡面有許多有序的、有名稱的直欄 (column),每一欄都可以使用不同的值型態 (數字、字...
Series (下) 接續上一次的內容,Series 在許多應用還有一個好用的特性,在進行算術運算時,會自動按照索引標籤對齊: In [40]: obj3 O...
Series (上) 接續上次的內容,Series 也可以視為一個長度固定且有序的字典,因為它儲存索引值和資料值的對映關係,它可以在許多適合使用字典的情況下使...
pandas 資料結構 在開始使用 pandas 之前,必須先知道兩個主要資料結構,Series 與 DataFrame。 Series Series 是一維...
執行 Jupyter Notebook notebook 是 Jupyter 專案的主要元素之一,它是一種互動式文件,可容納程式碼、文字、Markdown 語...
重要的 Python 程式庫 (下) 接續上次的內容繼續介紹 Python 所使用的程式庫。 matplotlib matplotlib 是經常用於繪製圖表和...
重要的 Python 程式庫 (上) 主要為不熟悉 Python 資料生態的所使用的程式庫,做一個簡單的介紹。 NumPy NumPy 是 Numerical...
為什麼要使用 Python 來分析資料? 對很多人而已,使用 Python 來設計程式有很強的吸引力。 自 1991 年問世以來,Python、Perl、Ru...