K-means原理:K-means通過將資料點分配到距離最近的質心(centroid)來進行聚類。質心由聚類內資料點的平均位置決定。優點:簡單且計算效率高,適合...
Q-Q Plot
利用 pingouin 套件中的功能來畫各個變數的 Q-Q Plot。pingouin 是一個開源的統計套件,其中有許多統計的功能,除了畫 Q...
「我在網購平台填寫信用卡號,會不會被盜刷?」我聽過好幾次類似的問題,如果平台真的不慎洩露敏感資料(特別是包含 個人識別資訊(PII) 的數據),處理者(Data...
2013-詞嵌入(word embeddings)
原先在NLP領域中主要是通過稀疏向量(SparseVector),在2001年,首次出現的稠密向量(Dens...
在 DuckDB style SQL 中,吸收了很多這十年其他語言與資料函式庫的優點。
其中之一就是 Pandas。
Pandas 天生就支援 concat 把...
斷簽我先哭
Pandas 是什麼?Pandas 是基於 Numpy 構建的資料處理庫,讓我們能夠處理大量的數據。它的核心數據結構是 DataFrame 和...