iT邦幫忙

0

找出資料有重複的筆數

  • 分享至 

  • xImage

小弟有個60幾萬筆資料的TXT檔,其中有個欄位叫"帳號",有些帳號會重複,現在希望能得知"有幾個帳號有重複的現象".
試過將TXT檔匯入EXCEL,用COUNTIF的公式,但由於筆數多常跑到一半就當掉,另外嘗試用ACCESS,跑的動但因不太熟悉,所以只查詢出"排除重複後的筆數"
希望各位大大能幫忙,感恩!

1.匯入Excel中
2.使用「樞紐分析表」功能(資料項目選「計數」而非「總計」)
3.計數為1的即只有一筆,計數大於1的即有重覆

若因筆數太多而導致Excel當掉
可以將檔案切成一半(1/3)再分兩次統計
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
19
wiseguy
iT邦超人 1 級 ‧ 2012-10-18 12:42:18
最佳解答

假設你這個文字檔是用逗號(,)做欄位分界的 CSV 檔,那放到 Linux 裡面就好辦了。比如你的<帳號>欄位在第一欄,下這串指令,輸出的帳號就是重覆的。
cut -f1 -d, < 文字檔 | sort | uniq -d
(PS. 若不是第一欄則改 -f? ,若不是逗號分界則改 -d? )

wiseguy iT邦超人 1 級 ‧ 2012-10-19 22:13:47 檢舉

假如沒有 Linux 系統也沒關係,去下載 [urlhttp://sourceforge.net/projects/unxutils/]UnxUtils.zip[/url],取出 zip 檔裡面的 cut.exe, sort.exe, uniq.exe 放在文字檔同一目錄,在該目錄中開命令列視窗,執行上述命令也一樣 OK。

wiseguy iT邦超人 1 級 ‧ 2012-10-19 22:14:25 檢舉

假如沒有 Linux 系統也沒關係,去下載 UnxUtils.zip,取出 zip 檔裡面的 cut.exe, sort.exe, uniq.exe 放在文字檔同一目錄,在該目錄中開命令列視窗,執行上述命令也一樣 OK。

ben0923 iT邦新手 3 級 ‧ 2012-10-30 16:55:04 檢舉

有機會會研究看看的,謝謝你提供的解答!

8
Albert
iT邦高手 1 級 ‧ 2012-10-18 11:35:48

匯入 [ Postgres DB]

後下指令就很方便

ben0923 iT邦新手 3 級 ‧ 2012-10-18 12:28:45 檢舉

有機會會研究看看的,謝謝你提供的解答!

16
lionab
iT邦新手 2 級 ‧ 2012-10-18 11:36:30

轉成 Excel後, 匯入 SQL Server, 假設是 Table1
匯入時, 請自行增加一個 ID欄位, ID設定為SQL自動增加的連續號碼, 值沒有重複.

select t1.ID, t1.帳號, t2.ID as 重複ID
from Table1 t1
left join Table1 t2 on t2.帳號=t1.帳號
where t2.ID<>t1.ID

列出來的即為重複的資料.

ben0923 iT邦新手 3 級 ‧ 2012-10-18 12:29:21 檢舉

有機會會研究看看的,謝謝你提供的解答!

10
fireseduce
iT邦研究生 5 級 ‧ 2012-10-19 08:30:07

EXCEL 2010就可以做了
將txt文字檔匯入到excel裏
在資料功能單裏,有個資料驗證,可以幫您標記重複的資料哦
或是使用移除重複的功能也可以

chiahuo iT邦新手 4 級 ‧ 2012-10-19 16:06:28 檢舉

我前幾天才發現

ben0923 iT邦新手 3 級 ‧ 2012-10-30 17:06:03 檢舉

有機會會研究看看的,謝謝你提供的解答!

12
hero
iT邦新手 5 級 ‧ 2012-10-19 08:37:26

匯入資料庫後就很容易做

可以用group 帳號的方式找出count >1的資料LIST

select 帳號,count(帳號) as num from 名單 group by 帳號

印象中access就有支援group by

ben0923 iT邦新手 3 級 ‧ 2012-10-30 16:56:53 檢舉

看來這個方法是最簡單又可得到需要的答案,感謝!!

ben0923 iT邦新手 3 級 ‧ 2012-10-30 17:01:43 檢舉

對不起~我原本要選你的為最佳解答~但是我好像按到別人的去了~
也找不到哪裡可以取消~真是不好意思!

10
chiahuo
iT邦新手 4 級 ‧ 2012-10-19 16:10:55

如果本身office不是2010,那直接找別人寫好的execl囉
建議上google找'compareab',第一個就是了

ben0923 iT邦新手 3 級 ‧ 2012-10-30 17:05:45 檢舉

有機會會研究看看的,謝謝你提供的解答!

2
btl1314
iT邦新手 5 級 ‧ 2012-10-20 04:11:06

你使用COUNTIF做就是正確的了,因為資料檔太大,所以它有可能是還在運算,
放著讓它運算一段時間,也許就可以得到你要的資料了。

ben0923 iT邦新手 3 級 ‧ 2012-10-30 17:02:49 檢舉

可能我比較沒耐心~謝謝您提供的意見!

0
goodnight
iT邦研究生 2 級 ‧ 2012-10-24 21:55:38

一般來說, 找出重覆的帳號有什麼用途呢??
access 我也不太熟, 但看起來要從報表以手動建立查詢語法

請參考看看:
http://www.neo.com.tw/archives/454

ben0923 iT邦新手 3 級 ‧ 2012-10-30 17:03:52 檢舉

工作上有需要,
謝謝您提供的意見!

ben0923 iT邦新手 3 級 ‧ 2012-10-30 17:03:52 檢舉

工作上有需要,
謝謝您提供的意見!

我要發表回答

立即登入回答