前兩天講了實用的Pandas的dropna語法用來刪除NaN的資料,
今天要在講一個非常實用的語法drop_duplicates,
用來刪除重複資料。
首先,先建立一個DataFrame結構的資料,
或是有匯入的資料轉成DataFrame結構也行。
這邊為了方便對照,先印出完整的資料來看。
P.S這裡特別放入兩個重複資料
studentsData = {
    'studentId': ['001', '002', '001', '002', '003'],
    'Name': ['A', 'B', 'A', 'B', 'C'],
    'Height': [175, 153, 175, 153, 164],
    'Weight': [80, 45, 80, 45, 75],
    'City': ['New York', 'Los Angeles', 'New York', 'Los Angeles', 'Chicago']
}
students = pd.DataFrame(studentsData)
print(students)
印出資料如下,
可以看到列index0與2以及1與3的資料是相同的。
  studentId Name  Height  Weight         City
0       001    A     175      80     New York
1       002    B     153      45  Los Angeles
2       001    A     175      80     New York
3       002    B     153      45  Los Angeles
4       003    C     164      75      Chicago          
這裡的語法也非常簡單,
在資料後加上.drop_duplicates(),
使用方式如下,
print(students.drop_duplicates())
印出資料如下,
可以看到,當資料重複時前面的資料會被留下,
而後面重複的列index2以及3已被刪除。
  studentId Name  Height  Weight         City
0       001    A     175      80     New York
1       002    B     153      45  Los Angeles
4       003    C     164      75      Chicago
在做資料處理時,
有些情況是不需要保留重複多於資料的,
今天的語法drop_duplicates便能快速解決,
請大家也要記得有這樣的語法喔。