【Day14】一個男女電影評分資料分析實例 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 11 屆 iThome 鐵人賽

DAY 14

0

AI & Data

Python&ML資料分析系列第 14 篇

【Day14】一個男女電影評分資料分析實例

11th鐵人賽

小魚兒Fischer

2019-09-29 23:27:34

1974 瀏覽

分享至

資料集下載:
http://files.grouplens.org/datasets/movielens/ml-100k.zip
資料含義:
u.data 表示 100k 條評分記錄，每一列的數值含義是:
user id | item id | rating | timestamp
u.user 表示使用者的資訊，每一列的數值含義是:
user id | age | gender | occupation | zip code
u.item 檔表示電影的相關資訊，每一列的數值含義是:
movie/item id | movie title | release date | video release date |IMDb URL | unknown | Action | Adventure | Animation | Children’s | Comedy | Crime | Documentary | Drama | Fantasy |Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi |Thriller | War | Western |
API 文檔請參考 http://pandas.pydata.org/pandas-docs/stable/

# -*- coding: utf-8 -*-
import pandas as pd

users_names = ['user id', 'age', 'gender', 'occupation', 'zip code']
users = pd.read_csv('ml-100k/u.user', sep='|', names=users_names)
data_names = ['user id', 'item id', 'rating', 'timestamp']
data = pd.read_csv('ml-100k/u.data', sep='\t', names=data_names)

users_df = users[['user id', 'gender']]
data_df = data[['user id', 'rating']]

rating_df = pd.merge(users_df, data_df)

rating_df_mean = rating_df.groupby(['gender', 'user id']).mean()

print(rating_df_mean.groupby(['gender']).std())

【Day13】一個爬蟲分析項目例子

【Day15】Python GUI

系列文

Python&ML資料分析共 17 篇

目錄

RSS系列文訂閱系列文

9 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙