pyhton:获取和了解您的数据

这个Jupyter笔记本单元格结构为使用u.user数据集提供了一个清晰的指南,该数据集可用于教授如何使用Python的pandas库进行数据操作和分析。这是常规的数据分析路径,其获取的信息可以为后续建立随机森林或者神经网络等预测模型提供参考。

步骤1:导入必要的库

1
import pandas as pd

步骤2:从网址导入数据集

1
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user'

步骤3:将其分配给users变量

1
users = pd.read_csv(url, sep='|', index_col='user_id')

步骤4:查看前25条记录

1
print(users.head(25))

步骤5:查看最后一条记录

1
2
last_10_entries = users.tail(10)
print(last_10_entries)

步骤6:数据集中的观测值

1
2
num_rows = len(users.index)
print(num_rows)

步骤7:数据集中的列数

1
2
num_cols = users.shape[1]
print(num_cols)

步骤8:所有列的名称

1
2
columns_names = list(users.columns)
print(columns_names)

步骤9:索引数据集

1
2
users = users.sort_index()
print(users)

步骤10:职业列

1
2
dtypes = users.dtypes.to_dict()
print(dtypes)

步骤11:职业摘要

1
2
occupation_column = users['occupation']
print(occupation_column)

步骤12:职业数量

1
2
occupation_values = users['occupation'].value_counts().index.tolist()
print(len(occupation_values))

步骤13:最常见的职业是什么?

1
2
most_frequent_occupation = users['occupation'].value_counts().idxmax()
print({ost_frequent_occupation)

步骤14:总结DataFrame。

1
2
summary = users.describe(include='all')
print(summary)

步骤15:总结所有列

1
2
3
4
5
6
7
8
9
10
11
# 数值列摘要
numerical_summary = users.describe()

# 对象类型(分类)摘要
object_summary = users.describe(include=['O'])

print("数值摘要:")
print(numerical_summary)

print("\n分类摘要:")
print(object_summary)

步骤16:仅总结职业列

要仅获取occupation列的摘要,我们可以使用value_counts来查看每个职业出现的频率:

1
2
occupations_summary = users['occupation'].value_counts()
print(occupations_summary)

步骤17:用户的平均年龄是多少?

查找数据集中的平均年龄:

1
2
mean_age_users = users['age'].mean()
print(f"{mean_age_users:.2f}")

步骤18:出现次数最少的年龄是多少?

要找出哪个年龄出现的频率最低,可以使用value_counts()并获取最小计数的索引:

1
2
least_common_age = users['age'].value_counts().idxmin()
print(least_common_age)

这些命令涵盖了从数据总结到查找特定统计细节(如平均年龄或最常见职业)的所有内容。这组操作提供了所提供用户数据集的全面概述和分析,从而能够更深入地了解人口统计特征和其他可能影响用户行为的因素。

Donate
  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.
  • Copyrights © 2023-2025 John Doe
  • Visitors: | Views:

请我喝杯茶吧~

支付宝
微信