steam游戏数据分析进度报告4
steam游戏数据分析
第二组:沈奕凯,胡奕晨,杨立鹏,闫宗尧
- 去除冗余列:简化数据集,删除不需要的列,比如游戏的详细描述、官方网站链接、法律声明等。
- 处理缺失数据:分析数据集中的每一行,移除那些超过一半数据缺失的行,以提高数据集的完整性。
- 转换平台信息:将包含游戏可用平台的字段进行格式转换,确保只保留可用的平台,并以分号分隔。
- 清洗价格信息:对游戏的价格信息进行格式化处理,确保价格数据的一致性和准确性,同时移除原始的价格概述字段。
- 数据整理:去除数据集中的重复条目,并重新设置数据索引,保持数据的整洁。
- 计算DLC的数量:统计每个游戏所包含的DLC的数量,并新增一列记录这个数量。
- 语言支持分析:提取游戏支持的界面语言和完整的音频语言。
- 提取评分信息:从数据中提取游戏的Metacritic评分。
- 分类和流派提取:从数据中解析出游戏的分类和流派,将它们以列表的形式单独存储。
- 统计分类和流派的出现次数:计算各个分类和流派在整个数据集中的出现次数,并将统计结果保存为独立的文件。
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 默默的space