数据收集及分析,数据分析作品展示
对数据、数据分析或数据科学感兴趣的人,提供14个可以在业余时间完成的数据科学项目列表!
项目分为三种类型:
可视化项目
探索性数据分析项目
预测建模
可视化项目
最容易入门的就是数据可视化。以下3个数据集可以用来创建一些有趣的可视化效果,并将它们添加到你的简历中。
1. 新冠病毒可视化
学习如何使用Plotly构建动态可视化数据,展示冠状病毒如何在全球传播。Plotly很好用,可以做动态可视化,好看且操作简单。
难易程度:
数据集:
https://www . ka ggle . com/sudalairajkumar/novel-corona-virus-2019-dataset
教程:
https://towards data science . com/visualizing-the-coronavirus-疫情-choropleth-maps-7f30fccaecf5
2. 澳洲大火数据可视化
2019-2020年的丛林火灾季节,也被称为黑色夏天,由2019年6月开始的几次极端野火组成。据维基百科统计,这场大火摧毁了约1860万公顷土地和5900多座建筑。这是一个有趣的项目。Plotly或Matplotlib数据可视化工具可用于可视化野火的规模和地理影响。
难易程度:
数据集:
https://www . ka ggle . com/Carlos Paradis/fires-from-space-Australia-and-new-zeland
3. 地表温度可视化
你有没有怀疑过全球变暖的观点?创建一些数据可视化效果,展示地球表面的温度如何随时间变化,这可以通过创建折线图或其他动画Choropleth图来实现!你也可以创建一个预测模型来预测未来五十年地球的温度。
难易程度:
数据集:
https://www . ka ggle . com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
很多人学习python,却不知道从何入手。
很多人学python,掌握了基本语法之后,不知道从哪里找案例入门。
很多做过案例的人不知道如何学习更高级的知识。
那么,针对这三类人,我会给你提供一个很好的学习平台,免费领取视频教程,电子书,以及课程的源代码!
QQ群:810735403
探索性数据分析项目
探索性数据分析(EDA),也称为数据挖掘
,是指在数据分析的过程中使用多种技术来更好地理解数据。
1. 纽约Airbnb数据挖掘
从2008年开始,Airbnb让游客和房东的旅行变得更容易,并提出了更个性化的体验世界的方式。这个数据集包含2019年纽约的租金信息,以及其地理信息、价格、评论数等。可以分析的一些角度如下:
哪些地区的生意最好,为什么?
哪些区域的流量比其他区域大,为什么?
价格、评论数和预订天数有关系吗?
难易程度:
数据集:
https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
2. 哪些因素与员工离职和绩效有关
IBM公布了一个全面的数据集,可以用来了解各种因素是如何影响员工离职率和满意度的。一些变量包括教育水平、工作相关性、绩效评估和工作生活平衡。分析这个数据集,找出真正影响员工满意度的变量。此外,还可以看看变量是否可以按重要性排序。
难易程度:
数据集:
https://www . ka ggle . com/pavansubhasht/IBM-HR-analytics-attraction-dataset
3. 世界大学排名
你认为你的国家有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?这个数据集包含三个全球大学排名。使用这些数据,您能否回答以下问题:顶尖大学在哪些国家?
决定世界排名的主要因素是什么?
难易程度:
数据集:
https://www.kaggle.com/mylesoneill/world-university-rankings
4. 饮酒与在校表现
喝酒会影响学生成绩吗?如果没有,还有什么其他作用?这一数据是从对中学数学和葡萄牙语课程的学生进行的调查中获得的。它包含几个变量,如饮酒量、家庭规模和参加课外活动。利用这些数据,可以挖掘出学校成绩与各种因素的关系。还有,看看能不能根据其他变量预测学生的成绩!
难易程度:
数据集:
https://www.kaggle.com/uciml/student-alcohol-consumption
5. 宠物小精灵数据挖掘
对于所有游戏玩家来说,这是一个包含七代802个口袋妖怪的数据集。试着回答以下问题!哪一代宠物精灵最强?哪一代人最弱?
哪种类型的神奇宝贝最强?哪个最弱?
能否建立识别神奇宝贝的分类器?
身体特征与力量状态(攻击、防御、速度等)是否有相关性。)?
难易程度:
数据集:
https://www.kaggle.com/rounakbanik/pokemon
00-59,000世卫组织建立了一个一段时间内各国健康状况的数据集,包括预期寿命、成人死亡率等统计数据。利用这个数据集,探究各个变量之间的关系,预测对寿命影响最大的因素是什么?
6. 探索影响预期寿命的因素
最初的预测因素真的会影响预期寿命吗?影响实际预期寿命的预测变量有哪些?
预期寿命低于(65)的国家是否应该增加医疗保健支出以提高平均预期寿命?
婴儿死亡率和成人死亡率如何影响预期寿命?
预期寿命与饮食习惯、生活方式、运动、吸烟饮酒是正相关还是负相关?
教育对人类生活有什么影响?
寿命与饮酒是正相关还是负相关?
人口稠密国家的人均寿命是否有降低的趋势?
免疫覆盖率对预期寿命有什么影响?
请尝试回答以下问题:
难易程度:
https://www.kaggle.com/kumarajarshi/life-expectancy-who
数据集:
预测模型
该数据集由美国区域传输组织PJM网站上的用电数据组成。使用该数据集来查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否能发现一天中每个小时的趋势、节假日用电量以及长期趋势!
1. 能源消耗的时间序列预测
难易程度:
https://www.kaggle.com/robikscube/hourly-energy-consumption
数据集:
该数据集来自Analytics Vidhya,包括615行和13列关于已批准和未批准的历史贷款的信息。能否创建一个模型来预测贷款是否会被批准。
2. 贷款预测
难易程度:
https://data hack . analyticsvidhya . com/contest/practice-problem-loan-prediction-iii/
数据集:
Craigslist是世界上最大的二手车经销商。这个数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用这个数据集,看看是否可以创建一个数据集来预测汽车的价格是被高估还是被低估。
3. 二手车价格计算器
难易程度:
https://www.kaggle.com/austinreese/craigslist-carstrucks-data
数据集:
该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔是欺诈性的。数据高度正态分布,欺诈占所有交易的0.172%。了解如何使用异常数据集并建立信用卡欺诈检测模型。
4. 信用卡欺诈检测
难易程度:
https://www . ka ggle . com/janiobachmann/信用欺诈-处理不平衡数据集
数据集:
通过超过10,000张图像建立一个神经网络来检测皮肤癌。这绝对是最难的项目,需要
5. 皮肤癌图像检测
的知识。
神经网络和图像识别
难易程度:
https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000
在这里,我想推荐一下我自己的Python开发交流学习(qq)群:810735403。都是学Python开发的。如果你正在学习Python,欢迎你的加入。大家都是软件开发党,不定期分享干货(仅与Python软件开发相关),包括我自己编的一本2021最新的Python高级资讯与高级开发教程。欢迎有进阶的,想深入Python的!