数据分析基本思路及手法,分析数据的思路和方法

  数据分析基本思路及手法,分析数据的思路和方法

  数据分析是当今每个企业都需要涉及的课题。如果只是搜数据分析方面的书,会有太多的书会教你怎么用。我们可以把搜到的书大致分为两类:第一类是数据理论和统计学相关的,第二类是数据分析工具的应用类型。我们买的大部分书基本都是关于如何使用某种工具分析数据的,但是看完之后我们还是不知道什么是数据分析,应用到实际工作场景中的时候还是很迷茫。原因是什么?有的朋友会说:我根本什么都不想分析!得到这个数字只能做折线图,同比对比两组数字!生意上发生的事好像看不出来!不知道一个函数的结果代表什么!而且可能有些工作我根本用不到,等等。

  那为什么很多伙伴想学数据分析呢?我觉得原因可能很简单:就是数据分析相关的工作工资高!现在进入大数据时代,不能做数据分析。你有核心竞争力吗?

  本文以拙见探讨如何做数据分析。文章大致分为四个层次:需求层、数据层、分析层、输出层。这也是数据分析的一个重要步骤。

  

需求层

  为什么说需求层最重要?因为需求是数据分析的开始,也是你分析的目标方向。如果不知道自己要分析什么,怎么谈怎么分析?数据分析需求的来源通常有三种情况:1 .监控现有指标的异常情况,需要通过数据分析查找原因;2.公司要对现有的运营模式或某个产品进行评估,以确定是否需要调整或优化;3.公司发布了战略目标或者短期目标,需要分析一下如何实现。确定需求,一定要和需求方沟通,明确确认需求的内容或者知道自己想要的结果是什么方向,再自己去分析。举个简单的例子:年底临近,双十一大促在即,数据分析师也到了一年中最辛苦最难过的时候。但是,有多少无意义的加班,是业务部门不主动要求造成的。需求不合理,业务部门不解决问题就一遍遍问需求。结果数据分析师辛辛苦苦加班,一个背影:“分析不深!”名声不好。其实不能怪需求方不会要求,而是你作为一个数据分析师,要用你的经验,你的专业技能,你的沟通能力去引导,去确定,去达成一致。

  要明确确定需求,需要具备:1。对业务、产品和需求背景有深刻的理解。知道的足够多,引导你判断这个需求;2.仅仅知道需求方是不够的。你需要把获得的需求和你掌握的技能组工具快速结合起来,才有初步的分析思路;3.综合判断后,你可以决定是否分析,如何分析,与需求方沟通,确定双方是否有相同的认识。如果做不到,就会有很多无法回避的问题。

  理论上,数据分析师的工作是给出业务端相应的数据结果,而不是解决方案。虽然也有“分析”二字,但如何设计解决方案是业务部门的事。运营部要做活动方案,产品经理要做产品方案,销售部要想好怎么卖东西。这是业务部门的工作。吵:“你说我不行,你能行,你能行”是玩忽职守的表现。如果连具体的业务计划都交给分析师,分析师就干脆领业务部门的工资。但是,目前的专业数据分析师需要了解的业务比业务端多。你不知道商业下的结论吗?是领导还是需求者感受到了信任?所以,一个精通业务技术的数据分析师,可以为业务方解决上述所有问题,不依赖于业务方的判断,因为他是一个业务健忘冥王星,有丰富的实践经验和业务能力。但这种人可遇不可求。大多数数据分析师都是技术人员,他们70%的时间都在处理数据。

  在需求层面,我总结一下我们需要的能力:1。对业务、产品和需求背景有足够的了解。不知道的话,先充电;2.那么当爱听歌曲的乌龙面面想不出一个分析方法的时候,就说明你对现有的数据不够了解。你还应该了解数据的来源、流通和定义。

  

数据层

  目标确定后,现在需要开始准备相关数据。数据层大致分为:数据采集、数据清洗和数据整理。有的伙伴会问,数据应该从哪里来?数据的来源取决于你的分析需求。有通过SQL直接从企业数据库中检索数据的,有通过各种统计网站下载数据的,有通过爬虫技术在互联网上爬取数据的,还有企业已经处理好的数据报表。这里主要说一下大数据时代如何准备数据。因为真正的大数据下的核心分析是可以利用数据库来实现的,所以你可以配得上数据分析师这个名字。

  大数据是指“现有软件工具无法提取、存储、搜索、共享、分析和处理的海量复杂数据集。挖掘大数据的商业价值有四种方式:1。细分客户群体,然后针对每个群体定制特色服务;2.模拟真实环境,发现新需求,提高投资回报率;3.加强部门联系,提高整个管理链和产业链的效率;4.降低服务成本,发现隐藏的线索,创新产品和服务。

  为什么大数据可以实现这些场景?因为大数据的类型大致可以分为三类:1。传统企业数据:包括CRM系统的消费者数据、传统ERP数据、库存数据和账户数据等。2.机器生成/传感器数据:包括通话详细记录、智能仪表、工业设备传感器、设备日志(通常是数字排气)、交易数据等。3.社交数据:包括用户行为记录、反馈数据等。Twitter和脸书等社交媒体平台。通过数据库,你可以得到EXCEL做不到的多样性和细节,通过这些细节数据,你可以发现数据背后的问题。

  现在的数据库主要分为关系型数据和分布式数据库。类型数据代表mysql(免费开源),分布式数据库代表hadoop。两者都是用于数据提取的实用sql语言。在数据分析中,您将提取与分析相关的数据。这一步是数据采集。这里你需要具备基本的sql语言能力,从海量数据中找到你想要的部分。在此进程中,还可以执行初步的数据清理,这取决于数据库中的数据存储是否完整和标准化。这里有一篇关于数据库数据质量的文章,推荐用于数据质量管理。爱听歌的乌冬面数据清理整理后,就可以开始数据分析了。

  

分析层

  分析工具有很多,比如针对民用版的excel,针对非专业分析工具的spss,针对专业和高级分析工作的sas/R/python。我个人的建议是在整个分析过程中需要掌握的工具中,使用sql,excel,python。为什么是这三个?我先说一下每个工具的特点。如前所述,sql是数据采集的主要语言,而excel可以快速显示数据(手动快速拖拽点击)。python功能强大,几乎可以做任何你想做的事情。不局限于数据分析,学习优势肯定大于Python能做的其他分析工具。

  好了,我们用Python进行数据分析,分析思路是“由浅入深”。数据分析的一般步骤是:描述分析3354锁定方向3354建模分析3354模型测试3354迭代优化3354模型加载——洞察结论。

  描述是最基本的统计分析方法,也是实际工作中应用最广泛的分析方法。描述统计分为两部分:数据描述和指标统计;

  数据描述:用于描述数据的基本情况,包括:数据总量、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,就要看数据的极值、分布、离散度。

  统计:用于报告和分析实际情况的数据指标大致可分为四类:变化、分布、比较和预测;变化:指标随时间的变化,呈现增加(同比、环比等。);分布:指标在不同层面的表现,包括地域分布(省、市、区县、门店/网点)、用户群体分布(年龄、性别、职业等。)、产品分发(如动感地带、全球通)等。比较:包括内部比较和外部比较。内部比较包括团队比较(A、B两个团队的单位产量、销量比较等。)和产品线对比(动感地带和GSM的ARPU、用户数、营收对比);外部比较主要是与市场环境和竞争对手的比较;这部分和分布有重叠,但是分布更多的是用来寻找好或者不好的地方,而比较更侧重于寻找好或者不好的原因;预测:根据现有情况,预估下一个分析周期的指标值;

  结论洞察是数据报告的核心,也是最能展现数据分析师水平的部分。当一个年轻分析师和一个老分析师得到同一个图表时,完全有可能解读出不同的内容。

  例如:

  RPython数据科学示例

  年轻分析师:2013年1月,销售额同比上涨60%,开了个好头。2月份销售额下降,3月份大幅上升,4月份继续增长。

  老年分析师:2013年1月和2月剔除春节因素后,1月销量实际增长20%,2月增长14%,3月和4月销量继续增长。

  看到两者的区别了吗?2013年春节在2月,2012年春节在1月,所以要去掉各周的销量进行对比。如果不考虑这个因素,那么后续的所有结论都是错误的。挖掘数字化变革背后真正的影响因素,是《洞察》的目标。

  

输出层

  至此,相信你对数据报表已经不再熟悉了。在这一步,我们需要确保数据报告的完整性。一份完整的数据报告至少应包括以下六个部分:报告背景、报告目的、数据来源和数量等基本信息、本页分页图表和结论的内容、各部分的总结和最终总结、下一步策略或趋势预测;

  其中,背景和目的决定了你报告的逻辑(解决什么问题);基础数据告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑进行构造,目标仍然是解决报表目的中的问题;总结和概括必不可少;接下来的策略或者对趋势的预测都可以为你的报告加分。

  这大致是整个数据分析所涉及的四大步骤,要靠大家努力学习和思考。最后说一句一直激励我前进的话:科技改变命运,科技掌握在自己手中,我从心开始。

数据分析基本思路及手法,分析数据的思路和方法