数据分析职位面试都会问哪些问题,数据分析师面试常见问题
中文站
内容来自极客时间《
数据分析实战 45 讲
》近年来,数据分析师在国内互联网圈越来越吃香。很多开发人员因为薪资待遇和发展前景,都想转行到数据分析岗位。今天,我们来谈谈面试数据分析师。
其实数据分析能力是每个互联网人必备的技能。即使你没有转行做数据分析师的打算,我也推荐你看看这个题目,提升自己的数据能力。
数据分析能力要求与数据分析相关的工作有一个特点,就是对数字非常敏感。同时也要求对数据有良好的思考能力,比如如何用数据指导业务,如何在报表中呈现数据。
在面试过程中,面试官通常会考察以下三个方面的能力:
1、理论知识(概率统计、概率分析等)
掌握与数据分析相关的算法是算法工程师必备的能力。如果你面试的是算法相关的工作,面试官肯定会问你算法相关的问题。比如常用的数据挖掘算法有哪些?EM算法和K-Means算法有什么异同?
有些分析师的工作也需要有一定的数学基础,比如概率论与数理统计,最优化原理等。这些知识将用于算法优化。
另外,一些数据工程师更倾向于数据预处理,比如ETL工程师。这个职位考察你在数据清理和数据整合方面的能力。虽然他们不是数据分析的“炼金术”,但在数据分析的过程中,他们占了80%的时间。《数据分析实战 45 讲》详细讲了数据集成的两种架构方式:ELT和ETL,以及Kettle工具的基本操作,非常实用。
下面是我做的数据整合的学习脑图。
2、具体工具(sklearn、Python、Numpy、Pandas 等)
工程师必须掌握工具,你通常可以从JD了解一个公司用什么工具。如果做算法相关的工作,最好掌握一门语言。Python是最合适的语言,但是你也需要了解一些Python工具,比如Numpy,Pandas,sklearn。
数据ETL工程师还需要掌握Kettle等ETL工具。
如果是数据可视化,需要掌握数据可视化工具,比如Python可视化,Tableau等。
如果工作与数据采集相关,还需要掌握数据采集工具,比如Python爬虫、octopus等。
我也有一篇专门的文章,来解析如何用八爪鱼模拟实战做数据采集,主要讲解了八爪鱼的任务建立、流程设计,还有一个实操的案例。虽然八爪鱼工具提供了各种简易采集的方式,我更建议你把它作为参考模板,可以看下别人是如何建立的,这样多做案例,你上手会更快。
3、业务能力(数据思维)
数据分析的本质是帮助业务。所以数据分析中一个很重要的知识点就是用户画像。
用户画像是企业业务中经常使用的场景。对于数据分析来说,就是给数据贴标签。其实是一种抽象的能力。
用户画像建模的详细操作主要在我的文章《用户画像:标注是数据的抽象能力》中,从三个维度构建用户画像:“他们是谁?”“他们是哪里人?”以及“他们要去哪里?”如果按照数据流处理的阶段划分用户画像建模的过程,可以分为数据层、算法层和业务层。你会发现不同的层需要不同的标签。
笔试作为实力测试的一部分,是非常重要的一个环节。可以直接考验你对数据分析具体理论的掌握程度和动手能力。我有几个简单的问题,你不妨看看。
问答题
1、用一种编程语言,实现 1+2+3+4+5+…+100。
这个问题考察的是语言基础。你可以用你熟悉的语言来完成这个问题,比如Python,Java,PHP,C等等。这里我以Python为例:sum=0f或number in range (1,101):sum=sum number print(sum)
2、如何理解过拟合?
。过拟合和欠拟合是数据挖掘的基本概念。过拟合意味着数据训练太好,在实际测试环境中可能会出现错误,所以适当的剪枝对于数据挖掘算法也是非常重要的。
欠拟合是指机器学习不够,数据样本太少,机器无法形成自我认知。
3、为什么说朴素贝叶斯是“朴素”的?
朴素贝叶斯是一种简单但极其强大的预测建模算法。它被称为朴素贝叶斯,因为它假设每个输入变量都是独立的。这是一个很强硬的假设,实际情况也不一定如此,但这种技术对于大多数复杂的问题还是很有效的。
4、SVM 最重要的思想是什么?
SVM计算的过程就是帮助我们寻找超平面的过程。它有一个核心概念叫做分类区间。SVM的目标是找到所有分类区间中最大值对应的超平面。数学上,这是一个凸优化问题。我们还根据数据是否线性可分将SVM分为硬区间SVM、软区间SVM和非线性SVM。
5、K-Means 和 KNN 算法的区别是什么?
首先,这两种算法解决了数据挖掘中的两类问题。K-Means是一种聚类算法,KNN是一种分类算法。其次,这两种算法是两种不同的学习方法。K-Means是无监督学习,也就是不需要事先给分类标签,而KNN是监督学习,需要我们给出训练数据的分类标识。最后,k值的意义不同。K-Means中K的值代表K类。kN中的k值代表k个最近邻。
动手题
1、我给你一组数据,如果要你做数据清洗,你会怎么做?
其实在这个问题中,面试官考察的是基本的数据清洗标准,数据清洗是数据分析中必不可少的重要环节。你可能看到这个数据有两个问题:典韦出现了两次,舒心铃数学成绩缺失。
对于重复的行,需要删除其中一行。鉴于缺乏数据,你可以编造舒欣贝尔的数学分数。
在「数据科学家 80% 时间都花费在了这些清洗任务上?」的文章里
,结合案例,我重点介绍了数据清洗的具体方法。我把数据清理规则总结为以下四个要点,统称为“完全合一
”。下面我来解释一下。1.
完
完整性:单张数据是否存在空值,统计字段是否完善。2.
全
方面:观察一列的所有值。例如,如果我们在Excel中选择一列,我们可以看到该列的平均值、最大值和最小值。我们可以通过数据定义、单位标识、数值本身等常识来判断这个栏目是否有问题。3、
合
合法性:数据的类型、内容、大小的合法性。比如数据中有非ASCII字符,性别未知,年龄超过150岁。4.仅
一
性:数据是否有重复记录,因为数据通常来自不同渠道的汇总,重复是常见的。行和列数据需要是唯一的。比如一个人不能重复记录,一个人的体重不能在列指标中重复记录。2、豆瓣电影数据集关联规则挖掘
在数据分析领域,有一个经典案例,就是“啤酒纸尿裤”的故事。它实际上体现了数据分析中关联规则的挖掘。很多公司会用不同的方式调查这个算法,但永远不会改变。
如果让你用Apriori算法分析电影数据集中的导演和演员的信息,从而找出他们之间的频繁项集和关联规则,你会怎么做?
查看完整代码:https://github.com/cystanford/Apriori
数据分析面试笔试就这么多了。你可能会感受到数据分析师这个职位的特殊性。虽然求职面试不可能一蹴而就,但我希望通过该专栏,我可以帮助你。