数据分析职位面试都会问哪些问题,数据分析师面试常见问题

　　中文站

　　内容来自极客时间《

数据分析实战 45 讲

》

　　近年来，数据分析师在国内互联网圈越来越吃香。很多开发人员因为薪资待遇和发展前景，都想转行到数据分析岗位。今天，我们来谈谈面试数据分析师。

　　其实数据分析能力是每个互联网人必备的技能。即使你没有转行做数据分析师的打算，我也推荐你看看这个题目，提升自己的数据能力。

　　数据分析能力要求与数据分析相关的工作有一个特点，就是对数字非常敏感。同时也要求对数据有良好的思考能力，比如如何用数据指导业务，如何在报表中呈现数据。

　　在面试过程中，面试官通常会考察以下三个方面的能力：

1、理论知识（概率统计、概率分析等）

　　掌握与数据分析相关的算法是算法工程师必备的能力。如果你面试的是算法相关的工作，面试官肯定会问你算法相关的问题。比如常用的数据挖掘算法有哪些？EM算法和K-Means算法有什么异同？

　　有些分析师的工作也需要有一定的数学基础，比如概率论与数理统计，最优化原理等。这些知识将用于算法优化。

　　另外，一些数据工程师更倾向于数据预处理，比如ETL工程师。这个职位考察你在数据清理和数据整合方面的能力。虽然他们不是数据分析的“炼金术”，但在数据分析的过程中，他们占了80%的时间。《数据分析实战 45 讲》详细讲了数据集成的两种架构方式：ELT和ETL，以及Kettle工具的基本操作，非常实用。

　　下面是我做的数据整合的学习脑图。

2、具体工具（sklearn、Python、Numpy、Pandas 等）

　　工程师必须掌握工具，你通常可以从JD了解一个公司用什么工具。如果做算法相关的工作，最好掌握一门语言。Python是最合适的语言，但是你也需要了解一些Python工具，比如Numpy，Pandas，sklearn。

　　数据ETL工程师还需要掌握Kettle等ETL工具。

　　如果是数据可视化，需要掌握数据可视化工具，比如Python可视化，Tableau等。

　　如果工作与数据采集相关，还需要掌握数据采集工具，比如Python爬虫、octopus等。

我也有一篇专门的文章，来解析如何用八爪鱼模拟实战做数据采集，主要讲解了八爪鱼的任务建立、流程设计，还有一个实操的案例。虽然八爪鱼工具提供了各种简易采集的方式，我更建议你把它作为参考模板，可以看下别人是如何建立的，这样多做案例，你上手会更快。

3、业务能力（数据思维）

　　数据分析的本质是帮助业务。所以数据分析中一个很重要的知识点就是用户画像。

　　用户画像是企业业务中经常使用的场景。对于数据分析来说，就是给数据贴标签。其实是一种抽象的能力。

　　用户画像建模的详细操作主要在我的文章《用户画像：标注是数据的抽象能力》中，从三个维度构建用户画像：“他们是谁？”“他们是哪里人？”以及“他们要去哪里？”如果按照数据流处理的阶段划分用户画像建模的过程，可以分为数据层、算法层和业务层。你会发现不同的层需要不同的标签。

　　笔试作为实力测试的一部分，是非常重要的一个环节。可以直接考验你对数据分析具体理论的掌握程度和动手能力。我有几个简单的问题，你不妨看看。

问答题

1、用一种编程语言，实现 1+2+3+4+5+…+100。

　　这个问题考察的是语言基础。你可以用你熟悉的语言来完成这个问题，比如Python，Java，PHP，C等等。这里我以Python为例：sum=0f或number in range (1，101):sum=sum number print(sum)

2、如何理解过拟合？

。

　　过拟合和欠拟合是数据挖掘的基本概念。过拟合意味着数据训练太好，在实际测试环境中可能会出现错误，所以适当的剪枝对于数据挖掘算法也是非常重要的。

　　欠拟合是指机器学习不够，数据样本太少，机器无法形成自我认知。

3、为什么说朴素贝叶斯是“朴素”的？

　　朴素贝叶斯是一种简单但极其强大的预测建模算法。它被称为朴素贝叶斯，因为它假设每个输入变量都是独立的。这是一个很强硬的假设，实际情况也不一定如此，但这种技术对于大多数复杂的问题还是很有效的。

4、SVM 最重要的思想是什么？

　　SVM计算的过程就是帮助我们寻找超平面的过程。它有一个核心概念叫做分类区间。SVM的目标是找到所有分类区间中最大值对应的超平面。数学上，这是一个凸优化问题。我们还根据数据是否线性可分将SVM分为硬区间SVM、软区间SVM和非线性SVM。

5、K-Means 和 KNN 算法的区别是什么？

　　首先，这两种算法解决了数据挖掘中的两类问题。K-Means是一种聚类算法，KNN是一种分类算法。其次，这两种算法是两种不同的学习方法。K-Means是无监督学习，也就是不需要事先给分类标签，而KNN是监督学习，需要我们给出训练数据的分类标识。最后，k值的意义不同。K-Means中K的值代表K类。kN中的k值代表k个最近邻。