数据分析(工程)师/数据科学家能力测评表
| 模块 | 知识点 | 问题示例 | 
| 概率和统计 | 线性回归和正则化 | 写出不同正则化的线性回归损失函数,R2, 参数估计 | 
| 概率分布 | 写出高斯分布的概率密度函数 | |
| 统计检验 | t检验,什么是P_value,卡方检验 | |
| 采样 | Gibbs采样,MCMC | |
| 分层采样,分组采样 | ||
| 贝叶斯公式 | 写出贝叶斯公式。两个盒子分别有r1, r2个红球, b1,b2个蓝色球,现在小明抽到一个红球,问这个红球来自第一个盒子的概率是多少? | |
| 参数估计 | 矩估计,最大似然估计的理论基础,区间估计中随机区间及相应概率的理解。 | |
| 数据清洗与可视化 | 缺失值处理 | 列举缺失值处理的常用方法,写出对应的代码 | 
| 异常值检测 | 列举异常值检测的方法 | |
| 特征离散化 | 特征离散化的常用方法 | |
| 数据可视化 | 变量相关性,散点图,箱线图,直方图(代码) | |
| 机器学习 | 朴素贝叶斯 | 写出贝叶斯公式,推导朴素贝叶斯进行文本分类的算法 | 
| 逻辑回归 | 写出预测函数,logistic函数的求导,写出参数学习的迭代公式 | |
| SVM | 原问题和对偶问题,样本量大的时候如何选取,核函数有哪些,如何处理线性不可分数据,SMO算法的原理,有哪些常用工具包 | |
| 决策树 | 如何防止过拟合,写出遍历所有叶子节点代码,列举不纯度,写出Gini不纯度和交叉熵不纯度的公式,如何计算变量重要度 | |
| 随机森林 | 方差和偏差,模型效果与树数目M的关系,样本抽样和特征抽样 | |
| Adaboost | 简述思想,写出伪代码,写出样本权重和分类器权重更新公式,如何处理多分类 | |
| GBDT | 简述基本思想,与Adaboost的区别,如何处理分类问题 | |
| 人工神经网络 | 后向传播算法 | |
| 变量选择与评价 | 列举变量选择的算法 | |
| 降维 | PCA降维,SVD,LDA | |
| 聚类分析 | K-means聚类的思想,编码,高斯混合模型,EM算法 | |
| 关联规则挖掘 | Apriori算法,支持度,置信度 | |
| 模型选择与评价 | 交叉验证,ROC曲线绘制方法,其他模型评价指标 | |
| 自然语言处理 | N-gram语言模型 | 写出一个句子的概率公式 | 
| TF-IDF | 写出将文档转换成TF-IDF向量的伪代码 | |
| 中文模糊匹配 | 中文地址匹配,中文公司名称匹配 | |
| 最大熵模型 | 写出最大熵模型的预测公式 | |
| HMM和CRF | 维特比算法,前向算法,后向算法。如何使用HMM和CRF进行中文分词 | |
| 话题分析和挖掘(LDA) | 概率图模型的基本知识,画出LDA的图形化表示,变分推理,Gibbs采样 | |
| 词向量(Word2Vec) | 深度学习,词向量 | |
| 情感分析与观点挖掘 | 情感分类的步骤,如何挖掘商品特性词,如何进行评论评级分类 | |
| 推荐系统 | 基本概念 | 数据稀疏,冷启动 | 
| 基于邻域的方法 | UserCF和ItemCF及优缺点对比 | |
| 隐语义模型 | 矩阵分解,pLSA, LDA,隐含主题模型等 | |
| 基于内容的推荐 | 向量空间模型,基于文本分类的推荐方法等 | |
| 评测指标 | 评分预测RMSE和MAE,TopN推荐中的精度和召回率,覆盖率,多样性的含义 | |
| 时间序列分析 | 基本概念 | 拖尾性和截尾性的判断,自相关系数和偏自相关系数的概念等 | 
| 模型理解 | ARIMA,ARCH, GARCH等 | |
| 大数据平台与数据处理 | MapReduce和Hadoop | 统计一个语料中词频的Map和Reduce伪代码 | 
| 分布式算法实现 | 编写PageRank算法的Map和Reduce伪代码 | |
| Spark | RDD基本思想, RDD两种操作和各自特点,描述一个Spark程序执行的流程 | |
| 大文件处理 | 100万的样本,计算某一列A的每一种取值的数量 | |
| 数据合并处理 | 将两个大文件进行连接的伪代码TableA(a,b), TableB(b,c) | |
| 数据分组处理 | 贷款记录表(贷款人,贷款ID,贷款类型,贷款额), 计算每一个贷款人每一种贷款的笔数和平均贷款额 | |
| 图算法与社交网络分析 | 基本概念 | 节点度数,亲密度(Closeness),介数(Betweenness) | 
| 节点重要度算法 | PageRank和HITS算法 | |
| 最短路径 | 单源最短路径Dijkstra, 多源最短路径Floyd-Warshall算法 | |
| 社区发现 | 图上的社区发现算法 | |
| 图查询与索引 | 图索引概念,图的查询操作,子图匹配 | |
| 软技能 | 案例分析 | 可以拿实际项目中遇到的挑战性问题提问面试者的解决思路。 | 
| 项目和实习经历描述 | 针对做过的相关的目提问项目目标,项目实施方法,综合了解面试者项目实际参与情况。 | |
| 综合素质 | 文档撰写能力 | 通信数据进行信用评分的数据分析文档,写出数据分析报告的提纲 | 
| 沟通表达能力 | 这个主要根据面试者面试期间的表现评定,也可专门问一些问题。例如:如何让客户信服我们的技术实力? | |
| 时间规划能力 | 给你一个2个月的数据分析项目,如何进行项目规划? | |
| 智力测验 | 硬币翻转问题(100个硬币,10个朝上) | 
注:以上表格是几年前我用来面试数据分析师的表格,仅代表我个人看法,近几年的一些新技术也没有包括在内。











