基于数据分类下的数据分析思路简介-CFANZ编程社区

我们在做数据分析的时候，往往首先想到的是各种方法，比如传统统计学的方法、多元统计的方法、机器学习的方法等等。但是今天我要说的是，我们在做数据分析的时候，应该首先考虑清楚数据的分类，即先对数据做定性的判断，再选择合适的方法去进行处理。那么数据分类有哪几种分类思路呢，下面做了说明：

1、数据结构化程度上分析

数据从类型上可以分为结构化的数据、非结构化和半结构化的数据。结构化的数据往往又有几种分类方式，比如按数据的属性可以分为数值型数据、分类型数据；按照数据与时间的关系，可以分为横截面数据、时间序列数据和面板数据。我在学习的时候，往往是根据不同的数据类型，去学习相对应的处理方法。

比如说分析结构化的数值型数据，就有很多方法可以去进行分析。利用描述统计的方法，可以得到数值型数据的平均指标、变异指标、频数分布等等；利用推断统计的方法，可以做区间估计、假设检验；利用回归分析的方法，则可以拟合自变量和因变量之间的回归方程，从而通过回归方程去研究自变量和因变量之间的关系。如果使用多元统计中的方法，则可以使用判别分析去给未知类别的样本归类、使用聚类分析去把一群未分类样本划分类别。如果数据集的维度比较高，还可以使用主成分分析、因子分析等方法对数据集进行降维。总而言之，对于数值型的结构化数据，分析的方法有很多。

如果得到的数据是分类型的数据，那么又有一些别的处理方法。描述统计和推断统计中都有针对分类型数据的处理技术，比如最简单的列联表分析、卡方检验这些都是处理分类型数据的经典方法。有时候对于分类型的数据，我们还要把它数值化后再进行分析。比如常见的逻辑斯蒂回归、广义线性模型等都可以针对分类型数据进行分析。

如果得到的数据是和时间相关的，那往往会结合时间序列或计量中的方法来做分析。比如对于横截面数据，往往可以通过计量的方法来分析；对于时间序列数据，计量中有一些处理方法，专门的时间序列分析中也有一些处理方法，比如把时间序列划分为平稳时间序列、非平稳时间序列、多元时间序列等，然后针对每一种时间序列进行分析；如果是面板数据，它具有截面和时间2个维度，又有新的处理方法。

对于非结构化的数据，例如文本、图片、音频、视频等，它们的数据结构不规则或者不够完整，和结构化数据的数据类型差别比较大。形式很多，分析起来的难度也比较大。分析非结构化的数据，就我了解过的来说，有一些方法。比如可以通过一些方式把非结构化的数据转化成结构化的数据再使用结构化数据的分析方法去进行分析，也可以针对一些特定的非结构化数据使用特定的方法来分析，例如对文本数据，可以使用文本挖掘的方法。

此外还有半结构化的数据，就是数据中一部分是结构化，另一部分是非结构化。对于半结构化数据我了解的很少，知道一种思路是把半结构化的数据尽量转变为完全结构化的数据，然后再使用结构化数据分析的方法去处理。

2、从数据量和数据维度的关系上分析

如果从数据量和数据维度的关系上去分析，可以把数据分为：小数据和大数据。其中小数据又可以划分为2种，1种是数据量大于数据维度，也就是n大于k的情况；另一种是n小于k，也就是数据量小于数据维度。同理，大数据也可以划分为数据量大于数据维度和数据量小于数据维度2种。所以一共有4种类型。

我平常接触到比较多的数据类型，就是小数据且数据量远大于数据维度的这种数据。对于这种数据，大部分分析的方法都是比较适用的。但是当数据量小于数据维度，或者是数据的维度特别大时，很多常用的处理方法就不好用了。比如使用一些常用的聚类算法去处理这些高维度的数据的时候，会出现计算效率低、容易产生过拟合等问题。所以对于这些高维数据，有一种处理方法就是先通过数据降维处理，比如特征选择、维数约简等方法先把高维数据的维度降下来，然后再进行分析，就可以减轻一些算法带来的负面影响。

如果数据量和数据维度已经大到进入了大数据的范畴，那很多分析方法就很小数据不一样了。首先从存储数据所使用的工具上就有所差别，存小数据我们往往是通过像MySQL这样的关系型数据库，或者数据量再小一点，使用EXCEL或者SPSS存储。但是对于大数据，往往需要分布式数据库，比如使用架构在Hadoop上的HBase分布式数据库去储存数据。从而在进行大数据分析的时候，传统的分析方法要根据大数据的数据特性做一些调整，从而适应大数据的结构特点。对于大数据分析这一块，我了解的比较少，日后有时间会深入学习。

3、从数据所在的领域上去分析

还有一种划分数据的方法，是根据数据所在的实际领域情况去划分。比如根据行业的不同，可以把数据划分为交通数据、天气数据、经济数据、金融数据、医疗数据、教育数据等等。这种根据不同领域划分的数据，往往是与数据所在的领域的特点密切相关的。比如天气数据和金融数据往往是时间序列数据，就往往要采用时间序列分析的方法去处理。交通数据由于往往涉及到最优化的目标，则可能会采用最优化理论中的一些模型，比如图模型的方法去处理。如果是医疗数据，则可能容易出现维度比较高的数据场景，就可能要采用高维数据分析的方法去处理。

4、总结

综上所述，我们在做数据分析的时候，首先是要把数据的类型搞清楚。我的分析思路一般是，先看数据所在的领域，这样可以先结合数据背后的一些业务上或者行业上的知识，对数据有一个初步的认知。然后是看数据是大数据还是小数据，从而判断数据的获取、存储、初步计算和查询等数据预处理方式该怎么去选择。接着是看数据是属于结构化数据还是非结构化数据，如果是结构化数据，判断它是哪一种结构化数据，是数值型还是分类型，是不是和时间有关，从而选择对应的处理方法；如果是非结构化数据也是一样，判断是文本、音频还是图片等结构，从而选择对应的方法去处理。

——————————————————★