Python3中类的高级语法及实战
Python3(基础|高级)语法实战(|多线程|多进程|线程池|进程池技术)|多线程安全问题解决方案
Python3数据科学包系列(一):数据分析实战
Python3数据科学包系列(二):数据分析实战
认识下数据科学中数据处理基础包:
(1)NumPy
俗话说: 要学会跑需先学会走
(1)数据分析基础认知:
NumPy是,Numerical Python的简称,它是目前Python数值计算中最为重要的基础包,大多数计算包提供了基于NumPy的科学函数功能;
将NumPy的数值对象作为数据交换的通用语
NumPy通常用于处理如下场景数据的处理:
ndarray,是一种高效多维数组,提供了基于数组的便捷算术操作以及灵活的广播功能;
对所有数据进行快速的计算,而无需编写循环程序
对硬盘数据进行读写的工具,并对内存映射文件进行操作
线性代数,随机数生成以及傅里叶变换功能
用于连接NumPy到C,C++代码库封装,并为这些代码提供动态,易用的接口
在大数据领域,通常更关注的内容如下 :
在数据处理,数据清洗,构造子集,过滤,变换以及其他计算中进行快速的向量化计算
常见的数组算法,比如sort,unique以及set操作
高效的描述性统计和聚合,概述数据
数据排序和相关数据操作,例如对异构数据进行merge和join
使用数组表达式来表明条件逻辑,代替if-elif-else条件分支的循环
分组数据的操作(聚合,变换,函数式操作)
(2)NumPy两大亮点
NumPy在内部将数据存储在连续的内存地址上,这与其他的Python内建数据结构时不同的。
NumPy的算法库时C语言编写的,所以在操作数据内存时,不需要任何类型检查或者其他管理操作。
NumPy数据使用的内存量也小于其他Python内建序列。
NumPy可以针对全量数值进行复杂计算而不需要编写Python循环
一: 数据分析高级语法:序列(Series)
二:NumPy包的多维数组对象
三: 数据分析高级语法: 数据框(DataFrame)
DataFrame表示的是矩阵数据表,它包含已经排序的集合;每一列可以是不同的值类型(数值,字符串,布尔值等)DataFrame既有行索引和列索引,它被视为一个共享相同索引的Series的字典,可以看作是序列Series的容器;在DataFrame中,数据被存储为一个以上的二维块,而不是列表,字典或者其他一维数值的集合;
可以使用分层索引在DataFrame中展示更高维度的数据