数据分析是什么?
数据分析是基于商业目的,有目的的进行收集,整理,加工和分析数据,提炼有价信息的一个过程。
分为明确分析目的与框架,数据收集,数据处理,包括数据清洗和转换,数据分析,数据展现和报告6个阶段。
以下我们先来热身一些专业名词,放在开头也很好查阅。
伪随机数
伪随机数是用确定性的算法计算出来自[0,1]均匀分布的随机数序列。并不真正的随机,但具有类似于随机数的统计特征,如均匀性、独立性等。在计算伪随机数时,若使用的初值(种子)不变,那么伪随机数的数序也不变。伪随机数可以用计算机大量生成,在模拟研究中为了提高模拟效率,一般采用伪随机数代替真正的随机数。模拟中使用的一般是循环周期极长并能通过随机数检验的伪随机数,以保证计算结果的随机性。
矩阵
矩阵相乘最重要的方法是一般矩阵乘积。它只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有意义 。一般单指矩阵乘积时,指的便是一般矩阵乘积。一个m×n的矩阵就是m×n个数排成m行n列的一个数阵。由于它把许多数据紧凑的集中到了一起,所以有时候可以简便地表示一些复杂的模型。
布隆过滤器
布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难
BloomFilter算法
BloomFilter算法,是一种大数据排重算法。在一个数据量很大的集合里,能准确断定一个对象不在集合里;判断一个对象有可能在集合里,而且占用的空间不大。它不适合那种要求准确率很高的情况,零错误的场景。通过牺牲部分准确率达到高效利用空间的目的。
函数sum和cumsum
矩阵求和函数sum()和cumsum()函数。
矩阵
在数学中,矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合 [1] ,最早来自于方程组的系数及常数所构成的方阵。这一概念由19世纪英国数学家凯利首先提出。矩阵是高等代数学中的常见工具,也常见于统计分析等应用数学学科中。 [2] 在物理学中,矩阵于电路学、力学、光学和量子物理中都有应用;计算机科学中,三维动画制作也需要用到矩阵。 矩阵的运算是数值分析领域的重要问题。将矩阵分解为简单矩阵的组合可以在理论和实际应用上简化矩阵的运算。对一些应用广泛而形式特殊的矩阵,例如稀疏矩阵和准对角矩阵,有特定的快速运算算法。关于矩阵相关理论的发展和应用,请参考矩阵理论。在天体物理、量子力学等领域,也会出现无穷维的矩阵,是矩阵的一种推广。
笛卡尔坐标系
笛卡尔坐标系(Cartesian coordinates,法语:les coordonnées cartésiennes)就是直角坐标系和斜坐标系的统称。
相交于原点的两条数轴,构成了平面放射坐标系。如两条数轴上的度量单位相等,则称此放射坐标系为笛卡尔坐标系。两条数轴互相垂直的笛卡尔坐标系,称为笛卡尔直角坐标系,否则称为笛卡尔斜角坐标系。
exp函数
烟囱系统,数据孤岛
数据类型
在数据分析中,数据分为以下几种:
- 表格型数据,其中各列可能是不同的类型,比如字符串、数值、日期等。多表现为关系型数据库和文本文件中的数据
- 多维数组(矩阵)
- 通过关键列相互联系的多个表(比如mysql关系型数据库)
- 间隔平均或不平均的时间序列
有关数据分析的工具
Excel是最广泛应用的数据分析工具,其功能也很强大
python:
python拥有活跃的科学计算社区,在学术领域和商业领域都有普遍的应用,用于数据科学,机器学习,web开发等多个方面。python作为一种胶水语言,能够轻松集成旧有算法和系统,不仅仅适用于研究和原型构建,同时也适用于构建生产系统
在python做数据分析中,有一些非常重要的python库:
NumPy(Numerical Python)
这是python的科学计算的基础包- 快速⾼效的多维数组对象ndarray。
- ⽤于对数组执⾏元素级计算以及直接对数组执⾏数学运算的函数。
- ⽤于读写硬盘上基于数组的数据集的⼯具。
- 线性代数运算、傅⾥叶变换,以及随机数⽣成。
- 成熟的C API,⽤于Python插件和原⽣C、C++、Fortran代码访问NumPy的数据结构和计 算⼯具。
- 对于数值型数据,NumPy数组在存储和处理数据时要⽐内置的Python数据结构⾼效得 多。
pandas
- pandas提供快速捷处结构化数据的数据结构和函数。
- pandas兼具NumPy⾼性能的数组计算功能以及电⼦表格和关系型数据库(如SQL)灵活 的数据处理功能。它提供了复杂精细的索引功能,能更加便捷地完成重塑、切⽚和切块、 聚合以及选取数据⼦集等操作 。
- 数据操作、准备、清洗是数据分析最重要的技能(耗时最⻓) 。
matplotlib
- 最流⾏的⽤于绘制图表和其它⼆维数据可视化的Python库
- 适合创建出版物上⽤的图表
IPython&jupyter
适合探索⼯作流(探索、试错、重复)的过程,因为可以实时显示
IPython web notebook Jupyter notebook (⽀持40多种编程语⾔)
Jupyter notebook⽀持markdown和html
Scipy
- ⼀组专⻔解决科学计算中各种标准问题域的包的集合。
- scikit-learn
- scikit-learn成为了Python的通⽤机器学习⼯具包
- statsmodels
- statsmodels包含经典统计学和经济计量学的算法
1 | 常用模块引用惯例 |
###Jupyter Notebook
notebook是Jupyter项⽬的重要组件之⼀,它是⼀个代码、⽂本(有标记或⽆标记)、数据可视化或其它输出的交互式⽂档。Python的Jupyter内核是使⽤IPython。
启动
1 | $ jupyter notebook |
要新建⼀个notebook,点击按钮New,选择“Python3”或“conda[默认项]”。如果是第⼀次, 点击空格,输⼊⼀⾏Python代码。然后按Shift-Enter执⾏。 当保存notebook时(File⽬录下的Save and Checkpoint),会创建⼀个后缀名为.ipynb的⽂ 件。要加载存在的notebook,把它放到启动notebook进程的相同⽬录内。
1 | 查看当前目录 |
####在变量前后使用一个问号:显示对象或函数信息,两个问号:显示源代码
#####Jupyter键盘快捷键:
魔术命令
%timeit 测量任何Python语句,例如矩阵乘法的执行时间
魔术命令如下:
集成Matplotlib
IPython在分析计算领域能够流⾏的原因之⼀是它⾮常好的集成了数据可视化和其它⽤户界⾯ 库,⽐如matplotlib
1 | %matplotlib |
打印一张随机生成50个数求和的分析图
NumPy
NumPy是在⼀个连续的内存块中存储数据,独⽴于其他Python内置对象。NumPy的C语⾔编 写的算法库可以操作内存,⽽不必进⾏类型检查或其它前期⼯作。⽐起Python的内置序列, NumPy数组使⽤的内存更少。
NumPy是科学计算的基础包,特点是有快速⾼效的多维数组对象ndarray,⽤于对数组执⾏元素级计算以及直接对数组执⾏数学运算的函数,⽤于读写硬盘上基于数组的数据集的⼯具,它可以高效处理大数组的数据,在整个数组上执行复杂的矢量计算。
基于NumPy的算法要比纯Python效率高上数量级,且使用的内存更少。
NumPy的ndarray:⼀种多维数组对象
NumPy最重要的⼀个特点就是其N维数组对象(即ndarray),该对象是⼀个快速⽽灵活的⼤数据集容器。
创建ndarray
1 | In [19]: data1 = [6, 7.5, 8, 0, 1] |
ndarray是⼀个通⽤的同构数据多维容器,所有元素必须是相同类型的
1 | # 取维度⼤⼩ |
嵌套序列(⽐如由⼀组等⻓列表组成的列表)将会被转换为⼀个多维数组
1 | In [22]: data2 = [[1, 2, 3, 4], [5, 6, 7, 8]] |
你可以利⽤这种数组对整块数据执⾏⼀些数学运算,其语法跟标量元素之间的运 算⼀样。
1 | In [12]: import numpy as np |
zeros和ones分别可以创建指定⻓度或形状的全0或全1数组。empty可以创建⼀个没有任何具 体值的数组
1 | In [29]: np.zeros(10) |
np.empty返回的都是⼀些未初始化的垃圾值
以下是关于这些函数的说明:
ndarray的数据类型
ndarray的数据类型有float64/32/128,int64/32/128,他们之间可以互相转换,在省城ndarray时也可以指定dtype,如果不指定一般默认为int或float64
1 | In [33]: arr1 = np.array([1, 2, 3], dtype=np.float64) |
将浮点数转换成整数,则⼩数部分将会被截取删除
1 | In [41]: arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1]) |
调⽤astype总会创建⼀个新的数组(⼀个数据的备份)
NumPy数组的批量运算
不⽤编写循环即可对数据执⾏批量运算。NumPy⽤户称其为矢量化(vectorization)。⼤⼩相 等的数组之间的任何算术运算都会将运算应⽤到元素级
1 | In [51]: arr = np.array([[1., 2., 3.], [4., 5., 6.]]) |
数组与标量的算术运算会将标量值传播到各个元素
1 | In [55]: 1 / arr |
数组之间的⽐较会⽣成布尔值数组
1 | In [57]: arr2 = np.array([[0., 4., 1.], [7., 2., 12.]]) |
索引和切⽚
1 | In [60]: arr = np.arange(10) |
切⽚[ : ]会给数组中的所有值赋值
1 | In [70]: arr_slice[:] = 64 |
ndarray切⽚的⼀份副本⽽⾮视图,就需要明确地进⾏复制操作,例如arr[5:8].copy()
1 | In [72]: arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) |
多维数组中,如果省略了后⾯的索引,则返回对象会是⼀个维度低⼀点的ndarray
1 | In [76]: arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) |
标量值和数组都可以被赋值给arr3d[0]
1 | In [79]: old_values = arr3d[0].copy() |
切⽚索引
1 | In [90]: arr2d |
⼀次传⼊多个切⽚
第二个切片参数代表的是每一个子对象里的序列号
1 | In [92]: arr2d[:2, 1:] |
将整数索引和切⽚混合选取第⼆⾏的前两列
1 | In [93]: arr2d[1, :2] |
选择第三列的前两⾏
1 | In [94]: arr2d[:2, 2] |
“只有冒号”表示选取整个轴
1 | In [95]: arr2d[:, :1] |
#####布尔型索引
假设我们有⼀个⽤于存储数据的数组以及⼀个存储姓名的数组(含有重复项)
1 | In [98]: names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe']) |
要选择除”bob”以外的其他值,既可以使⽤不等于符号(!=),也可以通过~对条件进⾏否定(data[~(names == ‘Bob’)],data[data < 0] = 0 )
1 | In [106]: names != 'Bob' |
花式索引
花式索引(Fancy indexing)是⼀个NumPy术语,它指的是利⽤整数数组进⾏索引
1 | In [117]: arr = np.empty((8, 4)) |
为了以特定顺序选取⾏⼦集,只需传⼊⼀个⽤于指定顺序的整数列表或ndarray即可
1 | In [120]: arr[[4, 3, 0, 6]] |
⼀次传⼊多个索引数组会有⼀点特别。它返回的是⼀个⼀维数组,其中的元素对应各个索引元组 。
1 | In [122]: arr = np.arange(32).reshape((8, 4)) |
####数组转置和轴对换
转置是重塑的⼀种特殊形式,它返回的是源数据的视图(不会进⾏任何复制操作)
1 | In [126]: arr = np.arange(15).reshape((3, 5)) |
利⽤np.dot计算矩阵内积
1 | In [129]: arr = np.random.randn(6, 3) |
对于⾼维数组,transpose需要得到⼀个由轴编号组成的元组才能对这些轴进⾏转置
1 | In [132]: arr = np.arange(16).reshape((2, 2, 4)) |
https://blog.csdn.net/qq_21046135/article/details/71249195
通⽤函数(ufunc):快速的元素级数组函数
1 | In [137]: arr = np.arange(10) |
add或maximum接受2个数组(因此也叫⼆元(binary)ufunc),并返回⼀个结果数组
1 | In [141]: x = np.random.randn(8) |
返回浮点数数组的⼩数和整数部分
1 | In [146]: arr = np.random.randn(7) * 5 |
####利⽤数组进⾏数据处理
⽤数组表达式代替循环的做法,通常被称为⽮量化。⼀般来说,⽮量化数组运算要⽐等价的纯 Python⽅式快上⼀两个数量级(甚⾄更多)。 假设我们想要在⼀组值(⽹格型)上计算函数sqrt(x^2+y^2) np.meshgrid函数接受两个⼀维数组,并产⽣两个⼆维矩阵(对应于两个数组中所有的(x,y) 对)
1 | In [155]: points = np.arange(-5, 5, 0.01) # 1000 equally spaced points |
#####matplotlib创建了这个⼆维数组的可视化
1 | In [160]: import matplotlib.pyplot as plt |
将条件逻辑表述为数组运算
1 | In [165]: xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5]) |
当cond中的值为True时,选取xarr的值,否则从yarr中选取
1 | In [170]: result = np.where(cond, xarr, yarr) |
假设有⼀个由随机数据组成的矩阵,你希望将所有正值替换为2,将所有负值替换为-2
1 | In [172]: arr = np.random.randn(4, 4) |
⽤常数2替换arr中所有正的值
1 | In [176]: np.where(arr > 0, 2, arr) |
数学和统计⽅法
可以通过数组上的⼀组数学函数对整个数组或某个轴向的数据进⾏统计计算。sum、mean以 及标准差std等聚合计算(aggregation,通常叫做约简(reduction))
1 | In [177]: arr = np.random.randn(5, 4) |
arr.mean(1)是“计算⾏的平均值”,arr.sum(0)是“计算每列的和”
1 | In [182]: arr.mean(axis=1) |
⽤于布尔型数组的⽅法
1 | In [190]: arr = np.random.randn(100) |
#####any⽤于测试数组中是否存在⼀个或多个True,⽽all则检查数组中所有值是否都是True,这两个 ⽅法也能⽤于⾮布尔型数组,所有⾮0元素将会被当做True
1 | In [192]: bools = np.array([False, False, True, False]) |
排序
1 | In [195]: arr = np.random.randn(6) |
多维数组可以在任何⼀个轴向上进⾏排序
1 | In [199]: arr = np.random.randn(5, 3) |
唯⼀化以及其它的集合逻辑
找出数组中的唯⼀值并返回已排序的结果
1 | In [206]: names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe']) |
函数np.in1d⽤于测试⼀个数组中的值在另⼀个数组中的成员资格,返回⼀个布尔型数组
1 | In [211]: values = np.array([6, 0, 0, 3, 2, 5, 6]) |
数组的集合运算如下:
⽤于数组的⽂件输⼊输出
NumPy的内置⼆进制格式读写 np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下,数组是以未压缩的原始 ⼆进制格式保存在扩展名为.npy的⽂件中的
1 | In [213]: arr = np.arange(10) |
通过np.savez可以将多个数组保存到⼀个未压缩⽂件中
将数据压缩,可以使⽤numpy.savez_compressed
线性代数
矩阵乘法的dot函数
1 | In [223]: x = np.array([[1., 2., 3.], [4., 5., 6.]]) |
⼀个⼆维数组跟⼀个⼤⼩合适的⼀维数组的矩阵点积运算之后将会得到⼀个⼀维数组
1 | In [229]: np.dot(x, np.ones(3)) |
@符也可以⽤作中缀运算符,进⾏矩阵乘法
1 | In [230]: x @ np.ones(3) |
伪随机数⽣成
⽤normal来得到⼀个标准正态分布的4×4样本数组
1 | In [238]: samples = np.random.normal(size=(4, 4)) |
Python内置的random模块则只能⼀次⽣成⼀个样本值。从测试结果中可以看出,如果 需要产⽣⼤量样本值,numpy.random快了不⽌⼀个数量级
numpy.random的数据⽣成函数使⽤了全局的随机种⼦。要避免全局状态,你可以使⽤ numpy.random.RandomState,创建⼀个与其它隔离的随机数⽣成器
部分numpy.random函数如下:
示例:
⽤np.random模块⼀次性随机产⽣1000个“掷硬币”结果(即两个数中任选⼀个),将其分别设 置为1或-1,然后计算累计和
1 | In [251]: nsteps = 1000 |
我们想要知道本次随机漫步需要多久才能距离初始0点⾄少10步远(任⼀⽅向均可)
1 | In [257]: (np.abs(walk) >= 10).argmax() |