python数据分析代码问题（python数据分析案例详解）

本文目录一览：

1、可以让你快速用Python进行数据分析的10个小技巧
2、如何用python进行数据分析
3、python数据分析与应用第三章代码3-5的数据哪来的
4、为什么用Python做数据分析

可以让你快速用Python进行数据分析的10个小技巧

一些小提示和小技巧可能是非常有用的，特别是在编程领域。有时候使用一点点黑客技术，既可以节省时间，还可能挽救“生命”。

一个小小的快捷方式或附加组件有时真是天赐之物，并且可以成为真正的生产力助推器。所以，这里有一些小提示和小技巧，有些可能是新的，但我相信在下一个数据分析项目中会让你非常方便。

Pandas中数据框数据的Profiling过程

Profiling（分析器）是一个帮助我们理解数据的过程，而Pandas Profiling是一个Python包，它可以简单快速地对Pandas 的数据框数据进行探索性数据分析。

Pandas中df.describe()和df.info()函数可以实现EDA过程第一步。但是，它们只提供了对数据非常基本的概述，对于大型数据集没有太大帮助。而Pandas中的Profiling功能简单通过一行代码就能显示大量信息，且在交互式HTML报告中也是如此。

对于给定的数据集，Pandas中的profiling包计算了以下统计信息：

由Pandas Profiling包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其他信息——类型、单一变量值、缺失值等。

安装

用pip安装或者用conda安装

pip install pandas-profiling

conda install -c anaconda pandas-profiling

用法

下面代码是用很久以前的泰坦尼克数据集来演示多功能Python分析器的结果。

#importing the necessary packages

import pandas as pd

import pandas_profiling

df = pd.read_csv('titanic/train.csv')

pandas_profiling.ProfileReport(df)

一行代码就能实现在Jupyter Notebook中显示完整的数据分析报告，该报告非常详细，且包含了必要的图表信息。

还可以使用以下代码将报告导出到交互式HTML文件中。

profile = pandas_profiling.ProfileReport(df)

profile.to_file(outputfile="Titanic data profiling.html")

Pandas实现交互式作图

Pandas有一个内置的.plot（）函数作为DataFrame类的一部分。但是，使用此功能呈现的可视化不是交互式的，这使得它没那么吸引人。同样，使用pandas.DataFrame.plot（）函数绘制图表也不能实现交互。如果我们需要在不对代码进行重大修改的情况下用Pandas绘制交互式图表怎么办呢？这个时候就可以用Cufflinks库来实现。

Cufflinks库可以将有强大功能的plotly和拥有灵活性的pandas结合在一起，非常便于绘图。下面就来看在pandas中如何安装和使用Cufflinks库。

安装

pip install plotly

# Plotly is a pre-requisite before installing cufflinks

pip install cufflinks

用法

#importing Pandas

import pandas as pd

#importing plotly and cufflinks in offline mode

import cufflinks as cf

import plotly.offline

cf.go_offline()

cf.set_config_file(offline=False, world_readable=True)

是时候展示泰坦尼克号数据集的魔力了。

df.iplot()

df.iplot() vs df.plot()

右侧的可视化显示了静态图表，而左侧图表是交互式的，更详细，并且所有这些在语法上都没有任何重大更改。

Magic命令

Magic命令是Jupyter notebook中的一组便捷功能，旨在解决标准数据分析中的一些常见问题。使用命令％lsmagic可以看到所有的可用命令。

所有可用的Magic命令列表

Magic命令有两种：行magic命令（line magics），以单个％字符为前缀，在单行输入操作；单元magic命令（cell magics），以双%%字符为前缀，可以在多行输入操作。如果设置为1，则不用键入%即可调用Magic函数。

接下来看一些在常见数据分析任务中可能用到的命令：

% pastebin

％pastebin将代码上传到Pastebin并返回url。Pastebin是一个在线内容托管服务，可以存储纯文本，如源代码片段，然后通过url可以与其他人共享。事实上，Github gist也类似于pastebin，只是有版本控制。

在file.py文件中写一个包含以下内容的python脚本，并试着运行看看结果。

#file.py

def foo(x):

return x

在Jupyter Notebook中使用％pastebin生成一个pastebin url。

%matplotlib notebook

函数用于在Jupyter notebook中呈现静态matplotlib图。用notebook替换inline，可以轻松获得可缩放和可调整大小的绘图。但记得这个函数要在导入matplotlib库之前调用。

%run

用％run函数在notebook中运行一个python脚本试试。

%run file.py

%%writefile

%% writefile是将单元格内容写入文件中。以下代码将脚本写入名为foo.py的文件并保存在当前目录中。

%%latex

%%latex函数将单元格内容以LaTeX形式呈现。此函数对于在单元格中编写数学公式和方程很有用。

查找并解决错误

交互式调试器也是一个神奇的功能，我把它单独定义了一类。如果在运行代码单元时出现异常，请在新行中键入％debug并运行它。这将打开一个交互式调试环境，它能直接定位到发生异常的位置。还可以检查程序中分配的变量值，并在此处执行操作。退出调试器单击q即可。

Printing也有小技巧

如果您想生成美观的数据结构，pprint是首选。它在打印字典数据或JSON数据时特别有用。接下来看一个使用print和pprint来显示输出的示例。

让你的笔记脱颖而出

我们可以在您的Jupyter notebook中使用警示框/注释框来突出显示重要内容或其他需要突出的内容。注释的颜色取决于指定的警报类型。只需在需要突出显示的单元格中添加以下任一代码或所有代码即可。

蓝色警示框：信息提示

p class="alert alert-block alert-info"

bTip:/b Use blue boxes (alert-info) for tips and notes.

If it’s a note, you don’t have to include the word “Note”.

黄色警示框：警告

p class="alert alert-block alert-warning"

bExample:/b Yellow Boxes are generally used to include additional examples or mathematical formulas.

绿色警示框：成功

p class="alert alert-block alert-success"

Use green box only when necessary like to display links to related content.

红色警示框：高危

p class="alert alert-block alert-danger"

It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.

打印单元格所有代码的输出结果

假如有一个Jupyter Notebook的单元格，其中包含以下代码行：

In [1]: 10+5

11+6

Out [1]: 17

单元格的正常属性是只打印最后一个输出，而对于其他输出，我们需要添加print()函数。然而通过在notebook顶部添加以下代码段可以一次打印所有输出。

添加代码后所有的输出结果就会一个接一个地打印出来。

In [1]: 10+5

11+6

12+7

Out [1]: 15

Out [1]: 17

Out [1]: 19

恢复原始设置：

InteractiveShell.ast_node_interactivity = "last_expr"

使用'i'选项运行python脚本

从命令行运行python脚本的典型方法是：python hello.py。但是，如果在运行相同的脚本时添加-i，例如python -i hello.py，就能提供更多优势。接下来看看结果如何。

首先，即使程序结束，python也不会退出解释器。因此，我们可以检查变量的值和程序中定义的函数的正确性。

其次，我们可以轻松地调用python调试器，因为我们仍然在解释器中：

import pdb

pdb.pm()

这能定位异常发生的位置，然后我们可以处理异常代码。

自动评论代码

Ctrl / Cmd + /自动注释单元格中的选定行，再次命中组合将取消注释相同的代码行。

删除容易恢复难

你有没有意外删除过Jupyter notebook中的单元格？如果答案是肯定的，那么可以掌握这个撤消删除操作的快捷方式。

如果您删除了单元格的内容，可以通过按CTRL / CMD + Z轻松恢复它。

如果需要恢复整个已删除的单元格，请按ESC + Z或EDIT撤消删除单元格。

结论

在本文中，我列出了使用Python和Jupyter notebook时收集的一些小提示。我相信它们会对你有用，能让你有所收获，从而实现轻松编码！

如何用python进行数据分析

1、Python数据分析流程及学习路径

数据分析的流程概括起来主要是：读写、处理计算、分析建模和可视化四个部分。在不同的步骤中会用到不同的Python工具。每一步的主题也包含众多内容。

根据每个部分需要用到的工具，Python数据分析的学习路径如下：

python数据分析与应用第三章代码3-5的数据哪来的

savetxt

import numpy as np

i2 = np.eye(2)

np.savetxt("eye.txt", i2)

3.4 读入CSV文件

# AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800

c,v=np.loadtxt('data.csv', delimiter=',', usecols=(6,7), unpack=True) #index从0开始

3.6.1 算术平均值

np.mean(c) = np.average(c)

3.6.2 加权平均值

t = np.arange(len(c))

np.average(c, weights=t)

3.8 极值

np.min(c)

np.max(c)

np.ptp(c) 最大值与最小值的差值

3.10 统计分析

np.median(c) 中位数

np.msort(c) 升序排序

np.var(c) 方差

3.12 分析股票收益率

np.diff(c) 可以返回一个由相邻数组元素的差

值构成的数组

returns = np.diff( arr ) / arr[ : -1] #diff返回的数组比收盘价数组少一个元素

np.std(c) 标准差

对数收益率

logreturns = np.diff( np.log(c) ) #应检查输入数组以确保其不含有零和负数

where 可以根据指定的条件返回所有满足条件的数

组元素的索引值。

posretindices = np.where(returns 0)

np.sqrt(1./252.) 平方根，浮点数

3.14 分析日期数据

# AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800

dates, close=np.loadtxt('data.csv', delimiter=',', usecols=(1,6), converters={1:datestr2num}, unpack=True)

print "Dates =", dates

def datestr2num(s):

return datetime.datetime.strptime(s, "%d-%m-%Y").date().weekday()

# 星期一 0

# 星期二 1

# 星期三 2

# 星期四 3

# 星期五 4

# 星期六 5

# 星期日 6

#output

Dates = [ 4. 0. 1. 2. 3. 4. 0. 1. 2. 3. 4. 0. 1. 2. 3. 4. 1. 2. 4. 0. 1. 2. 3. 4. 0.

1. 2. 3. 4.]

averages = np.zeros(5)

for i in range(5):

indices = np.where(dates == i)

prices = np.take(close, indices) #按数组的元素运算,产生一个数组作为输出。

a = [4, 3, 5, 7, 6, 8]

indices = [0, 1, 4]

np.take(a, indices)

array([4, 3, 6])

np.argmax(c) #返回的是数组中最大元素的索引值

np.argmin(c)

3.16 汇总数据

# AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800

#得到第一个星期一和最后一个星期五

first_monday = np.ravel(np.where(dates == 0))[0]

last_friday = np.ravel(np.where(dates == 4))[-1]

#创建一个数组，用于存储三周内每一天的索引值

weeks_indices = np.arange(first_monday, last_friday + 1)

#按照每个子数组5个元素，用split函数切分数组

weeks_indices = np.split(weeks_indices, 5)

#output

[array([1, 2, 3, 4, 5]), array([ 6, 7, 8, 9, 10]), array([11,12, 13, 14, 15])]

weeksummary = np.apply_along_axis(summarize, 1, weeks_indices,open, high, low, close)

def summarize(a, o, h, l, c): #open, high, low, close

monday_open = o[a[0]]

week_high = np.max( np.take(h, a) )

week_low = np.min( np.take(l, a) )

friday_close = c[a[-1]]

return("APPL", monday_open, week_high, week_low, friday_close)

np.savetxt("weeksummary.csv", weeksummary, delimiter=",", fmt="%s") #指定了文件名、需要保存的数组名、分隔符(在这个例子中为英文标点逗号)以及存储浮点数的格式。

0818b9ca8b590ca3270a3433284dd417.png

格式字符串以一个百分号开始。接下来是一个可选的标志字符：-表示结果左对齐，0表示左端补0，+表示输出符号(正号+或负号-)。第三部分为可选的输出宽度参数，表示输出的最小位数。第四部分是精度格式符，以”.”开头，后面跟一个表示精度的整数。最后是一个类型指定字符，在例子中指定为字符串类型。

numpy.apply_along_axis(func1d, axis, arr, *args, **kwargs)

def my_func(a):

... """Average first and last element of a 1-D array"""

... return (a[0] + a[-1]) * 0.5

b = np.array([[1,2,3], [4,5,6], [7,8,9]])

np.apply_along_axis(my_func, 0, b) #沿着X轴运动，取列切片

array([ 4., 5., 6.])

np.apply_along_axis(my_func, 1, b) #沿着y轴运动，取行切片

array([ 2., 5., 8.])

b = np.array([[8,1,7], [4,3,9], [5,2,6]])

np.apply_along_axis(sorted, 1, b)

array([[1, 7, 8],

[3, 4, 9],

[2, 5, 6]])

3.20 计算简单移动平均线

(1) 使用ones函数创建一个长度为N的元素均初始化为1的数组，然后对整个数组除以N，即可得到权重。如下所示：

N = int(sys.argv[1])

weights = np.ones(N) / N

print "Weights", weights

在N = 5时，输出结果如下：

Weights [ 0.2 0.2 0.2 0.2 0.2] #权重相等

(2) 使用这些权重值，调用convolve函数：

c = np.loadtxt('data.csv', delimiter=',', usecols=(6,),unpack=True)

sma = np.convolve(weights, c)[N-1:-N+1] #卷积是分析数学中一种重要的运算，定义为一个函数与经过翻转和平移的另一个函数的乘积的积分。

t = np.arange(N - 1, len(c)) #作图

plot(t, c[N-1:], lw=1.0)

plot(t, sma, lw=2.0)

show()

3.22 计算指数移动平均线

指数移动平均线(exponential moving average)。指数移动平均线使用的权重是指数衰减的。对历史上的数据点赋予的权重以指数速度减小，但永远不会到达0。

x = np.arange(5)

print "Exp", np.exp(x)

#output

Exp [ 1. 2.71828183 7.3890561 20.08553692 54.59815003]

Linspace 返回一个元素值在指定的范围内均匀分布的数组。

print "Linspace", np.linspace(-1, 0, 5) #起始值、终止值、可选的元素个数

#output

Linspace [-1. -0.75 -0.5 -0.25 0. ]

(1)权重计算

N = int(sys.argv[1])

weights = np.exp(np.linspace(-1. , 0. , N))

(2)权重归一化处理

weights /= weights.sum()

print "Weights", weights

#output

Weights [ 0.11405072 0.14644403 0.18803785 0.24144538 0.31002201]

(3)计算及作图

c = np.loadtxt('data.csv', delimiter=',', usecols=(6,),unpack=True)

ema = np.convolve(weights, c)[N-1:-N+1]

t = np.arange(N - 1, len(c))

plot(t, c[N-1:], lw=1.0)

plot(t, ema, lw=2.0)

show()

3.26 用线性模型预测价格

(x, residuals, rank, s) = np.linalg.lstsq(A, b) #系数向量x、一个残差数组、A的秩以及A的奇异值

print x, residuals, rank, s

#计算下一个预测值

print np.dot(b, x)

3.28 绘制趋势线

x = np.arange(6)

x = x.reshape((2, 3))

array([[0, 1, 2], [3, 4, 5]])

np.ones_like(x) #用1填充数组

array([[1, 1, 1], [1, 1, 1]])

类似函数

zeros_like

empty_like

zeros

ones

empty

3.30 数组的修剪和压缩

a = np.arange(5)

print "a =", a

print "Clipped", a.clip(1, 2) #将所有比给定最大值还大的元素全部设为给定的最大值，而所有比给定最小值还小的元素全部设为给定的最小值

#output

a = [0 1 2 3 4]

Clipped [1 1 2 2 2]

a = np.arange(4)

print a

print "Compressed", a.compress(a 2) #返回一个根据给定条件筛选后的数组

#output

[0 1 2 3]

Compressed [3]

b = np.arange(1, 9)

print "b =", b

print "Factorial", b.prod() #输出数组元素阶乘结果

#output

b = [1 2 3 4 5 6 7 8]

Factorial 40320

print "Factorials", b.cumprod()

#output

为什么用Python做数据分析

原因如下：

1、python大量的库为数据分析提供了完整的工具集

python拥有numpy、matplotlib、scikit-learn、pandas、ipython等工具在科学计算方面十分有优势，尤其是pandas，在处理中型数据方面可以说有着无与伦比的优势，已经成为数据分析中流砥柱的分析工具。

2、比起MATLAB、R语言等其他主要用于数据分析语言，python语言功能更加健全

Python具有强大的编程能力，这种编程语言不同于R或者matlab，python有些非常强大的数据分析能力，并且还可以利用Python进行爬虫，写游戏，以及自动化运维，在这些领域中有着很广泛的应用，这些优点就使得一种技术去解决所有的业务服务问题，这就充分的体现的Python有利于各个业务之间的融合。如果使用Python，能够大大的提高数据分析的效率。

3、python库一直在增加，算法的实现采取的方法更加创新

4、python能很方便的对接其他语言，比如c、java等。

Python最大的优点那就是简单易学。Python代码十分容易被读写，最适合刚刚入门的朋友去学习。我们在处理数据的时候，一般都希望数据能够转化成可运算的数字形式，这样，不管是没学过编程的人还是学过编程的人都能够看懂这个数据。

其实现如今，Python是一个面向世界的编程语言，Python对于如今火热的人工智能也有一定的帮助，这是因为人工智能需要的是即时性，而Python是一种非常简洁的语言，同时有着丰富的数据库以及活跃的社区，这样就能够轻松的提取数据，从而为人工智能做出优质的服务。

通过上面的描述，相信大家已经知道了使用Python做数据分析的优点了。Python语言得益于它的简单方便，使得其在大数据、数据分析以及人工智能方面都有十分明显的存在感，对于数据分析从业者以及想要进入数据分析行业的人来说，简单易学容易上手的优势也是一个优势，所以不管大家是否进入数据分析行业，学习Python是没有坏处的。

Python中文网，大量Python视频教程，欢迎学习！

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python数据分析代码问题（python数据分析案例详解）

本文目录一览：

可以让你快速用Python进行数据分析的10个小技巧

如何用python进行数据分析

python数据分析与应用第三章代码3-5的数据哪来的

为什么用Python做数据分析

python数据分析代码问题（python数据分析案例详解）

python数据分析学习笔记1（python数据分析基础和利

用Python解决数据分析问题

python数据分析01,Python数据分析项目

用python分析csv数据集,python csv数据分析

用python怎么分析（用python怎么分析数据相关性）

python的学习笔记案例7（python例子）

数据分析之python基础,python中的数据分析

用python做财政预测分析,python财经数据分析

这个用来做python数据分析（用python怎么做数据分析

python信用卡数据分析,python数据分析银行信贷

数据分析笔试python必会三的简单介绍

python大数据分析包（数据分析常用的python包）

请问做数据分析学python,数据分析该学什么

python数据分析折线图,python大量数据折线图

python技巧笔记（python自学笔记）

使用Jupyter进行数据分析

python笔记二（2python）

Python中数据分析的作用与代码示例

关于python数据分析师看什么书的信息

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python数据分析代码问题（python数据分析案例详解）

本文目录一览：

可以让你快速用Python进行数据分析的10个小技巧

如何用python进行数据分析

python数据分析与应用第三章代码3-5的数据哪来的

为什么用Python做数据分析

python数据分析代码问题（python数据分析案例详解）

python数据分析学习笔记1（python数据分析基础和利

用Python解决数据分析问题

python数据分析01,Python数据分析项目

用python分析csv数据集,python csv数据分析

用python怎么分析（用python怎么分析数据相关性）

python的学习笔记案例7（python例子）

数据分析之python基础,python中的数据分析

用python做财政预测分析,python财经数据分析

这个用来做python数据分析（用python怎么做数据分析

python信用卡数据分析,python数据分析银行信贷

数据分析笔试python必会三的简单介绍

python大数据分析包（数据分析常用的python包）

请问做数据分析学python,数据分析该学什么

python数据分析折线图,python大量数据折线图

python技巧笔记（python自学笔记）

使用Jupyter进行数据分析

python笔记二（2python）

Python中数据分析的作用与代码示例

关于python数据分析师看什么书的信息

人机检测，请谅解