pandas fillna_机器学习教程之小白入门Pandas

如果你想要利用python来学习数据分析和机器学习，你将很有可能使用非常强大的Pandas库。Pandas是python的一个可供数据操纵和分析的开源库。今天的内容是小编带你对Pandas进行简单的入门。 1 读取数据这有一种很简单的方式，就是你可以用Python加载数据表(tables)以及excel文件： Pandas可以让我们读取电子表格并且用python程序化地操纵它们。 Pandas的核心是DataFrame——基本上是一个数据表，每个行和列都有一个label。现在先让小编演示如何读取一个包含音乐服务数据的基本CSV文件。

import pandasdf=pandas.read_csv('music.csv')

read_csv 函数可以把轻松地把数据搬到DataFrame里。同学们还要注意修改括号里文件的路径。接下来就可以对数据进行切分用来分析了。 2 选择数据根据它的label选择任意一列：

df['Artist']

也可以使用它的行号来选择一行或者多行：

df[1:3]

我们可以使用loc函数和列标签、行号来选择表格的任意一块，要注意的是与上一种方法不同，这里要包含两个边界标号：

df.loc[1:3,['Artist']]

3 过滤我们还可以使用行的特定的值来对数据进行过滤：

df[df['Genre']=='Jazz']

df[df['Listeners']>1800000]

4 处理缺失值你面对的数据集里将经常遇到缺失值，如下图。

那么让小编带你看看如何处理缺失值。有很多方法可以采用，其中有一个简单的方法就是把有缺失值的行删掉：

df.dropna()

还有利用 fillna() 函数来填充缺失值，比如用零：

df.fillna(0)

5 分组还有一个有趣的操作，就是你可以用一定的规则来把数据分组并且整合数据。比如，我们用流派“genre”来分组，并且看看每个流派有多少听众和播放量：

df.groupby('Genre').sum()

Pandas将两个“Jazz”行组合为一行，由于我们使用sum()进行聚合，因此它将两个Jazz艺术家的听众和播放量相加，并在combined Jazz列中显示总和。这是一种非常强大的数据分析方法。现在你已经知道groupby()，就可以使用这个工具来折叠数据集并从中得到你的见解。学会聚集统计学的基础工具之一groupby()，相信这对你有很大的帮助。除了sum()之外，Pandas还提供了多个聚合函数，包括mean()来计算平均值、min()、max()和多个其他函数。 6 从存在的列中创建新的列通常在数据分析过程中，我们发现我们需要从现有的数据中创建新的列。P andas可以轻而易举地实现这个。

df['Avg Plays']=df['Plays']/df['Listeners']

通过告诉Pandas将一列除以另一列，它意识到我们要分别除以各个值(即每行的Plays值除以该行的Listeners值)。今天的内容就分享到这里，你可以将学习的内容练习一遍，动手练习效果更佳哦。本文来源：https://jalammar.github.io/gentle-visual-intro-to-data-analysis-python-pandas/ 翻译：Sunam

pandas fillna_机器学习教程之小白入门Pandas

浏览过的版块