pandas fillna_机器学习教程之小白入门Pandas

论坛 期权论坛 编程之家     
选择匿名的用户   2021-6-2 15:49   3408   0
如果你想要利用python来学习数据分析和机器学习,你将很有可能使用非常强大的Pandas库。Pandas是python的一个可供数据操纵和分析的开源库。今天的内容是小编带你对Pandas进行简单的入门。 1 读取数据 这有一种很简单的方式,就是你可以用Python加载数据表(tables)以及excel文件: Pandas可以让我们读取电子表格并且用python程序化地操纵它们。 Pandas的核心是DataFrame——基本上是一个数据表,每个行和列都有一个label。 现在先让小编演示如何读取一个包含音乐服务数据的基本CSV文件。
import pandasdf=pandas.read_csv('music.csv')

ee3849d066915a02387a76646f3ea37e.png

read_csv 函数可以把轻松地把数据搬到DataFrame里。同学们还要注意修改括号里文件的路径。 接下来就可以对数据进行切分用来分析了。 2 选择数据 根据它的label选择任意一列:
df['Artist']

af8bcd911c8bacfe5f03f6eca2b1ade3.png

也可以使用它的行号来选择一行或者多行:
df[1:3]

63313fcdf206bf25c7195748b6944b63.png

我们可以使用loc函数和列标签、行号来选择表格的任意一块, 要注意的是与上一种方法不同,这里要包含两个边界标号:
df.loc[1:3,['Artist']]

a9a6ff3caf26d6790b1fbfc010d65476.png

3 过滤 我们还可以使用行的特定的值来对数据进行过滤:
df[df['Genre']=='Jazz']

ec04c04178173e2f469b70e666514fa1.png

df[df['Listeners']>1800000]

5b88254d7d4e245ff0dd1c63e44f7fa8.png

4 处理缺失值 你面对的数据集里将经常遇到缺失值,如下图。

8bda71798220d5cf8f57da6f3d6531c5.png

那么让小 编带你看看如何处理缺失值。 有很多方法可以采用,其中有一个简单的方法就是把有缺失值的行删掉:
df.dropna()

d3f96847e28fe25500d0300fd710ece5.png

还有利用 fillna() 函数来填充缺失值,比如用零:
df.fillna(0)
5 分组 还有一个有趣的操作,就是你可以用一定的规则来把数据分组并且整合数据。比如,我们用流派“genre”来分组,并且看看每个流派有多少听众和播放量:
df.groupby('Genre').sum() 

7dbf5660ad783e34b8f7049a0249ce88.png

Pandas将两个“Jazz”行组合为一行,由于我们使用sum()进行聚合,因此它将两个Jazz艺术家的听众和播放量相加,并在combined Jazz列中显示总和。 这是一种非常强大的数据分析方法。现在你已经知道groupby(),就可以使用这个工具来折叠数据集并从中得到你的见解。学会聚集统计学的基础工具之一groupby(),相信这对你有很大的帮助。 除了sum()之外,Pandas还提供了多个聚合函数,包括mean()来计算平均值、min()max()和多个其他函数。 6 从存在的列中创建新的列 通常在数据分析过程中,我们发现我们需要从现有的数据中创建新的列。P andas可以轻而易举地实现这个。
df['Avg Plays']=df['Plays']/df['Listeners']

79e861977e1b3256f3be6a4cbd054175.png

通过告诉Pandas将一列除以另一列,它意识到我们要分别除以各个值(即每行的Plays值除以该行的Listeners值)。 今天的内容就分享到这里,你可以将学习的内容练习一遍,动手练习效果更佳哦。 本文来源:https://jalammar.github.io/gentle-visual-intro-to-data-analysis-python-pandas/ 翻译:Sunam

c7bcd6eccb841a00b5616127e49b1b44.png

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP