机器学习基础 --- pandas的基本使用

论坛 期权论坛     
选择匿名的用户   2021-5-22 22:23   37   0
<div class="content-detail markdown-body">
<h2 style="color:#FFFFFF;">一、pandas的简介</h2>
<p>  Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。</p>
<h3>pandas的数据结构:</h3>
<p>  Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。</p>
<p>  Time- Series:以时间为索引的Series。</p>
<p>  DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。</p>
<p>  Panel :三维的数组,可以理解为DataFrame的容器。</p>
<p>  本文主要介绍DateFrame和Series,其中DataFrame充电介绍。</p>
<p>  本文中用到的数据文件地址:<a href="https://files.cnblogs.com/files/God-Li/pandas%E7%9A%84%E5%9F%BA%E6%9C%AC%E4%BD%BF%E7%94%A8.zip">pandas的基本使用.zip</a></p>
<p>  本文只是结合实例介绍pandas的基本使用,若要详细深入学习,请参阅<a href="http://pandas.pydata.org/pandas-docs/stable/">pandas官方文档</a>。</p>
<h2 style="color:#FFFFFF;">二、pandas中的DateFrame</h2>
<p>  使用pandas我们可以很方便的对二维表结构进行一些常规操作。 </p>
<p>1. 使用pandas读取csv(或excel等)文件</p>
<div class="cnblogs_code">
  <pre class="blockcode"><span style="color:#0000ff;">import</span><span style="color:#000000;"> pandas
food_info </span>&#61; pandas.read_csv(<span style="color:#800000;">&#34;</span><span style="color:#800000;">food_info.csv</span><span style="color:#800000;">&#34;</span>)          <span style="color:#008000;">#</span><span style="color:#008000;"> 读取csv文件</span><span style="color:#008000;">
#</span><span style="color:#008000;"> 读取Excel文件使用pandas.read_excel()即可</span>
<span style="color:#0000ff;">print</span><span style="color:#000000;">(type(food_info))           # food_info为一个DataFrame对象
</span><span style="color:#0000ff;">print</span>(food_info.dtypes)          <span style="color:#008000;">#</span><span style="color:#008000;"> 各项数据的类型<br></span></pre>
  <div class="cnblogs_code">
   <img alt="" class="code_img_closed" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-5f94c2fecb4ccb2f76f50c965d122407.gif">
   <img alt="" class="code_img_opened" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-50828477840f9be8f01bb82af691c7d1.gif">
   <div class="cnblogs_code_hide">
    <pre class="blockcode">&lt;<span style="color:#0000ff;">class</span> <span style="color:#800000;">&#39;</span><span style="color:#800000;">pandas.core.frame.DataFrame</span><span style="color:#800000;">&#39;</span>&gt;<span style="color:#000000;">
NDB_No               int64
Shrt_Desc           object
Water_(g)          float64
Energ_Kcal           int64
Protein_(g)        float64
Lipid_Tot_(g)      float64
Ash_(g)            float64
Carbohydrt_(g)     float64
Fiber_TD_(g)       float64
Sugar_Tot_(g)      float64
Calcium_(mg)       float64
Iron_(mg)          float64
Magnesium_(mg)     float64
Phosphorus_(mg)    float64
Potassium_(mg)     float64
Sodium_(mg)        float64
Zinc_(mg)          float64
Copper_(mg)        float64
Manganese_(mg)     float64
Selenium_(mcg)     float64
Vit_C_(mg)         float64
Thiamin_(mg)       float64
Riboflavin_(mg)    float64
Niacin_(mg)        float64
Vit_B6_(mg)        float64
Vit_B12_(mcg)      float64
Vit_A_IU           float64
Vit_A_RAE          float64
Vit_E_(mg)         float64
Vit_D_mcg          float64
Vit_D_IU           float64
Vit_K_(mcg)        float64
FA_Sat_(g)         float64
FA_Mono_(g)        float64
FA_Poly_(g)        float64
Cholestrl_(mg)     float64
dtype: object</span></pre>
   </div>
   <span class="cnblogs_code_collapse">输出</span>
   <span style="color:#008000;"> </span>
  </div>
</div>
<p>2.  获取数据</p>
<div class="cnblogs_code">
  <pre class="blockcode">food_info.head(10)     <span style="color:#008000;">#</span><span style="color:#008000;"> 获取前10行数据,默认获取5行</span><span style="color:#008000;">
#</span><span style="color:#008000;"> first_rows &#61; food_info.head()</span><span style="color:#008000;">
#</span><span style="color:#008000;"> first_rows</span><span style="color:#008000;">
#</span><span style="color:#008000;"> food_info.tail(8)     # 获取尾8行数据,默认获取5行   </span><span style="color:#008000;">
#</span><span style="color:#008000;"> print(food_info.tail())</span>
<span style="color:#0000ff;">print</span>(food_info.columns)    <span style="color:#008000;">#</span><span style="color:#008000;"> 获取foodinfo的各字段名(即表头)</span><span style="color:#008000;"># print(food_info.shape)    # 获取结构  比如此文件时8618行×36列</span><span style="c
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP