dataframe修改列名_python dataframe操作大全数据预处理过程(dataframe、md5)

论坛 期权论坛 编程之家     
选择匿名的用户   2021-6-2 15:48   4513   0
  1. hive表的特征选择,不同表之间的join
  2. 训练数据、测试数据的分开保存
  3. 使用pandas进行数据处理
  • 显示所有列:pd.set_option('display.max_columns', None)
  • 显示所有行:pd.set_option('display.max_rows', None)
  • 单列运算:df['col2'] = df['col1'].map(lambda x: x**2)
  • 多列运算:df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
  • 修改列类型:df[[column]] = df[[column]].astype(type)
  • 保存成csv: df2.to_csv(path_or_buf=r'D:workdatasetdata.csv', sep=', ', na_rep='', float_format=None, columns=None,header=True, index=True)
def 

dataframe某列进行MD5加密处理很方便

def 

DataFrame的columns重命名

  1. 部分重命名columns = dict,使用字典类型的数据对列进行重命名
  2. 全部重命名 columns = new_columns,新列名的长度必须与旧列名一致
  3. 读取文件的时候重命名 names = new_col,可以在读取文件的时候,给出新列名
dataframe

Pandas 过滤dataframe中包含特定字符串的数据

df 
0 0faf4671f767a615b12e9666b84cea9c
1 1e9b02f11ccb70591b99557be06dd809
2 d52f407e4f0f8f7cbbc764292533f5ce
3 d249ba2af4ce5c9741c9722d2f4f39aa
4 43184e73dd23c8c69acfe870368ca2c7
Name: device_id, dtype: object
247 95858ab4a194aecdd80304fbf5a93101
302 6d3e505235b9023c4a2f965af1750001
728 78497f37278a11edc1c75e80f4d61a01
814 949be0d48d7fa19dee60206eceb19d01
1750 fc6fb233bebed6fc6ca5b3bf103f1701
Name: device_id, dtype: object
Process finished with exit code 0
print

8e65f7256eed54e248f56237fbb66323.png
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP