国产成人AV无码一二三区,少女1到100集,国产精品久久久久精品综合紧,巜公妇之诱感肉欲HD在线播放

文章 > Python常见问题 > python如何做数据清洗?

python如何做数据清洗?

头像

 Ly

2020-05-26 14:57:495901浏览 · 0收藏 · 0评论

1.数据清洗的代码:

import pandas as pd
import numpy as np
# 创建空的df,保存测试数据
test_df = pd.DataFrame({'K1':['C1','C1','C2','C3','C4','C2','C1'],'K2':['A','A','B','C','D',np.NaN,np.NaN]})
# 按K1列进行分组,组内进行unique操作(去除重复元素,返回元组或列表)
test_df_unique = pd.DataFrame(test_df.groupby(['K1'])['K2'].agg('unique'))
# 自定义函数判断元组中是否含有nan
def has_nan(list):
    flag = False
    for x in list:
        if x is np.NaN:
            flag = True
            break
    return flag
# 自定义函数判断元组中是否不含有nan
def no_nan(list):
    flag = True
    for x in list:
        if x is np.NaN:
            flag = False
            break
    return flag
# 获取k2列含有nan的数据
test_df_unique_has_nan = test_df_unique[test_df_unique['K2'].apply(has_nan)]
# 获取k2列不含有nan的数据
test_df_unique_no_nan = test_df_unique[test_df_unique['K2'].apply(no_nan)]
# 管理测试数据,获取源数据
test_df_get = test_df[test_df['K1'].isin(test_df_unique_has_nan.index.tolist())]
test_df_alone = test_df[test_df['K1'].isin(test_df_unique_no_nan.index.tolist())]
# 去除含nan的重复数据
test_df_get_nonan = test_df_get[~test_df_get['K2'].isna()]
# 组合数据
result = test_df_get_nonan.append(test_df_alone)
# 去重,得到最终结果
result_save = result.drop_duplicates(subset=['K1','K2'],keep='last')
# 结果落地
result_save.to_excel('C:/Users/zhen/Desktop/数据清洗之去重.xlsx')

2、测试数据:

p1.jpg

3、结果:

p2.jpg

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

丫头把腿开大让我添添| 三人互换麦子| 在线小视频| 性做爰A片春欲| 动浸《便利店少女》免费观看全集 | 人口兽猪马狗第1集| 女子蹲下尿裤子的视频| 健身教练压腿压进去会怎么样| 特级毛片《武则天》| 医生含着我的奶边摸边做视频| 成全在线观看免费高清电视剧| 女人尝试到更粗大的心理变化| 《酒店激战》动漫1-5集免费观..| 白日梦我小说| 二人世界高清视频播放| 三级《出差被同房》| 亲你私下的男人最有效的一句 | 国产少女免费观看电视剧大全| 国产精品国内自产拍在线播放| 浅仓彩音| 丈夫不在的日子中字头| 夹子夹R头多久| 蜜桃成时熟2| 妈妈装睡配合孩子阴阳调和| 蜜汁樱桃》免费阅读全文小说| 《熟妇的荡欲》免费看| 英语班长乖乖挽起裙子怎么| 日本大片又大又好看的PPT| 亲吻哼哼唧唧原声不带歌| 在床上怎么骚一点| 多村野史| ALEXANDRA STAN| 女人尝试到更粗大的心理变化 | 十九岁暴躁少女CSGO免费观看 | 朋友的妈妈| 俄罗斯色情巜做爰4| 0.人犬兽人在线观看免费完整| PP浏览器| 和教官在教室做了好爽| 吃瓜| 在线观看免费观看在线NBA