国产成人AV无码一二三区,少女1到100集,国产精品久久久久精品综合紧,巜公妇之诱感肉欲HD在线播放

文章 > Python常见问题 > python如何做数据清洗?

python如何做数据清洗?

头像

 Ly

2020-05-26 14:57:495901浏览 · 0收藏 · 0评论

1.数据清洗的代码:

import pandas as pd
import numpy as np
# 创建空的df,保存测试数据
test_df = pd.DataFrame({'K1':['C1','C1','C2','C3','C4','C2','C1'],'K2':['A','A','B','C','D',np.NaN,np.NaN]})
# 按K1列进行分组,组内进行unique操作(去除重复元素,返回元组或列表)
test_df_unique = pd.DataFrame(test_df.groupby(['K1'])['K2'].agg('unique'))
# 自定义函数判断元组中是否含有nan
def has_nan(list):
    flag = False
    for x in list:
        if x is np.NaN:
            flag = True
            break
    return flag
# 自定义函数判断元组中是否不含有nan
def no_nan(list):
    flag = True
    for x in list:
        if x is np.NaN:
            flag = False
            break
    return flag
# 获取k2列含有nan的数据
test_df_unique_has_nan = test_df_unique[test_df_unique['K2'].apply(has_nan)]
# 获取k2列不含有nan的数据
test_df_unique_no_nan = test_df_unique[test_df_unique['K2'].apply(no_nan)]
# 管理测试数据,获取源数据
test_df_get = test_df[test_df['K1'].isin(test_df_unique_has_nan.index.tolist())]
test_df_alone = test_df[test_df['K1'].isin(test_df_unique_no_nan.index.tolist())]
# 去除含nan的重复数据
test_df_get_nonan = test_df_get[~test_df_get['K2'].isna()]
# 组合数据
result = test_df_get_nonan.append(test_df_alone)
# 去重,得到最终结果
result_save = result.drop_duplicates(subset=['K1','K2'],keep='last')
# 结果落地
result_save.to_excel('C:/Users/zhen/Desktop/数据清洗之去重.xlsx')

2、测试数据:

p1.jpg

3、结果:

p2.jpg

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

血战钢锯岭| 妈妈的新男友| 美国禁忌6 结局| 国精产品一品二品国精HTC| 暴躁老阿姨CSGO技能推荐大全| 狗锁住女人狗的视频大全图片| 99久久国产精品久久99| 嫩草精产一二三产区| 俄罗斯少女2免费观看| 快拨出天我是你母亲歌词监控| 雨后的故事| 男人碰到紧的会念念不忘吗?| 《大尺度吃奶做爰》电影| 偷吃爸爸擎天柱1-100集| 儿媳苏玥全文免费| 免费又黄又硬又爽又免费| 伦理《少妇的滋味》完整版| 黄文| 白丝女| 韩国午夜理伦三级| 女性一晚上3次纵欲导致不孕| 性感内衣女装| 欧美-区| 超短裙| 挤公交忘穿内裤被挺进H视频| 性做爰1-7伦| 男朋友隔着衣服顶撞是什么心理现.. | 长腿| 《我的漂亮朋友》20点首播| 医生含着我的奶边摸边做视频| 韩剧《酒醉热吻》| 官场艳妇的呻吟声| 中文AV人妻AV无码中文下载| 少女配狗视频大全播放| 美女比基尼游泳图片视频| 妈妈醉酒后把我当爸爸电视剧| 在线小视频| 国产X9X9X9X9X9X任意...| 无人区免费观看高清电视剧| 法国《口咬》电影完整版| 同学的母亲中字ID