咨询电话

4001-222-351

欢迎光临198彩注册清洗机有限公司网站!
产品分类
联系我们
地址:安徽省朝阳区工人体育场北路21号永利国际中心4单元8011室
电话:4001-222-351
传真:021-6323694
邮箱:admin@myjwf.com

成功案例

当前位置:主页 > 成功案例 >

数据清洗实例

文章来源:admin 更新时间:2020/07/23

  

  正在这里,我将对数据集“朝阳病院2018年出售数据”举行数据洗濯,结束数据理解的企图处事。

  数据洗濯从名字上也看的出即是把“脏”的“洗掉”,指涌现并改进数据文献中可识另外舛误的最终一道圭臬,蕴涵反省数据一律性,管制无效值和缺失值等。由于数据货仓中的数据是面向某一中央的数据的纠集,这些数据从众个营业编制中抽取而来并且蕴涵史籍数据,如许就避免不了有的数据是舛误数据、有的数据彼此之间有冲突,这些舛误的或有冲突的数据明白是咱们不思要的,称为“脏数据”。咱们要服从肯定的原则把“脏数据”“洗掉”,这即是数据洗濯。

  pandas.read_excel()本事是是将excel文献放入DataFrame的本事,闭于该本事参数更众参数的寓意与用法,可盘问官方文档:

  为利便之后的数据洗濯,正在读取数据时能够先将所少睹据的数据类型全都更改为字符串类型。

  DataFrame.dropna()函数能够去除空值所正在的行或列,该函数含有良众参数。

  正在这里重要策画两片面数据类型转换,第一个是出售数目,应收金额,实收金额这三列数据的数据类型转换为float类型;第二个是将出售时光转换为datetime类型并只保存流露年月日时光的这一片面。

  此时的列外如上图所示,接着咱们必要将出售时光这一列改为datetime类型

  由上图的刻画统计新闻能够看到min是负数,这是不大概的,因此咱们必要去除分外值所正在的行。

地址:安徽省朝阳区工人体育场北路21号永利国际中心4单元8011室电话:4001-222-351传真:021-6323694

Copyright © 2002-2019 198彩注册清洗机有限公司 版权所有网站地图

4001-222-351