博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python数据预处理
阅读量:4869 次
发布时间:2019-06-11

本文共 1642 字,大约阅读时间需要 5 分钟。

缺失值处理

import pandas as pdaimport numpy as npyimport matplotlib.pylab as pyl# data=pda.read_excel("D:/taobao2.xls")def index(data):  data = pda.DataFrame(data[1:],columns=data[0])  print(data)  data["价格"][(data["价格"]==0)]=None  print(data)  x=0  for i in data.columns:   for j in range(len(data)):     if(data[i].isnull())[j]:        data[i][j]=data["价格"].mean()        x+=1        print(x)  if __name__ == "__main__":  data = nosupervision_read_data()  index(data)

数据离散化处理

#离散化#连续型数据离散化#等宽离散化import pandas as pdaimport numpy as npyimport matplotlib.pylab as pyl# data=pda.read_excel("D:/taobao2.xls")def index(data):    data = pda.DataFrame(data[1:], columns=data[0])    da=data.values    price=da[:,2]    price.sort()    print(price)    k=5    c1=pda.cut(price,k,labels=["太便宜","便宜","适中","贵","太贵"])    print(c1)#指点区间离散化    k=[0,50,100,price.max()]    print(k)    c2=pda.cut(price,k,labels=["非常便宜","适中","贵"])    print(c2)if __name__ == "__main__":   data = nosupervision_read_data()   index(data)

数据集成处理

# -*- coding:utf-8 -*-# 异常值处理import pandas as pdaimport numpy as npydef index(data):# 输出结果必须为字典output   output = {}# data = pda.read_excel("D:/taobao2.xls")   data = pda.DataFrame(data[1:], columns=data[0])# print(data)   da = data.values# 数据集成   da1 = da[0:10]   da2 = da[10:20]   da3 = npy.concatenate((da1, da2))   pda.DataFrame(da3)   output['data_数据集成'] = pda.DataFrame(da3).values.tolist()   print(pda.DataFrame(da1))   print(pda.DataFrame(da2))   print(pda.DataFrame(da3))   print(output)   return outputif __name__ == "__main__":   data = nosupervision_read_data()   index(data)

  

转载于:https://www.cnblogs.com/wei23/p/10890609.html

你可能感兴趣的文章
C# 中的"yield"使用
查看>>
(27)zabbix自定义图表Graph
查看>>
学生和老师思考问题角度的区别
查看>>
通过反射,给对象之间赋值
查看>>
Unity2.0学习笔记-Unity2.0基础-如何配置Unity2.0容器-设计时配置
查看>>
常用的电脑快捷键
查看>>
linux如何查看所有的用户和组信息?
查看>>
iOS-当输入框被键盘遮挡时让整个view上移
查看>>
python 列表去重(数组)的几种方法
查看>>
C# virtual and overide
查看>>
蜗牛历险记(二) Web框架(下)
查看>>
2017.07.31软件更新公告
查看>>
综合练习:英文词频统计
查看>>
版本控制系统git
查看>>
git使用
查看>>
【BZOJ-3165】Segment 李超线段树(标记永久化)
查看>>
正则表达式语法
查看>>
Bugzilla Status Update
查看>>
[转]UT-IT-ST-BBIT-SDV-SIT-SVT
查看>>
2.28 MapReduce在实际应用中常见的优化
查看>>