网站首页 >> 创新方法 >> 正文 提交收录

数据预处理的作用(数据预处理的作用有哪些)

时间:2022年10月12日 02:10:20

本文目录一览:

在模式识别、人工神经 *** *** 中,为什么要进行数据预处理呢?

1. 原数据可能数据量很大,维数很,计算机处理起来时间复杂度很高,预处理可以降低数据维度。

2. 数据的很多特性非常影响神经 *** 等分类模型的效果。比如数据值得分布不在一个尺度上,当地气温值与当地月工资显然不在一个数量级上,这时,需要数据规范化,把这两个特征的数据都规范到0到1,这样使得它们对模型的影响具有同样的尺度。

3. 当然,数据预处理还有很多,比如中心化,去噪,降维,平滑,变换等等,各有各的目的,总之都是为了最终分类器的效果服务,由于原数据可能含有大量的噪声,去除噪声是有必要的。

数据预处理的意义

数据预处理(datapreprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。

数据预处理主要针对哪些数据

数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者 *** 。一般来说,数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点。当然了,这四个大步骤在做数据预处理时未必都要执行。

一、数据清洗

数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏。

形式上的脏,如:缺失值、带有特殊符号的;

内容上的脏,如:异常值。

缺失值包括缺失值的识别和缺失值的处理。

在R里缺失值的识别使用函数is.na()判别,函数complete.cases()识别样本数据是否完整。

缺失值处理常用的 *** 有:删除、替换和插补。

删除法 :删除法根据删除的不同角度又可以分为删除观测样本和变量,删除观测样本(行删除法),在R里na.omit()函数可以删除所含缺失值的行。这就相当于减少样本量来换取信息的完整度,但当变量有较大缺失并且对研究目标影响不大时,可考虑删除变量R里使用语句mydata[,-p]来完成。mydata表示所删数据集的名字,p是该删除变量的列数,-表示删除。

替换法 :替换法顾名思义对缺失值进行替换,根据变量的不同又有不同的替换规则,缺失值的所在变量是数值型用该变量下其他数的均值来替换缺失值;变量为非数值变量时则用该变量下其他观测值的中位数或众数替换。

插补法 :插补法分为回归插补和多重插补。回归插补指的是将插补的变量当作因变量y,其他变量看错自变量,利用回归模型进行拟合,在R里使用lm()回归函数对缺失值进行插补;多重插补是指从一个包含缺失值的数据集中生成一组完整的数据,多次进行,产生缺失值的一个随机样本,在R里mice()包可以进行多重插补。

异常值跟缺失值一样包括异常值的识别和异常值的处理。

异常值的识别通常用单变量散点图或箱形图来处理,在R里dotchart()是绘制单变量散点图的函数,boxplot()函数绘制箱现图;在图形中,把远离正常范围的点当作异常值。

异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。在进行异常值处理时要先复习异常值出现的可能原因,再判断异常值是否应该舍弃。

为何要进行数据预处理

数据中包含很多噪声数据,需要去除不相关的数据,比如如分析无关的字段;

了解数据质量,有些数据质量不足以直接使用,如包含过多的缺失值,需要进行缺失值处理;

数据字段不能够直接使用,需要派生新的字段,以更好的进行进一步的数据挖掘;

数据分散,需要将数据进行整合,例如追加表(增加行),或者合并表(增加列),通过数据的预处理能够很好的对数据有初步的认识和理解。