更新时间:2022-07-27 来源:黑马程序员 浏览量:
随着大数据技术掀起的计算机领域的新浪潮,无论是数据分析、数据挖掘还是机器学习、人工智能,都离不开数据这一主题。
在实际应用中,初始数据一般是多数据源且格式多样化的数据,这些数据的质量通常是良莠不齐的,或多或少存在问题,不能直接被使用到数据分析或数据挖掘工作中,直接使用会造成低质量的分析或挖掘结果。
初始数据在进行分析或挖掘之前需要经过一定的处理,调整成符合分析或挖掘需求的数据。而从初始数据到得出分析或挖掘结果的整个过程中对数据经过的一系列操作称为数据预处理。
数据预处理是数据分析或数据挖掘前的准备工作,也是数据分析或数据挖掘中必不可少的一环,它主要通过一系列的方法来处理“脏”数据、精准地抽取数据、调整数据的格式,从而得到一组符合准确、完整、简洁等标准的高质量数据,保证该数据能更好地服务于数据分析或数据挖掘工作。
据统计发现,数据预处理的工作量占据整个数据挖掘工作的60%,由此可见,数据预处理在数据挖掘中扮演着举足轻重的角色。
举一个简单的例子,摩拜单车在经过数据预处理前。户编号、单车编号、单车类型是一些冗余的属性,对分析目标而言没有任何意义;骑行时长是对分析目标起关键作用的属性,但该列中有若干个空缺。
经过预处理后,城市和骑行时长列的数据比较完整,也根据城市名称进行了归类,方便用户快速地得出各城市用户的平均骑行时长。
显而易见若使用预处理前的摩拜单车数据对各城市用户的平均骑行时长进行分析,会导致分析结果存在一些偏差,相反地,使用预处理后的摩拜单车数据进行分析,会得到一个较为准确的分析结果。