最近在看数据分析方面的资料,里面提到了“数据清洗”,数据清洗是在数据统计工作完成之后进行的,我更愿意理解为数据校核,但它和校核又不同,数据校核仅仅是对数据的真实性、有效性进行校验,但数据清洗需要对不符合要求的数据进行过滤,过滤的对象主要是残缺的数据,错误的数据和重复的数据三大类。一般来说,数据清洗的过程都是由计算机来完成的。但其模型和算法又是通过人工设定的。
那这些又跟我们的工作有什么关系呢?我们知道,调度中心汇总了各种各样的数据,我们要对这些数据进行分析,就要考虑由于设备、网络、管网等种种原因,会造成某些数据残缺、失效、重复,所以我们也要进行数据清洗的工作。过滤掉那些不符合要求的数据。对于残缺的,重复的数据,我们可以利用EXCEL进行筛选,可对于错误的数据,就需要人工依靠经验去辨别,往往一个分析结果出来,明显异常,我们就会考虑某个数据是不是错了,这个时候,再回到原始数据中去查找。显而易见,这种方式是费时费力的。为了避免这种低效的工作方法,我们可以创建一个筛选模型,设定每个数据的标准范围,当超出这个范围时,让该数据突出显示。在硬件条件允许时,我们甚至利用不同的算法模型进行交叉比对。让异常数据无所遁形。
数据分析对我们每个人的工作都有帮助,数据分析的应用场景十分广泛,也存在数据分析师这个职业,但有人预言,数据分析师这个职业是迟早要消失的,因为它是一项技能,应该会被越来越的人掌握,正如PPT一样,很多人都会做PPT,所以也不会存在“PPT制作师”这个职业了。
(调度中心 邱石磊)