关于SPSS数据预处理-CDA数据分析师官网

关于SPSS数据预处理

2015-09-12

关于SPSS数据预处理

拿到一份数据，或者在看到国内外某个学者的文章有想法而自己手里的数据刚好符合这个想法可以做时，在整理好数据后不要急于建模。一定要对数据做缺失值处理、异常值处理。在数据预处理的基础上再进一步建模，否则可能得到错误的结果。

心得1：数据预处理怎么做。

一是缺失值的处理。我个人有几个看法：

数据样本量足够大，在删除缺失值样本的情况下不影响估计总体情况，可考虑删除缺失值；

二是数据样本量本身不大的情况下，可从以下两点考虑：1是采用缺失值替换，SPSS中具体操作为“转换”菜单下的“替换缺失值”功能，里面有5种替换的方法。若数据样本量不大，同质性比较强，可考虑总体均值替换方法，如数据来自不同的总体（如我做农户调研不同村的数据），可考虑以一个小总体的均值作为替换（如我以一个村的均值替换缺失值）。2是根据原始问卷结合客观实际自行推断估计一个缺失值的样本值，或者以一个类似家庭的值补充缺失值。

心得2：数据预处理第二点异常值的处理。

我大概学了两门统计软件SPSS和Stata，SPSS用的时间久些，熟悉一下，Stata最近才学，不是太熟。关于这点我结合着来说。关于异常值的处理可分为两点，一是怎么判定一个值是异常值，二是怎么去处理。

判定异常值的方法我个人认为常用的有两点：1是描述性统计分析，看均值、标准差和最大最小值。一般情况下，若标准差远远大于均值，可粗略判定数据存在异常值。2是通过做指标的箱图判定，箱图上加“*”的个案即为异常个案。

发现了异常值，接下来说怎么处理的问题。大概有三种方法：

1是正偏态分布数据取对数处理。我做农户微观实证研究，很多时候得到的数据（如收入）都有很大的异常值，数据呈正偏态分布，这种我一般是取对数处理数据。若原始数据中还有0，取对数ln(0)没意义，我就取ln(x+1)处理；

2是样本量足够大删除异常值样本；

3是从stata里学到的，对数据做结尾或者缩尾处理。这里的结尾处理其实就是同第二个方法，在样本量足够大的情况下删除首尾1%-5%的样本。缩尾指的是人为改变异常值大小。如有一组数据，均值为50，存在几个异常值，都是500多（我这么说有点夸张，大概是这个意思），缩尾处理就是将这几个500多的数据人为改为均值+3标准差左右数据大小，如改为100。

总结而言，我个人认为做数据变换的方式比较好，数据变换后再做图或描述性统计看数据分布情况，再剔除个别极端异常值。CDA数据分析师培训官网

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

缺失值处理异常值处理统计分析数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

关于SPSS数据预处理

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...