数据管理 之,文件管理介绍
在读取文件之后,我们就可以开始数据分析之旅啦!
但在实际工作中,文件管理不单单涉及到单一文件,有时更涉及到两个、三个,甚至更多个文件管理,那我们从文件管理开始。
文件管理的含义就是对文件进行合并,数据合并包括纵向合并(样本合并)与 横向合并(变量合并)。
纵向合并(样本合并):
- 指几个数据集中的数据纵向合并,组成一个新的数据集,新数据集中的记录数是原来几个数据集中记录数的总和。
- 其实质就是将两个数据文件的变量按照各个变量名的含义一一对应进行首尾连接。
横向合并(变量合并):
- 指按照记录的次序或者某个关键变量的数值,将不同数据集中的不同变量拼接为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。
- 其实质是讲两个数据文件的记录按照某种对应关系一一进行左右对接。
纵向合并
数据文件的纵向合并 只能合并 两个数据文件中 相同的变量。
打开数据文件 a 和数据文件 b,我们可以看到两个数据字段分布,其中 a.sav中变量xinbie对应了b.sav中的sex。针对字段名不同,但代表含义不同,在SPSS中可强制合并。
图 数据a与数据b字段与数据部分展示
- 打开 数据 a.sav 和数据b.sav
- 以a.sav为活动数据集,选择“数据”----“合并文件”---“添加个案”,弹出对话框,在对话框中,选择数据 b.sav。
图 添加个案--数据b
可看到字段名相同的汇入右侧窗口,而字段名不同的数据保留在左侧窗口
- 若让代表意义相同、字段名不同的字段也合并在新数据中,可同时选择两个变量,进行强行配对,点击配对,进入右侧对话框中。
图 纵向合并
点击确定,合并成功。其中 source01 中 1 -- 代表数据b,0 -- 代表 数据a。
图 纵向合并结果
横向合并
在横向合并时,需遵循的条件:
第一:若不是按照记录号对应的规则进行合并,则两个数据文件必须至少有一个变量名相同的关键变量,该变量是文件横向合并的对应拼接的依据;关键变量可以是多个,且关键变量的取值在不同个案间最好具有唯一性
第二:若使用关键变量进行合并,则两个数据文件必须按关键变量进行升序排列
第三:在不同的数据文件中,数据含义不同的列,变量名尽量不要相同
SPSS中横向合并说明:
(1) 数据顺序合并:不用考虑关键字,直接按照数据顺序进行合并
(2)一对一合并:也可称之为并集,按照关键,进行并集合并
(3)左连接:按照关键字,以非活动集数据为查找表
(4)右链接:按照关键字,以活动集数据为查找表
图 横向合并参数说明
SPSS中横向合并示例:
例:以 数据a.sav 和数据 b.sav 为例进行说明。a与b中的关键字为id,id=1、id=2在两数据中均含有
图 数据示例说明
(1)无关键字,顺序合并
可看到,合并后的数据不会考虑任何关键字,仅按顺序添加,这种很少使用。
(2) 一对一合并
可看到,具有线图关键字的变量会合并在一起,若无关键字的,则置为缺失值
(3)左连接:按照关键字,以非活动集数据为查找表
可看到,左连接保留活动集数据中的所有数据,仅合并具有相同关键字的非活动数据集的数据,其余则置缺失值。
(4)右连接:按照关键字,以活动集数据为查找表
可看到,右连接保留非活动集数据中的所有数据,仅合并具有相同关键字的活动数据集的数据,其余则置缺失值。