登录
首页精彩阅读一个使用R语言做数据处理的实例
一个使用R语言做数据处理的实例
2017-04-21
收藏

一个使用R语言数据处理的实例

最近一个同学找到我,希望我帮忙处理一份数据。那份数据是这样的:包含了3661行,第一行为各列的名称;包含8列,第一列为专利ID,其余7列为企业ID。

这份数据截图如下所示:

一、问题描述

需要做的数据处理是,求所有专利之间的关系矩阵,这里的关系指的是:当同一个企业同时申请了两个不同的专利,那么就认为这两个专利是有关系的。也就是说,当两个专利对应的企业的集合存在交集,则认为这两个专利存在关系。需要用矩阵表达这3660个专利的相互关系,有关系的两个专利交叉的位置置为1,否则置为0。

比如,上图中的编号4和编号5对应的企业的集合显然存在交集(交集为94和115),那么最终的关系矩阵第四行第五列和第五行第四列就应当用1表示。如果数据就是上边那样的,那么最终输出的关系矩阵就应该为:

二、问题解决

可能因为有段时间没有使用R了,加上之前又正好在用awk, grep, bash这些,所以一直想使用这些工具来解决。不过,想了很久,依然进展不大(主要是许久不用大多也忘了o(╯□╰)o)。后来看到压在桌面上的《R语言实战》,想到这里需要的输出是矩阵,而且主要的逻辑判定为是否有交集,这些不正是R大展拳脚的地方吗?!

于是先用伪代码将整个逻辑梳理了一遍,然后照着伪代码开始写R脚本。由于逻辑并不复杂,所以很快便写好了,代码如下:

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵,所有元素初始化为0

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合

company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的,则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

代码是很快写好了,不过执行速度确慢得难以忍受。无奈,找了个办法来缓解下焦急等待程序跑完的心情。到统计之都找到一个用在循环里显示进度条的程序改了改,终于好点了,也大概能算出来程序什么时候能跑完了。

包含显示进度条的程序代码如下:

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵,所有元素初始化为0

#创建进度条pb <- txtProgressBar(min = 0, max = 3660, style = 3)

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合

company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的,则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

#设置进度条

Sys.sleep(0.00001)

setTxtProgressBar(pb, i)

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

显示效果如下所示:

三、解决优化

虽然比之前好些了,但还是没有解决程序运行缓慢等待时间过长的问题。毫无疑问,这段程序肯定还有很大的优化空间,于是先读取少量的数据,试着使用Rprof分析了一下耗时情况,结果发现[.data.frame 这个操作的耗时占比较大,Google搜索后在 这里 找到了一个优化的方法,即对源数据读取到到data frame之后再拷贝到一个矩阵中做取行的值的操作。优化后的版本:

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵,所有元素初始化为0data_matrix <- data.matrix(data_test[, -1]) #将数据拷贝到一个矩阵中

#创建进度条#pb <- txtProgressBar(min = 0, max = 3660, style = 3)

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data_matrix[i, ][!is.na(data_matrix[i, ])] #读取第i个专利对应的企业编号集合

company_set2 = data_matrix[j, ][!is.na(data_matrix[j, ])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的,则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

#设置进度条

#Sys.sleep(0.00001)

#setTxtProgressBar(pb, i)

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

在同样的机器环境下,改进后的程序只需要10min左右,而改进前的版本则需要将近7个小时,执行效率提高了40倍!

四、补充

在做这个数据处理过程中,值得记录的还包括:

R语言程序多个语句的时候记得带上{},用缩进控制是Python的做法;

源数据读取之前要简单校验下,防止包含异常值影响数据读取的结果(这里包含了#REF!,处理很久才发现);

Excel中比较两份格式完全一样的数据是否相同,复制其中一份选择性粘贴“减”操作到另一份数据,选择数据区域看右下角显示的总和是否为0即可。

数据分析咨询请扫描二维码

客服在线
立即咨询