一个使用R语言做数据处理的实例-CDA数据分析师官网

一个使用R语言做数据处理的实例

2017-04-21

最近一个同学找到我，希望我帮忙处理一份数据。那份数据是这样的：包含了3661行，第一行为各列的名称；包含8列，第一列为专利ID，其余7列为企业ID。

这份数据截图如下所示：

一、问题描述

需要做的数据处理是，求所有专利之间的关系矩阵，这里的关系指的是：当同一个企业同时申请了两个不同的专利，那么就认为这两个专利是有关系的。也就是说，当两个专利对应的企业的集合存在交集，则认为这两个专利存在关系。需要用矩阵表达这3660个专利的相互关系，有关系的两个专利交叉的位置置为1，否则置为0。

比如，上图中的编号4和编号5对应的企业的集合显然存在交集（交集为94和115），那么最终的关系矩阵第四行第五列和第五行第四列就应当用1表示。如果数据就是上边那样的，那么最终输出的关系矩阵就应该为：

二、问题解决

可能因为有段时间没有使用R了，加上之前又正好在用awk, grep, bash这些，所以一直想使用这些工具来解决。不过，想了很久，依然进展不大（主要是许久不用大多也忘了o(╯□╰)o）。后来看到压在桌面上的《R语言实战》，想到这里需要的输出是矩阵，而且主要的逻辑判定为是否有交集，这些不正是R大展拳脚的地方吗？！

于是先用伪代码将整个逻辑梳理了一遍，然后照着伪代码开始写R脚本。由于逻辑并不复杂，所以很快便写好了，代码如下：

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵，所有元素初始化为0

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合

company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的，则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

代码是很快写好了，不过执行速度确慢得难以忍受。无奈，找了个办法来缓解下焦急等待程序跑完的心情。到统计之都找到一个用在循环里显示进度条的程序改了改，终于好点了，也大概能算出来程序什么时候能跑完了。

包含显示进度条的程序代码如下：

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵，所有元素初始化为0

#创建进度条pb <- txtProgressBar(min = 0, max = 3660, style = 3)

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合

company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的，则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

#设置进度条

Sys.sleep(0.00001)

setTxtProgressBar(pb, i)

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

显示效果如下所示：

三、解决优化

虽然比之前好些了，但还是没有解决程序运行缓慢等待时间过长的问题。毫无疑问，这段程序肯定还有很大的优化空间，于是先读取少量的数据，试着使用Rprof分析了一下耗时情况，结果发现[.data.frame 这个操作的耗时占比较大，Google搜索后在这里找到了一个优化的方法，即对源数据读取到到data frame之后再拷贝到一个矩阵中做取行的值的操作。优化后的版本：

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵，所有元素初始化为0data_matrix <- data.matrix(data_test[, -1]) #将数据拷贝到一个矩阵中

#创建进度条#pb <- txtProgressBar(min = 0, max = 3660, style = 3)

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data_matrix[i, ][!is.na(data_matrix[i, ])] #读取第i个专利对应的企业编号集合

company_set2 = data_matrix[j, ][!is.na(data_matrix[j, ])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的，则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

#设置进度条

#Sys.sleep(0.00001)

#setTxtProgressBar(pb, i)

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

在同样的机器环境下，改进后的程序只需要10min左右，而改进前的版本则需要将近7个小时，执行效率提高了40倍！

四、补充

在做这个数据处理过程中，值得记录的还包括：

R语言程序多个语句的时候记得带上{}，用缩进控制是Python的做法；

源数据读取之前要简单校验下，防止包含异常值影响数据读取的结果（这里包含了#REF!，处理很久才发现）；

在Excel中比较两份格式完全一样的数据是否相同，复制其中一份选择性粘贴“减”操作到另一份数据，选择数据区域看右下角显示的总和是否为0即可。

数据处理 R语言异常值

数据分析咨询请扫描二维码

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

一个使用R语言做数据处理的实例

考试指南

报考指南

热门栏目