说说代码的克隆检测(代码智能之克隆检测)
sinye56 2024-10-25 16:21 3 浏览 0 评论
文/ 阿里云 - 秦奇
本文章为系列文章,主要介绍代码智能(Code Intelligence)领域涉及的众多有趣的任务(Task),具体会从这些任务的简介、历史和现状等维度展开介绍,希望让大家对于代码智能有一个深切的认识。
本文的主角是 代码克隆检测的技术,即判断两段代码是否相似,也就是 判断是不是“抄”来的。这里不禁有人要问了,程序员的事那能叫抄吗?那是学习、借鉴。对于代码克隆(俗称 Ctrl C,Crtl V)的合理性我们后续再讨论,让我们先聚焦于这个课题本身,即如何判断两份代码的相似性。
克隆检测(Clone Detection)
克隆检测也叫 重复代码、相似代码,这个命题很容易理解,就是看两份代码是不是一样。对于程序员来说这件事情很容易,是不是拷贝来的,看一遍就知道了。但是机器不同,我们需要告诉机器去怎么做。最早的代码克隆检测始于1990年代,至此已有20多年的研究历史,也产生了很多优秀的算法和研究,可以说已经发展成为了一个非常成熟的课题。
代码克隆的一般分类
代码克隆的分类是为了针对不同的克隆方式从而针对性的进行检测方案的设计。目前通用的代码克隆的分类有四种,其检测的难度也是随之逐步递进:
- 除了空格、注释之外,两份代码完全相同。也就是拷贝过来就删了空格注释,其他都没变
- 除了变量名、类型名和函数名等之外全部相同的代码。这个相比于第一条进步了一下,知道换一下变量名什么的,至少不是一打眼就能看出来了
- 有部分语句的增删、转换,比如新增一句无关紧要的代码,或者换一下if的顺序,以及 if 换成switch啥的,但还是大体相同
- 同一个功能,不同的写法。严格意义可能不能叫克隆了,代码重构?
听着好像也没啥体感,还是直接上代码吧。 举个例子,最近的业务需要实现一个 生成1到n连续数组的方法,这个难住我了。不过不用急,打开万能的百度(谷歌)啥都能找到。这不,程序员最爱的网站 stackoverflow还真有类似的问题,随便找一个答案直接拷贝过来,空格删掉,即:
但想一想,这个代码网上一搜一大把,得改点东西才行,于是,成了这个样子:
const array = [];
for (var i = 1; i <= 10; i++) {
array.push(i);
}
三思之后,觉得还不行,改个变量啥的还是可以一眼看出来,容我再改改:
Array.from(Array(10)).map((item, index) => index + 1)
不禁抚须一笑,妙哉妙哉。。。过了几日,好像还可以再优化一下,于是有了:
Array.from(Array(10).keys()).map(item => item + 1)
// 进一步
[...Array(10).keys()].map(item => item + 1)
// 再进一步
const [, ...result] = Array(11).keys();
代码克隆的检测方法
回到克隆检测,针对四种方式也有不同的检测方法,大致可以分为以下几类。
- 基于 文本相似性的检测方法:此方法是最常见,也最容易执行的检测方式,仅适用于文本差异很小的代码克隆,即上述第1、2种克隆方式,相对检测精确度会比较高。一旦文本差异过大,效果会急剧下降
- **基于符号(Token)的检测方法:**此方法是利用了解析器将源代码分成符号序列, 然后这些符号序列会被组织成符号的语句, 最后将这些符号组成的语句进行比较。此方法可以很容易检测出 增删语句的行为,但是对于调换顺序不太敏感。
- **基于语法的检测方法:**此方法会将两份代码同时转为 抽象语法树(AST),进而通过树匹配等算法进行子树的比较,如果相同则认为是 代码克隆。此方法同样对于代码顺序不敏感,也无法识别出标识符或文本的不同,但是可以检测出任何其他细微的修改。
- **基于语义的检测方法: **基于语义的方法最常用的则是基于图技术的检测方法。此方法先根据代码生成数据流图和控制流图,可同时反映出数据和逻辑的变化,进而将问题转化为 检测相似图的问题。此方法依赖于图的生成,如果不同语言或程序生成的图不相同,往往会导致错误的结果。
综上可以看到,使用一种方法很难准确识别出是否存在代码克隆的问题,往往同时结合多种检测方式,综合来看才可以得到相对准确的结果。?
同时也有很多热门的克隆检测工具和网站,顺手推荐一波:
- NICad,支持检测类型1、2以及3的大部分的克隆方式,宣称支持任何语言,官方提供了C,Java,C#,Python,PHP,Ruby,ATL和WSDL等的检测插件
- CCCD,使用concolic分析来检测代码克隆,是基于软件的功能,因此对于类型3、4具备良好的效果
?
抄袭 Or 学习
提到代码克隆,这个问题就无法回避。所以代码克隆到底算是抄袭还是借鉴呢?先看看两者的定义:
- 抄袭(英語:plagiarism),亦稱作剽窃,根據教育部國語辭典定義,為抄錄他人作品以為己作,对于原著未经或基本未经修改的抄录,这是一种侵权行为。 ----维基百科
- 借鉴:把别的人或事当镜子,对照自己,吸取经验或教训,以便取长补短。 ---百度百科
从两个定义可以看出,一个是剽窃,据为己有,另一个是取长补短。回到代码上,严格的抄袭很难界定,比如之前的谷歌甲骨文代码侵权一案历经10年,最终结果不论如何,至少说明代码抄袭这件事情在法律上很难去认定。再回到上面提到的例子,业务中遇到不会写、不了解的问题,第一反应大家都是去谷歌查一查是否有类似的实现,然后借鉴过来。我觉得这个操作本身没有问题,只不过区别在于 是否知其然并知其所以然。如果能够了解其原理,并学习致用,甚至能够想出更好的写法,那么也就无所谓“抄袭”,都变成了“自己”的代码。?
相关推荐
- Linux在线安装JDK1.8
-
首先在服务器pingwww.baidu.com查看是否可以连网然后就可以在线下载一、下载安装JDK1.81、在下载安装的同时做好一些准备工作...
- Linux安装JDK,超详细
-
1、了解RPMRPM是Red-HatPackageManager(RPM软件包管理器)的缩写,这一文件格式名称虽然打上了RedHat的标志,但是其原始设计理念是开放式的,现在包括OpenLinux...
- Linux安装jdk1.8(超级详细)
-
前言最近刚购买了一台阿里云的服务器准备要搭建一个网站,正好将网站的一个完整搭建过程分享给大家!#一、下载jdk1.8首先我们需要去下载linux版本的jdk1.8安装包,我们有两种方式去下载安装...
- Linux系统安装JDK教程
-
下载jdk-8u151-linux-x64.tar.gz下载地址:https://www.oracle.com/technetwork/java/javase/downloads/index.ht...
- 干货|JDK下载安装与环境变量配置图文教程「超详细」
-
1.JDK介绍1.1什么是JDK?SUN公司提供了一套Java开发环境,简称JDK(JavaDevelopmentKit),它是整个Java的核心,其中包括Java编译器、Java运行工具、Jav...
- Linux下安装jdk1.8
-
一、安装环境操作系统:CentOSLinuxrelease7.6.1810(Core)JDK版本:1.8二、安装步骤1.下载安装包...
- Linux上安装JDK
-
以CentOS为例。检查是否已安装过jdk。yumlist--installed|grepjdk或者...
- Linux系统的一些常用目录以及介绍
-
根目录(/):“/”目录也称为根目录,位于Linux文件系统目录结构的顶层。在很多系统中,“/”目录是系统中的唯一分区。如果还有其他分区,必须挂载到“/”目录下某个位置。整个目录结构呈树形结构,因此也...
- Linux系统目录结构
-
一、系统目录结构几乎所有的计算机操作系统都是使用目录结构组织文件。具体来说就是在一个目录中存放子目录和文件,而在子目录中又会进一步存放子目录和文件,以此类推形成一个树状的文件结构,由于其结构很像一棵树...
- Linux文件查找
-
在Linux下通常find不很常用的,因为速度慢(find是直接查找硬盘),通常我们都是先使用whereis或者是locate来检查,如果真的找不到了,才以find来搜寻。为什么...
- 嵌入式linux基本操作之查找文件
-
对于很多初学者来说都习惯用windows操作系统,对于这个系统来说查找一个文件简直不在话下。而学习嵌入式开发行业之后,发现所用到的是嵌入式Linux操作系统,本想着跟windows类似,结果在操作的时...
- linux系统查看软件安装目录的方法
-
linux系统下怎么查看软件安装的目录?方法1:whereis软件名以查询nginx为例子...
- Linux下如何对目录中的文件进行统计
-
统计目录中的文件数量...
- Linux常见文件目录管理命令
-
touch用于创建空白文件touch文件名称mkdir用于创建空白目录还可以通过参数-p创建递归的目录...
- Linux常用查找文件方法总结
-
一、前言Linux系统提供了多种查找文件的命令,而且每种查找命令都具有其独特的优势,下面详细总结一下常用的几个Linux查找命令。二、which命令查找类型:二进制文件;...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle忘记用户名密码 (59)
- oracle11gr2安装教程 (55)
- mybatis调用oracle存储过程 (67)
- oracle spool的用法 (57)
- oracle asm 磁盘管理 (67)
- 前端 设计模式 (64)
- 前端面试vue (56)
- linux格式化 (55)
- linux图形界面 (62)
- linux文件压缩 (75)
- Linux设置权限 (53)
- linux服务器配置 (62)
- mysql安装linux (71)
- linux启动命令 (59)
- 查看linux磁盘 (72)
- linux用户组 (74)
- linux多线程 (70)
- linux设备驱动 (53)
- linux自启动 (59)
- linux网络命令 (55)
- linux传文件 (60)
- linux打包文件 (58)
- linux查看数据库 (61)
- linux获取ip (64)
- 关闭防火墙linux (53)