百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 优雅编程 > 正文

说说代码的克隆检测(代码智能之克隆检测)

sinye56 2024-10-25 16:21 9 浏览 0 评论

文/ 阿里云 - 秦奇

本文章为系列文章,主要介绍代码智能(Code Intelligence)领域涉及的众多有趣的任务(Task),具体会从这些任务的简介、历史和现状等维度展开介绍,希望让大家对于代码智能有一个深切的认识。

本文的主角是 代码克隆检测的技术,即判断两段代码是否相似,也就是 判断是不是“抄”来的。这里不禁有人要问了,程序员的事那能叫抄吗?那是学习、借鉴。对于代码克隆(俗称 Ctrl C,Crtl V)的合理性我们后续再讨论,让我们先聚焦于这个课题本身,即如何判断两份代码的相似性。


克隆检测(Clone Detection)

克隆检测也叫 重复代码、相似代码,这个命题很容易理解,就是看两份代码是不是一样。对于程序员来说这件事情很容易,是不是拷贝来的,看一遍就知道了。但是机器不同,我们需要告诉机器去怎么做。最早的代码克隆检测始于1990年代,至此已有20多年的研究历史,也产生了很多优秀的算法和研究,可以说已经发展成为了一个非常成熟的课题。

代码克隆的一般分类

代码克隆的分类是为了针对不同的克隆方式从而针对性的进行检测方案的设计。目前通用的代码克隆的分类有四种,其检测的难度也是随之逐步递进:

  1. 除了空格、注释之外,两份代码完全相同。也就是拷贝过来就删了空格注释,其他都没变
  2. 除了变量名、类型名和函数名等之外全部相同的代码。这个相比于第一条进步了一下,知道换一下变量名什么的,至少不是一打眼就能看出来了
  3. 有部分语句的增删、转换,比如新增一句无关紧要的代码,或者换一下if的顺序,以及 if 换成switch啥的,但还是大体相同
  4. 同一个功能,不同的写法。严格意义可能不能叫克隆了,代码重构?

听着好像也没啥体感,还是直接上代码吧。 举个例子,最近的业务需要实现一个 生成1到n连续数组的方法,这个难住我了。不过不用急,打开万能的百度(谷歌)啥都能找到。这不,程序员最爱的网站 stackoverflow还真有类似的问题,随便找一个答案直接拷贝过来,空格删掉,即:

但想一想,这个代码网上一搜一大把,得改点东西才行,于是,成了这个样子:

const array = [];
for (var i = 1; i <= 10; i++) {
   array.push(i);
}

三思之后,觉得还不行,改个变量啥的还是可以一眼看出来,容我再改改:

Array.from(Array(10)).map((item, index) => index + 1)

不禁抚须一笑,妙哉妙哉。。。过了几日,好像还可以再优化一下,于是有了:

Array.from(Array(10).keys()).map(item => item + 1)
// 进一步
[...Array(10).keys()].map(item => item + 1)
// 再进一步
const [, ...result] = Array(11).keys();

代码克隆的检测方法

回到克隆检测,针对四种方式也有不同的检测方法,大致可以分为以下几类。

  • 基于 文本相似性的检测方法:此方法是最常见,也最容易执行的检测方式,仅适用于文本差异很小的代码克隆,即上述第1、2种克隆方式,相对检测精确度会比较高。一旦文本差异过大,效果会急剧下降
  • **基于符号(Token)的检测方法:**此方法是利用了解析器将源代码分成符号序列, 然后这些符号序列会被组织成符号的语句, 最后将这些符号组成的语句进行比较。此方法可以很容易检测出 增删语句的行为,但是对于调换顺序不太敏感。
  • **基于语法的检测方法:**此方法会将两份代码同时转为 抽象语法树(AST),进而通过树匹配等算法进行子树的比较,如果相同则认为是 代码克隆。此方法同样对于代码顺序不敏感,也无法识别出标识符或文本的不同,但是可以检测出任何其他细微的修改。
  • **基于语义的检测方法: **基于语义的方法最常用的则是基于图技术的检测方法。此方法先根据代码生成数据流图和控制流图,可同时反映出数据和逻辑的变化,进而将问题转化为 检测相似图的问题。此方法依赖于图的生成,如果不同语言或程序生成的图不相同,往往会导致错误的结果。

综上可以看到,使用一种方法很难准确识别出是否存在代码克隆的问题,往往同时结合多种检测方式,综合来看才可以得到相对准确的结果。?

同时也有很多热门的克隆检测工具和网站,顺手推荐一波:

  • NICad,支持检测类型1、2以及3的大部分的克隆方式,宣称支持任何语言,官方提供了C,Java,C#,Python,PHP,Ruby,ATL和WSDL等的检测插件
  • CCCD,使用concolic分析来检测代码克隆,是基于软件的功能,因此对于类型3、4具备良好的效果

?

抄袭 Or 学习

提到代码克隆,这个问题就无法回避。所以代码克隆到底算是抄袭还是借鉴呢?先看看两者的定义:

  • 抄袭(英語:plagiarism),亦稱作剽窃,根據教育部國語辭典定義,為抄錄他人作品以為己作,对于原著未经或基本未经修改的抄录,这是一种侵权行为。 ----维基百科
  • 借鉴:把别的人或事当镜子,对照自己,吸取经验或教训,以便取长补短。 ---百度百科

从两个定义可以看出,一个是剽窃,据为己有,另一个是取长补短。回到代码上,严格的抄袭很难界定,比如之前的谷歌甲骨文代码侵权一案历经10年,最终结果不论如何,至少说明代码抄袭这件事情在法律上很难去认定。再回到上面提到的例子,业务中遇到不会写、不了解的问题,第一反应大家都是去谷歌查一查是否有类似的实现,然后借鉴过来。我觉得这个操作本身没有问题,只不过区别在于 是否知其然并知其所以然。如果能够了解其原理,并学习致用,甚至能够想出更好的写法,那么也就无所谓“抄袭”,都变成了“自己”的代码。?

相关推荐

程序员:JDK的安装与配置(完整版)_jdk的安装方法

对于Java程序员来说,jdk是必不陌生的一个词。但怎么安装配置jdk,对新手来说确实头疼的一件事情。我这里以jdk10为例,详细的说明讲解了jdk的安装和配置,如果有不明白的小伙伴可以评论区留言哦下...

Linux中安装jdk并配置环境变量_linux jdk安装教程及环境变量配置

一、通过连接工具登录到Linux(我这里使用的Centos7.6版本)服务器连接工具有很多我就不一一介绍了今天使用比较常用的XShell工具登录成功如下:二、上传jdk安装包到Linux服务器jdk...

麒麟系统安装JAVA JDK教程_麒麟系统配置jdk

检查检查系统是否自带java在麒麟系统桌面空白处,右键“在终端打开”,打开shell对话框输入:java–version查看是否自带java及版本如图所示,系统自带OpenJDK,要先卸载自带JDK...

学习笔记-Linux JDK - 安装&amp;配置

前提条件#检查是否存在JDKrpm-qa|grepjava#删除现存JDKyum-yremovejava*安装OracleJDK不分系统#进入安装文件目...

Linux新手入门系列:Linux下jdk安装配置

本系列文章是把作者刚接触和学习Linux时候的实操记录分享出来,内容主要包括Linux入门的一些理论概念知识、Web程序、mysql数据库的简单安装部署,希望能够帮到一些初学者,少走一些弯路。注意:L...

测试员必备:Linux下安装JDK 1.8你必须知道的那些事

1.简介在Oracle收购Sun后,Java的一系列产品就被整合到Oracle官网中,打开官网乍眼一看也不知道去哪里下载,还得一个一个的摸索尝试,而且网上大多数都是一些Oracle收购Sun前,或者就...

Linux 下安装JDK17_linux 安装jdk1.8 yum

一、安装环境操作系统:JDK版本:17二、安装步骤第一步:下载安装包下载Linux环境下的jdk1.8,请去官网(https://www.oracle.com/java/technologies/do...

在Ubuntu系统中安装JDK 17并配置环境变量教程

在Ubuntu系统上安装JDK17并配置环境变量是Java开发环境搭建的重要步骤。JDK17是Oracle提供的长期支持版本,广泛用于开发Java应用程序。以下是详细的步骤,帮助你在Ubuntu系...

如何在 Linux 上安装 Java_linux安装java的步骤

在桌面上拥抱Java应用程序,然后在所有桌面上运行它们。--SethKenlon(作者)无论你运行的是哪种操作系统,通常都有几种安装应用程序的方法。有时你可能会在应用程序商店中找到一个应用程序...

Windows和Linux环境下的JDK安装教程

JavaDevelopmentKit(简称JDK),是Java开发的核心工具包,提供了Java应用程序的编译、运行和开发所需的各类工具和类库。它包括了JRE(JavaRuntimeEnviro...

linux安装jdk_linux安装jdk软连接

JDK是啥就不用多介绍了哈,外行的人也不会进来看我的博文。依然记得读大学那会,第一次实验课就是在机房安装jdk,编写HelloWorld程序。时光飞逝啊,一下过了十多年了,挣了不少钱,买了跑车,娶了富...

linux安装jdk,全局配置,不同用户不同jdk

jdk1.8安装包链接:https://pan.baidu.com/s/14qBrh6ZpLK04QS8ogCepwg提取码:09zs上传文件解压tar-zxvfjdk-8u152-linux-...

运维大神教你在linux下安装jdk8_linux安装jdk1.7

1.到官网下载适合自己机器的版本。楼主下载的是jdk-8u66-linux-i586.tar.gzhttp://www.oracle.com/technetwork/java/javase/downl...

window和linux安装JDK1.8_linux 安装jdk1.8.tar

Windows安装JDK1.8的步骤:步骤1:下载JDK打开浏览器,找到JDK下载页面https://d.injdk.cn/download/oraclejdk/8在页面中找到并点击“下载...

最全的linux下安装JavaJDK的教程(图文详解)不会安装你来打我?

默认已经有了linux服务器,且有root账号首先检查一下是否已经安装过java的jdk任意位置输入命令:whichjava像我这个已经安装过了,就会提示在哪个位置,你的肯定是找不到。一般我们在...

取消回复欢迎 发表评论: