公告:
详细内容
预印本文档研究生成剽窃地图时间:2019-05-09 21:46:44   浏览量:17

一项针对预印本服务器(arXiv)上数十万研究的新分析,提供了有关科学剽窃的影响和地理分布的有趣信息。在一些国家,从其他论文上复制文字更普遍,但这些存在大量抄袭行为的作者几乎面对同样的结果:他们论文的引用率不高。

自1991年启动以来,arXiv成为物理、数学等领域成果的世界最大“集散地”。每个人都能在这里发表论文,并且不需要完整的同行评议。但论文需要接受质量控制程序。一个计算机程序会对论文进行最终检查:将该论文的文本内容与其他发表在arXiv上的论文进行比较。目标是标记可能存在较高剽窃风险的论文。

“文本重叠”是技术用语,有时它也能证明论文是“清白的”。例如,一篇综述文章可能引用大量内容,或作者会再利用和略微修改之前文章的语句。arXiv剽窃监测系统会让这类论文通过。“这是一个非常智能的机器。”美国康奈尔大学物理学家、arXiv创始人Paul Ginsparg说,“它有特殊的方法检测大块引用、斜体字文本、引号内容以及数学定理陈述,以避免出现主动错误信息。”

Ginsparg和该校物理学博士生Daniel Citron比较了1991~2012年提交给arXiv 的75.7万篇文章。结果发现,一篇论文引用的已发表内容越多,其被引用率就可能越低。他们还注意到,“文本再使用”惊人地普遍。过滤掉综述文章和合理引用后,每16位arXiv作者中,就有1位存在大段抄袭其已发表文章的行为。更令人担忧的是,每1000位作者中就有1人从其他论文中抄袭了近1段文字,但没有标注出处。

另外,作者在向arXiv提交论文时,会注明自己的居住国。因此这将揭示哪些国家剽窃率最高。不过,Ginsparg表示,其研究中的文本重叠并不一定是剽窃。数据显示,来自美国、加拿大以及欧洲和亚洲少数工业化国家的研究人员提交的论文占arXiv论文的最大份额,而且剽窃率也更低。例如,有20%的保加利亚作者被标记(38/186),这是新西兰(5/207)的8倍多。日本约为6% (269 / 4759),而伊朗超过15%