关键词: Turnitin查重;iThenticate查重;查重结果差异;SCI投稿;数据库区别
一、一个让很多人崩溃的真实案例
先讲个真事儿。
去年有个博士生,写了一篇不错的SCI论文,准备投一个二区期刊。投稿前他觉得自己应该查一下重,就用学校免费提供的Turnitin查了——重复率7%,看着挺安全的。他很放心地投了出去。
结果三天后,拒稿信来了。编辑附了一句话:“Similarity check exceeds our acceptable threshold.”
他懵了。7%怎么就超了?
后来一问才知道,期刊用的是iThenticate,不是Turnitin。他借别人的账号重新用iThenticate查了一遍——重复率21%。
同一个稿子,两个系统,差了14个百分点。
这不是系统出错了,是他选错了工具。
二、先搞清楚:这俩系统到底是什么关系?
很多人的第一反应是:“Turnitin和iThenticate不是一家公司的吗?查出来应该差不多吧?”
这个想法,恰恰是最要命的误解。
Turnitin和iThenticate确实都出自同一家公司(Turnitin LLC),用的也是同一套核心算法。但算法一样,不代表结果一样——就像同一个菜谱,用的食材不一样,做出来的菜能一样吗?
两个系统的定位完全不同:
Turnitin:2000年左右诞生,专门为高校教学设计的。核心用户是学生和老师,目的是帮学生学会什么叫合理引用、怎么写学术论文。它是一个 “课堂工具” 。
iThenticate:2004年推出,专门为科研人员和出版社设计的。核心用户是研究人员、期刊编辑。目标只有一个——确保投稿论文的原创性,符合出版标准。
Turnitin面向课堂,iThenticate面向发表。这个定位差异,决定了后面的一切。
三、原因一:数据库完全不同——这是最核心的差异
两个系统算法一样,那结果为什么不一样?
答案只有一个:比对的数据不一样。
Turnitin查什么?
Turnitin的数据库主要包括三大类:
全网公开网页内容(47亿个当前和存档的网页)
各大学学生论文库(19亿篇学生论文)
一部分开放获取期刊与出版物(超过1.9亿篇文章,覆盖前97%的出版物)
Turnitin最擅长的是比对“学生作业”类型的内容。你拿一篇课程论文去查,它能精准识别是不是和过往学生的作业撞了。
iThenticate查什么?
iThenticate的数据库完全是另一套体系:
海量学术论文——来自Elsevier、Springer Nature、Wiley、Taylor & Francis等出版社的已发表论文
专利、会议论文、出版书籍章节
预印本内容——arXiv、SSRN、medRxiv等平台
ProQuest学位论文数据库——这是Turnitin没有的
Crossref数据库支持——国际出版联合机构的数据
iThenticate查的,是“学术出版界”的世界。
这个差异会导致什么结果?
最关键的差异在这里:
Turnitin有庞大的 “学生作业库” (19亿篇学生论文),但iThenticate没有。反过来,iThenticate有ProQuest博士论文库和大量付费学术期刊内容(通过Crossref接入1,500家出版社的学术内容),但Turnitin没有。
这就导致了很现实的问题:
如果你的论文和一篇已发表的SCI论文有高度相似的内容——iThenticate能查出来并标出出处;但Turnitin如果那篇论文不在它的数据库里,可能就查不出来。
反过来,如果你的论文内容和某个学校的学生作业撞了——Turnitin能查出来,但iThenticate完全不会显示。
据估计,iThenticate覆盖全球97%的SCI/SSCI期刊。这就是为什么Nature、IEEE、Wiley、Elsevier等主流出版商在收稿时默认使用iThenticate——因为它的数据库和学术出版是同一个世界。
所以,同一篇论文在两个系统里查出来的结果完全可能不一样——不是系统不准,是它们“看”的东西本来就不一样。
四、原因二:隐私处理不同——你的稿子会不会被“存起来”?
这一点很多人完全没想到。
在Turnitin系统里,学生提交的论文默认会被存入“学生作品数据库” 。未来别人再提交相似的内容,系统就能识别到匹配。对教学来说这是合理的——老师希望防止学生之间互相抄。但对科研作者来说,这意味着你的稿件有可能被系统“记住” 。
在iThenticate里,情况完全不同。它默认不会把用户上传的稿件加入比对库。Turnitin官方帮助中心明确写道:“上传到iThenticate的文档一般不会被拿来和Turnitin的数据库做比对,反之亦然。”
这就意味着:你用iThenticate自查,不用担心自己的论文被存进某个学生论文库里——你还没投稿的论文,不会被别人拿来比对。
有个数据能说明问题:2023年加州大学系统的调研显示,有11%的重复案例源自学生用Turnitin自查后论文被入库导致的“自我抄袭” 。你用Turnitin查完,你的论文就进了库;过两天学校正式查重,系统发现你的论文和“自己”重复——你说冤不冤?
五、原因三:排除设置和查重规则不同
这是导致两个系统结果差异的另一个重要原因。
iThenticate一般允许用户排除参考文献、图表说明、短词组匹配(比如少于6个词的匹配),更注重实质性内容的重复。在iThenticate 2.0中,英文论文的参考文献和引用甚至可以自动排除。
Turnitin的默认设置更严格,部分版本不会排除参考文献,而且可能对标准术语或模板语言特别敏感,导致“技术性重复”偏高。有些高校还会设置Turnitin自动比对本校论文库,进一步影响重复率。
即使文稿内容完全一致,在两个系统中查重,报告呈现也会有明显不同。
六、数据说话:到底能差多少?
说了这么多区别,大家最关心的还是那个问题:同一个稿子,两个系统查出来到底能差多少?
虽然没有一个固定的“标准差值”,但根据大量实际案例,可以得出一个大致的结论:
同一篇论文在iThenticate和Turnitin中的检测结果,相差可达8%到12%。文章开头那个博士生,差的是14个百分点。
有人在网上做过对比测试,发现两者的主要差别就是数据库的范围。
关键不在于“哪个更准”,而在于“哪个更对” ——你的目标期刊用什么系统,你就用什么系统查。
有个数据很能说明问题:全球前200强高校中有83%同时采购了两套系统,但90%的科研论文审核仍优先使用iThenticate。Nature杂志公布的数据也显示,83%的期刊编辑更信赖iThenticate的比对能力。
七、一张表总结核心区别
对比维度 | Turnitin | iThenticate |
|---|---|---|
定位 | 课堂教育工具 | 学术出版守门人 |
核心用户 | 大学生、老师 | 研究人员、出版社、期刊编辑 |
数据库侧重 | 学生作业库(19亿篇)+网页 | 学术期刊、ProQuest、预印本、Crossref |
隐私处理 | 默认存入学生论文库 | 不上传、不留痕 |
排除设置 | 较严格,不自动排除参考文献 | 可排除参考文献、图表、短词组 |
期刊认可度 | 一般不作为正式查重依据 | 绝大多数SCI期刊指定使用 |
八、总结:到底该用哪个?
回到最初的问题:一篇论文Turnitin和iThenticate查重结果相差很大是为什么?
三个核心原因:
第一,数据库不同——Turnitin侧重学生作业库,iThenticate侧重学术期刊库。一篇SCI论文,iThenticate能查到的学术来源,Turnitin可能根本查不到。
第二,隐私处理不同——Turnitin会把你的论文存入数据库,iThenticate不会。
第三,排除设置不同——iThenticate可以排除参考文献和短词组,Turnitin的默认设置更严格。
那到底该用哪个?一句话总结:
如果你在写课程论文、本科毕业论文、硕士毕业论文——用学校提供的Turnitin查,符合学校要求就行。
如果你在准备投SCI、EI、SSCI期刊——必须用iThenticate(也叫CrossCheck)查。绝大多数SCI期刊用的就是iThenticate,你用Turnitin查出来的结果和期刊编辑看到的不一样。
千万别做的事: 别用Turnitin查完觉得重复率低就直接投SCI——结果很可能让你后悔。也别用iThenticate查课程作业——它不比对“学生作业库”,查出来的结果学校可能不认。
选对系统,比查完再焦虑有用得多。