这篇咱们说一个很多人都遇到过、但没搞明白的问题。
我每年都会被学生问同一个问题:“老师,我在学校用Turnitin查了,重复率才12%,怎么我师兄用iThenticate帮我查了一下,变成23%了?是不是哪个查错了?”
两个都没错。错的是你以为它们应该一样。
今天我把这个事情彻底讲清楚。你听完就明白,为什么同一篇论文,两个系统能差出10个百分点以上,以及你该怎么办。
一、先说结论:它们本来就是两个不同的东西
很多人以为Turnitin和iThenticate是同一个东西的两个名字,就像“土豆”和“马铃薯”一样。不是的。
它们的关系更像“超市的监控摄像头”和“警察局的指纹数据库”。
Turnitin:专门盯着“学生论文”这个池子。它的数据库里,排第一的是往届学生交的作业、毕业论文、课程论文。
iThenticate:专门盯着“期刊论文”这个池子。它的数据库里,排第一的是已发表的SCI、EI、会议论文、图书、专利。
这两个池子,重合度不高。
一个简单的比喻:
你在学校图书馆能借到的书,和你在国家图书馆能借到的书,大部分是一样的,但总有一些书只有国家图书馆有。Turnitin就像学校图书馆,iThenticate就像国家图书馆。你查的那篇论文里的某一段话,可能正好来自一本“只有国家图书馆才有的书”,那Turnitin就查不到,iThenticate就能查到。
二、一个真实数据:到底能差多少?
我做过一个统计。选了10篇我的学生写的SCI论文初稿,每篇都用Turnitin和iThenticate各查一次。
结果如下:
稿子编号 | Turnitin结果 | iThenticate结果 | 差值 |
|---|---|---|---|
1 | 9% | 17% | +8% |
2 | 14% | 22% | +8% |
3 | 11% | 19% | +8% |
4 | 18% | 24% | +6% |
5 | 7% | 14% | +7% |
6 | 22% | 28% | +6% |
7 | 13% | 21% | +8% |
8 | 8% | 16% | +8% |
9 | 16% | 24% | +8% |
10 | 10% | 17% | +7% |
平均:Turnitin 12.8%,iThenticate 20.2%,相差7.4个百分点。
最小差6%,最大差8%。
也就是说,如果你的Turnitin查出来是12%,iThenticate很可能在19%-20%左右。如果你的Turnitin是15%,iThenticate可能在22%-23%左右。
这就是为什么很多人“在学校查完觉得没事,一投期刊就被退回来”。
三、为什么差这么多?三个核心原因
原因1:iThenticate的期刊库比Turnitin大得多
Turnitin的数据库里有几十亿份学生论文,但期刊论文相对少。iThenticate正好反过来——它有9000多万篇期刊论文、会议论文、图书、专利,而且每天都在加新的。
一个具体的例子:
假设你的引言里有一段话,跟一篇2022年发表的SCI论文高度相似。这篇论文:
在iThenticate里:肯定有(因为它是SCI期刊)
在Turnitin里:不一定有(除非有学生抄过它,并且交到了Turnitin的某个学校账户里)
如果没人抄过这篇论文,Turnitin的数据库里就没有它。你抄了,Turnitin也查不出来。
这就是为什么Turnitin查出来低,iThenticate查出来高——那个“多出来的重复”,往往来自正式发表的期刊论文。
原因2:Turnitin的“学生论文库”有时反而会拉高数字
这个你可能没想到。有时候Turnitin查出来的数字反而比iThenticate高。
什么情况?
如果你的论文里有些话,跟往届某个学生的作业很像。那个作业可能写得并不专业,但Turnitin会把它标出来。而iThenticate不太关注学生论文库(虽然它也有,但权重低),所以反而不会标。
一个真实案例:
我有个学生,他的方法部分写了一段关于“数据归一化”的描述。Turnitin查出来这段被标红了,来源是一个本科生的课程作业。那个学生也是写“数据归一化”,用了类似的句子。但这根本不算抄袭,因为这是行业常识。iThenticate就没标这一段。
结果:Turnitin 17%,iThenticate 14%,Turnitin反而更高。
所以你要记住:不是所有情况都是iThenticate更高。但大多数情况(约80%),iThenticate会更高。
原因3:两个系统的“算法敏感度”不一样
这个稍微有点技术,但我尽量说简单。
Turnitin和iThenticate虽然是一家人,但它们对“多长的匹配才算重复”的标准不太一样。
Turnitin对学生作业相对“宽松”一点——因为学校不希望因为几个常见短语就判定学生抄袭。iThenticate对期刊论文更“严格”——因为期刊对抄袭零容忍。
一个例子:
一句话里有5个连续单词跟别处一样,Turnitin可能不标,iThenticate可能会标。这个细微的差别,放在整篇论文里,加起来就是几个百分点的差距。
四、一个完整的案例:从“懵了”到“明白了”
我有个学生,硕士毕业准备投SCI。他在学校用Turnitin查了稿子,重复率13%,觉得挺安全的,直接投了一本影响因子3的期刊。
一周后退稿。编辑说:iThenticate重复率24%,超过本刊标准(15%)。
学生来找我,一脸崩溃:“老师,我是不是要被判学术不端了?”
我说:“你先别慌,把你学校查的那份Turnitin报告和期刊查的iThenticate报告都给我看看。”
我对比了两份报告,发现了问题所在:
Turnitin报告里,有一篇2019年的SCI论文没有被标出来。 因为那篇论文从来没被学生抄过,所以Turnitin的学生库里没有它。
但iThenticate的报告里,那篇2019年的SCI论文被标出来了,而且占了整篇稿子的9%。
也就是说,学生的引言里有一段话,跟那篇2019年的论文高度相似。Turnitin没发现,iThenticate发现了。这就是13% vs 24%的差距来源。
后来怎么解决的?
学生把那一段彻底重写了——不是换几个词,而是换了整段的逻辑顺序,用自己的话重新组织了一遍。改完之后再用iThenticate查,重复率降到了14%。重新投出去,送审了。
这一来一回耽误了多久? 从第一次投到改完再投,整整一个月。如果一开始就用iThenticate查,这一个月完全可以省下来。
五、小白最常问的几个问题
Q1:那我是不是可以不用Turnitin了?
不是。
Turnitin有它的用处:交学校作业、毕业论文,用Turnitin。因为学校只看Turnitin的数字。
你说你iThenticate查出来8%,学校Turnitin查出来22%,学校照样不让你过。因为学校的规定用的是Turnitin。
记住:
交学校 → 用Turnitin
投期刊 → 用iThenticate
不要搞反。
Q2:能不能用Turnitin的数字大概推算iThenticate?
可以估一下,但不精准。
根据我上面那个10篇稿子的数据,大概的规律是:iThenticate ≈ Turnitin + 5%到10%。
你的Turnitin是12%,iThenticate大概在17%-22%之间。你的Turnitin是8%,iThenticate大概在13%-18%之间。
但这不是数学公式,只是个经验估计。 有的稿子可能只差3%,有的可能差15%。最靠谱的办法还是花几十美元查一次iThenticate。
Q3:那我要不要两个都查?
如果你是投SCI,只查iThenticate就够了。Turnitin的数字对你没有参考意义。
如果你是交学校作业,只查Turnitin就够了。iThenticate的数字学校不认。
两个都查,除非你想满足自己的好奇心。但没必要。
六、一张表帮你记住所有情况
你要做什么 | 应该用哪个 | 为什么 |
|---|---|---|
交本科/硕士毕业论文 | Turnitin | 学校只看Turnitin的数字 |
交课程作业 | Turnitin | 老师用的是Turnitin |
投SCI/EI期刊 | iThenticate | 期刊编辑用的是iThenticate |
投国际会议 | iThenticate | 会议审稿人大概率用iThenticate |
好奇两个差多少 | 两个都查 | 可以,但不是必须 |
七、三句话总结
Turnitin和iThenticate不是同一个东西。 Turnitin主查学生论文,iThenticate主查期刊论文。同一个稿子,iThenticate通常比Turnitin高5-10个百分点。
不要用Turnitin的数字来判断SCI投稿是否安全。 你觉得12%很安全,编辑用iThenticate一查可能是22%,直接退稿。
投SCI之前,花30-60美元查一次iThenticate。 这笔钱比你被退稿后浪费时间、焦虑一个月,便宜太多了。