一、iThenticate是啥?和Turnitin有啥区别?
很多同学第一次听到iThenticate,第一反应是“这不是Turnitin吗?”其实它俩是一家人,但用途不一样。
一句话说清楚:
Turnitin:学校用来查学生作业的。查完会把你的作业存到数据库里,下次别人抄你就能查出来。
iThenticate:出版社和期刊用来查投稿论文的。查完不存你的论文,这样你投给期刊时,期刊再用iThenticate查一遍,结果和你自己查的一样。
为什么这个区别很重要?
如果你用学校免费的Turnitin查自己的论文,你的论文就会被存到Turnitin的学生数据库里。等你投稿时,期刊一查,发现你的论文跟Turnitin数据库里的“某篇学生作业”一模一样——那篇“作业”就是你自己之前查的那份。然后你就要花好几个月跟编辑解释“那个也是我自己写的”。
记住这条铁律: 投稿查重一定要用iThenticate,不要用学校作业版的Turnitin。两者用的是同一个比对技术,但iThenticate的检测模式保证了论文不会被记录留存。
还有一个坑: 网上有很多便宜的查重服务,几十块钱就能查一次。这些很多是“山寨”的,要么数据库不全、结果不准,要么更危险——你的论文可能被倒卖。建议通过正规渠道,比如官方授权服务商或者像意得辑这样的专业机构。
二、iThenticate怎么查重?原理是什么?
很多人以为iThenticate是“读懂”了你的论文然后判断有没有抄袭。其实不是。
iThenticate不“读”内容,它只“比对”文字。
它的工作原理分三步:
第一步:把你的论文“格式化”
系统会把你的论文里所有标点符号、特殊符号、数学符号都替换成空格,只留下单词。连小数点都会被拆开——1.23会变成“1”和“23”两个单词。
第二步:跟数据库里的内容逐字比对
系统会把你论文里的每一段文字,跟它的数据库做比对。数据库包括:
已发表的期刊论文和会议论文
互联网上的公开内容(网页、博客等)
部分书籍和出版物
第三步:标出相似的文字
只要连续几个单词跟数据库里某个来源一样,就会被标出来。不同的重复来源会用不同颜色标记。
重点来了:系统判定重复的规则是什么?
这个规则很多人搞不清楚,甚至网上很多说法也不准确。我直接给你讲明白:
核心规则:不连续的6个单词中间,不重复的单词小于4个,就算重复。
什么意思?我用最简单的例子说明:
6个连续相同的单词:111111 → 肯定重复
中间夹着1个不同的:1011111或1101111 → 还是重复
中间夹着2个不同的:1100110011 → 还是重复
中间夹着3个不同的:100010001111 → 也是重复
中间夹着4个不同的:1000010001 → 这回安全了
一个实例帮你理解:
原句:Computer science has been widely considered as...
如果你改成:Computer science has been widely perceived as...
只换了“perceived”一个词(widely没变)→ 中间只有1个不同单词 → 依然会被判重复。
如果你改成:Computer science and technology has been widely perceived as...
加了“and technology”两个词 → 中间有2个不同单词 → 还是重复。
如果你改成:Computer science which results from America has been widely perceived as...
加了“which results from America”四个词 → 中间有4个不同单词 → 这回安全了。
知道这个规则有什么用?
降重的时候,不要只盯着同义词替换。每改一句话,确保连续相同/相似的单词不超过5个。如果连续几个单词实在改不了,就在中间插入4个以上的“桥接词”把它们隔开。
三、相似度报告怎么看?(带颜色解读)
提交检测后,你会拿到一份相似度报告。报告开头的图标颜色代表了总相似度区间:
颜色 | 相似度范围 | 什么意思 |
|---|---|---|
绿色 | 0% | 完美,几乎不可能 |
蓝色 | 1%-24% | 安全区,大部分期刊能接受 |
黄色 | 25%-49% | 危险区,大概率要修改 |
橙色 | 50%-74% | 很危险,基本会被退修 |
红色 | 75%-100% | 极度危险,大概率直接拒稿 |
但千万别只看颜色和总相似度。我见过总相似度只有12%却被拒稿的案例,也见过总相似度22%顺利发表的。
编辑看报告时,重点看这三个东西:
1. 总相似度(Overall Similarity)
大多数SCI期刊的把控范围在15%-20%之间。顶刊更严,Nature、Cell这种直接要求≤5%。
2. 单源相似度(最高单篇匹配率)
这个很多人忽视,但它才是真正容易翻车的地方。如果你的论文跟某一篇特定的已发表文献有超过5%的相似度,编辑就会警惕;超过8%大概率会被退回。
一个真实案例: 有同学在某鱼上花几十块钱查重,总相似度19%,他以为稳了就直接投稿。结果一周内被退稿,编辑只给了一句话:“稿件相似度过高。”后来仔细看报告才发现,有一篇同领域的文献跟他的论文单源相似度到了12%——就因为实验方法类似,方法部分重复率高。
3. 重复内容出现在哪里
方法部分重复:编辑相对宽容,因为实验步骤、仪器参数很多是固定的
讨论和结论重复:非常危险,哪怕比例不高,也容易被判为学术不端
还有一个细节:排除参考文献后的结果
iThenticate会出两份结果:一份包含参考文献,一份排除参考文献。投稿SCI的话,看排除参考文献的那份(重复率低的那个)。因为参考文献的重复是正常的,排除后才是正文的真实重复率。
四、常见问题与避坑指南
问题1:参考文献要不要带着查?
要。 一定要带着参考文献一起查。
很多人怕参考文献拉高重复率,就删掉文献再查。但这样做有两个问题:
结果不准,跟期刊查的结果不一样
期刊查的时候发现你参考文献格式有问题,照样退修
正确做法:带着参考文献一起查,然后看排除参考文献后的那份结果。
问题2:查重报告里有些地方标红了,但那是规范引用,也要改吗?
不用。
iThenticate不区分“合理引用”和“抄袭”。它只管比对文字,所以规范引用的部分也会标红。
正确的做法是逐条检查被标红的内容:
标准术语、规范引用、文献列表 → 保留,不用改
没有标注引用的大段照搬 → 必须改
问题3:查完一次再查第二次,结果会不一样吗?
如果改过内容,结果当然不一样。但如果同一份文件查两次,结果是一样的。
因为iThenticate不会收录你提交查重的论文。所以不用担心“查过一次就会被标记”这种问题。
问题4:提交时格式有什么要求?
支持格式:Word(.doc/.docx)、PDF
文件大小:不超过10MB
去掉所有修订痕迹和批注内容(否则会影响检测结果)
不要上传加密、受密码保护的文件
问题5:查重需要多长时间?
正常情况5-30分钟出报告。如果遇到官网系统维护,可能要等几个小时甚至一天。
问题6:什么是“自我抄袭”?很严重吗?
非常严重。
很多中国研究者会忽视这个问题。比如:
你之前发过一篇会议论文,现在扩展成期刊论文
你从自己的学位论文里拆出多篇小论文
你写新论文时,复制了自己已发表论文里的方法部分
所有这些情况,如果没有注明引用出处,iThenticate都会标记为重复。编辑看到的就是“相似度过高”,不会管你是不是自己写的。
解决方法: 引用自己已发表的工作时,也要像引用别人的工作一样标注出处。
问题7:AI检测功能是怎么回事?
iThenticate现在有AI检测功能,会判断论文里有没有AI生成的内容。
几个关键点:
只支持英文文档,字数要求300-30000字
低于20%的AI内容不会标记(因为容易误判)
蓝色标记:可能是AI生成的文本
紫色标记:可能是AI生成后又被另一个AI改写过的
目前各期刊对AI的态度还不统一。建议:除非你100%确定期刊允许,否则尽量不要投递包含AI生成内容的论文。
五、各学科的安全标准参考
不同学科标准不一样,我给你一个大致参考:
学科领域 | 安全总相似度 | 单源相似度警戒线 | 特殊说明 |
|---|---|---|---|
医学/生命科学 | 15%-20% | 不超过5% | 术语多,容忍度高 |
化学/材料 | 15%-20% | 不超过5% | 小心“自我抄袭” |
物理/数学 | 15%-20% | 可以稍高 | 公式、定理难改 |
社科/人文 | 严格控制在15%以内 | 非常敏感 | 文字独创性要求高 |
顶刊(Nature/Cell等) | ≤5% | 极低 | 任何重复都要谨慎 |
特别注意: 这个表只是参考。每个期刊有自己的标准,投稿前一定要去看目标期刊的投稿指南。
六、降重建议:怎么改才有效?
知道了原理之后,降重就有方向了。
方法1:插入足够多的“桥接词”
根据规则,连续相同/相似的单词不超过5个就安全。如果一句话里关键的5个词改不了,就在它们中间插入4个以上的新词。
原来:The sample was heated to 80°C for 2 hours.
改成:The experimental sample, after being placed in the chamber, was heated to a temperature of 80°C and this condition was maintained for a duration of 2 hours.
增加了“experimental”、“after being placed in the chamber”、“a temperature of”、“and this condition was maintained for a duration of”这些词,把原本连续的“heated to 80°C for 2 hours”隔开了。
方法2:主动语态/被动语态来回切换
主动:We conducted the experiment in triplicate.
被动:The experiment was conducted in triplicate.
方法3:句子结构大调整
不要只换同义词。把长句拆成短句,或者把几个短句合并后重新组织语序。
方法4:方法部分的特殊处理
方法部分最难改,因为实验步骤是固定的。可以把步骤拆碎:
原来:The samples were heated to 80°C for 2 hours.
改成:Temperature control was set to 80°C. Regarding duration, the samples remained at this temperature for a total of 2 hours. This step was necessary for...
方法5:加自己的评论和分析
讨论和结论部分最容易出现高重复率,因为你在总结别人的研究。每个引用后面都跟一句你的评论——“这个结论在我们的体系中是否成立?”“Smith的研究用的是小鼠模型,而我们的研究对象是人类细胞”——这些是你自己的东西,系统在别处找不到。
七、投稿前查重的正确流程
第一步:写完全稿,自己通读一遍,确保没有明显的照搬段落
第二步:通过正规渠道使用iThenticate查重
学校有没有购买iThenticate(很多高校有)?有就用学校的
没有的话,找官方授权服务商,比如意得辑
第三步:看懂报告,不只是看总相似度
找到单源重复率高的部分(>5%就要警惕)
看重复内容出现在哪里(方法部分可容忍,讨论部分要严改)
第四步:逐条修改
规范引用和标准术语 → 保留
没有标注引用的大段重复 → 用上面的方法改写
第五步:改完再查一次
确保修改有效
确保没有产生新的重复
第六步:检查参考文献格式
确保符合目标期刊的要求
八、几个保命提醒
不要贪便宜用路边摊查重。论文泄露的风险你承担不起。
不要等投稿前才查。提前一周查,留出修改时间。
不要只改关键词。换同义词效果有限,要改句子结构。
不要忽略单源重复。总相似度低但某一篇文献匹配度高,照样可能被拒。
不要忽略自我抄袭。引用自己已发表的工作也要标注。
九、结语
iThenticate是工具,不是裁判。它告诉你“哪些地方跟别人写的一样”,但判断“这是不是抄袭”的是编辑。
几个数字帮你记住:
投稿查重用iThenticate,不要用Turnitin
总相似度一般控制在15%-20%
单源相似度最好控制在5%以下
查重5-30分钟出结果
每次查重无痕,不影响后续投稿
记住:查重的目的是帮你发现问题、提前修改,不是为了得到一个低分数字去应付。改得越彻底,投稿越顺利。
关键词: iThenticate;投稿查重;相似度检测;降重方法;SCI投稿