去年有个硕士生,毕业论文查重用Turnitin,查出来相似度11%。他很高兴,觉得稳了,直接提交了。
结果学院审核退回来了,说他的论文跟另一个同学的相似度高达18%。他懵了:“我查的时候才11%啊,怎么突然变18%了?”
我帮他看了报告才发现问题:他第一次查的时候,用的是同学给的“自查作业夹”,那个作业夹里只有3个人提交了论文。等他正式提交到学院的“毕业作业夹”时,那个夹里有80多个人提交,其中一个人的论文跟他有大量重合。

他不知道的是:Turnitin会把同一个作业夹里所有学生的论文都拿来互相比对。你自查用的作业夹人少,查出来的重复率就会偏低。等你正式提交到全班都在的作业夹,可能突然冒出来10%以上的“同学互抄”重复率。
这个学生的经历,其实反映了很多人面临的问题:Turnitin到底怎么用才准?查出来的数字怎么看?有哪些坑会踩?
今天我把这东西给你彻底讲清楚。
一、Turnitin是什么?跟iThenticate有什么不一样?
先说清楚一个很多人搞混的事。
Turnitin和iThenticate是同一家公司(Turnitin公司)的产品,但用途和数据库不一样:
对比项 | Turnitin | iThenticate |
|---|---|---|
主要用户 | 高校、学生 | 学术期刊、出版社 |
数据库偏重 | 学生论文库、网页、期刊 | 期刊论文、会议论文、预印本 |
特色库 | 10多亿篇学生论文(全球高校提交的) | ProQuest学位论文 |
适用场景 | 毕业论文、课程作业自查 | SCI期刊投稿前自查 |
一句话:毕业论文用Turnitin查,SCI期刊用iThenticate查。
Turnitin最核心的特色是学生论文库——全球几万所高校的学生论文都在里面。你抄了上一届学长的论文,Turnitin能查到。这是iThenticate做不到的。
二、Turnitin的数据库有多大?它到底查什么?
Turnitin的数据库主要包括三块:
数据库类型 | 包含内容 | 数据量 |
|---|---|---|
互联网资源 | 当前和已存档的网页 | 超过300亿页 |
学术出版物 | 期刊、杂志、学术著作 | 超过7000万篇 |
学生论文库 | 全球高校学生提交的论文 | 超过10亿篇 |
最需要注意的是学生论文库。这意味着:
你抄了本校上一届学长的论文 → 能查到
你抄了外校学生的论文 → 也能查到
你的同学抄了你的论文 → 你们俩提交后都会标红
这就是为什么毕业班的作业夹里,重复率经常会突然升高——因为大家的论文互相“撞车”了。

三、相似度百分比怎么看?别只看数字
Turnitin查完后会给一个相似度百分比,还有颜色图标:
颜色 | 相似度范围 | 说明 |
|---|---|---|
蓝色 | 0% | 无匹配 |
绿色/蓝色 | 1%-24% | 低相似度 |
黄色 | 25%-49% | 中相似度 |
橙色 | 50%-74% | 高相似度 |
红色 | 75%-100% | 非常高 |
但是!这个百分比不能直接当成“抄袭率”看。 Turnitin官方明确说过:相似度百分比不是判定抄袭的绝对指标。
为什么?因为以下几个原因:
第一,规范引用也会被标红。 你正确加了引号、写了参考文献,那些文字照样会被标成“匹配”。所以相似度25%不一定是有问题,可能只是因为你引用的多。
第二,0%反而可能有问题。 利物浦大学的研究提到:“看到0%应该和看到100%一样值得警惕”。因为一篇正常的学术论文,至少应该有规范的引用,不可能完全0匹配。
第三,相似度要看“长在哪里”。 方法部分重复10%可能很正常,但讨论和结论部分重复5%可能就很严重。
所以正确的做法是:不要只看总百分比,要点开报告看具体哪里被标红了、标红的是什么内容。
四、设置好排除项,查出来才准
Turnitin提供了几个排除功能,设置对了,查出来的结果才跟学校看的一致。
排除参考文献:在报告页面勾选“Exclude Bibliography”,系统会自动排除参考文献列表,不算进重复率。学校审核时通常也是这样看的。
排除引号内容:勾选“Exclude Quotes”,双引号内的直接引用会被排除。注意:只支持英文双引号" "和中文「」『』,不支持单引号或括号。
排除小范围匹配:可以设置排除低于一定字数的匹配(比如排除6个单词以下的匹配)。大多数学校默认是6个连续单词相同才算重复。
一个常见误解:排除参考文献后,相似度百分比反而可能变高。
举个例子:论文总字数1000字,参考文献100字,匹配文字240字。不排除时240/1000=24%。排除参考文献后,可比对字数变成900字,240/900=26.7%。百分比反而涨了。
这是正常的,不用担心。
五、最大的坑:入库问题
这是Turnitin最容易被忽略的问题。
什么叫入库? 你把论文提交到Turnitin的某个作业夹,如果那个作业夹的设置是“提交到标准论文库”,你的论文就会被存进Turnitin的学生论文库。
入库有什么后果?
你的同学以后查重,如果跟你论文相似,会被标出来
你自己以后再用这篇论文查重,可能会显示100%重复(因为库里有你自己之前提交的版本)
怎么办?
自查的时候,找一个设置成**“不提交到论文库”**的作业夹提交。很多学校专门建了一个叫“Test Your Text”的自查作业夹,就是干这个用的。
如果不小心入库了,可以在Turnitin里选中那篇论文,点击“Request permanent deletion”申请删除。但这个流程比较慢,最好一开始就避免。
六、自查的具体操作步骤
第一步:找对作业夹
找学校专门用来自查的作业夹,通常是“Test Your Text”或类似名字。不要用正式提交作业的夹,那个可能会入库。
第二步:文件格式要注意
支持的格式:Microsoft Word、PDF(非扫描版)、纯文本、HTML等。文件不能超过100MB,不超过800页,纯文字至少20字以上。
注意:扫描版的PDF(图片格式)不会被识别,查出来重复率可能是0%。所以不要用扫描件。
第三步:设置排除项
提交前或查完后,在报告页面勾选“排除参考文献”和“排除引号内容”。
第四步:看懂报告
点开相似度报告,看三个东西:
总相似度是多少
标红的内容在论文的什么位置(摘要、引言、方法、讨论?)
跟哪些来源匹配(是期刊论文、网页、还是学生论文?)
第五步:修改后重新提交
改完后再查一次。注意:同一个作业夹提交超过3次后,第4次开始需要等24小时才能出新报告。所以别在一个作业夹里反复提交。

七、几个常见问题
Q1:Turnitin查出来的结果,跟学校最终查的一样吗?
一样。只要你用的是学校指定的作业夹,并且设置了正确的排除项,结果就是一致的。
Q2:相似度多少算合格?
没有统一标准。学校、学院、导师的要求都不一样。理工科有的要求5%以下,社科可能宽松到20%以上。一定要去查你们学校的具体规定。
Q3:重复源是“Student Paper”怎么办?
这说明你的论文跟其他学生提交的论文相似。可能是:
你抄了别人
别人抄了你
你之前自己提交过(入库了)
可以在报告里把这个来源排除掉,重新计算重复率。
Q4:可以找人代查吗?
尽量不要。网上有些第三方查重服务,可能把你的论文存下来卖给别人。自己找学校正规渠道查。
Q5:AI写作检测功能是什么?
新版Turnitin加入了AI写作检测,能识别文本是否由AI(如ChatGPT)生成。如果你的论文大量使用AI生成内容,可能会被标出来。学校是否使用这个功能,要看学校的具体设置。
最后
Turnitin就是个工具,不是裁判。它告诉你“哪里跟别人一样”,但“一样”是不是“抄袭”,需要你自己判断。
我见过相似度35%最后通过的(因为全是规范引用),也见过相似度12%被叫去谈话的(因为那12%抄的核心段落)。
所以记住:看报告,不要只看数字。 点开看看被标红的是什么内容、在什么位置、是不是规范引用的。这些比那个百分比重要得多。
如果你现在准备查重,可以把你的论文情况告诉我,我帮你看看应该注意什么。
关键词
Turnitin;论文查重;相似度报告;毕业论文查重;查重注意事项