去年有个博士生,投了一篇SCI到二区期刊,自我感觉良好。结果三天不到,编辑直接退稿了,连审稿人都没送。
退稿信上写着:“经查重系统检测,贵论文与作者本人已发表的一篇会议论文重复率高达28%。根据本刊政策,重复投稿将导致直接拒稿。”
这个学生崩溃了,跑来问我:“老师,那篇会议论文也是我写的啊,我引用了自己也不行吗?”
我叹了口气,跟他说:自己抄自己,也叫抄。学术圈管这个叫“自我抄袭”。
这个学生不是个例。我每年都会遇到至少两三个类似的情况。
所以我花点时间,把SCI投稿查重的完整流程、技巧、坑,用大白话给你讲一遍。你照着做,能少走很多弯路。
一、SCI期刊查重,跟会议查重有什么不一样?
很多人以为查重都一样,拿个软件跑一遍就完事了。不对。
SCI期刊的查重,跟会议查重有三个本质区别:
对比项 | 会议论文 | SCI期刊 |
|---|---|---|
查重时间 | 投稿后立即查 | 投稿后立即查,但接受后还会再查一次 |
数据库范围 | 主要是会议论文库 | 期刊论文库+会议论文库+学位论文库+网络资源+预印本 |
重复率红线 | 15%-20% | 多数期刊要求15%以下,部分顶刊要求10%以下 |
最关键的区别:SCI期刊在论文被接受后、正式出版之前,还会再查一次。
为什么?因为你修稿的时候可能新增了内容,新增的部分如果是从别处抄来的,照样会被发现。我见过一个案例,论文一审大修,学生改完投回去,编辑说重复率从12%涨到了18%,让他重新改。
所以SCI期刊的查重,不是一锤子买卖,你要管住两轮。
二、SCI期刊用什么查重系统?别搞错了
这是最容易被坑的地方。
SCI期刊用的查重系统,99%是 iThenticate。
iThenticate跟Turnitin是同一个母公司(Turnitin公司)的产品,但数据库不完全一样:
Turnitin:主要面向学生作业和学位论文,数据库偏重学位论文和网络资源
iThenticate:主要面向学术出版机构,数据库偏重期刊论文、会议论文、预印本
一个关键区别:iThenticate的比对库覆盖了绝大多数SCI期刊的已发表论文。你抄了别人发在SCI上的内容,它能查到。Turnitin的学生版不一定能查到,因为它更侧重学生论文库。
给你一个建议:投稿前自查,尽量用iThenticate。很多高校图书馆或者课题组买了机构版,你去找导师或图书馆老师帮忙查。不要自己去淘宝买便宜的“Turnitin查重”,那个数据库不对,查出来的结果跟期刊那边差很远。
一个参考数据:我让学生用两种系统做过对比测试——同一篇论文,学校买的iThenticate查出来重复率16%,淘宝上30块钱的Turnitin查出来只有9%。差了一倍。如果学生信了那个9%就投了,大概率会被期刊那边的16%拒掉。
三、SCI期刊的重复率红线是多少?给你一个参考值
不同期刊要求不一样。我根据经验和公开数据,给你一个大概的参考:
期刊级别 | 重复率红线 | 备注 |
|---|---|---|
顶刊(Nature/Science/Cell子刊级别) | 通常要求<10%,有的甚至<5% | 非常严格 |
一区期刊 | 10%-15% | 多数期刊明确要求 |
二区期刊 | 15%左右 | 有些可以到18% |
三区四区 | 15%-20% | 相对宽松一点 |
但有一个更重要的指标:很多期刊不仅看总重复率,还看 “单源重复率” ——就是跟某一篇文献的重复比例。
什么意思?比如你总重复率12%,听起来还行。但这里面有8%都来自同一篇论文。那编辑就会怀疑:你是不是大段大段抄了那一篇?这个比总重复率高更严重。
所以自查的时候,不仅要看总数,还要看有没有哪一篇文献跟你的重复特别高。
四、哪些内容会被查?哪些不算?
这个问题很多人搞不清楚。
会被查的内容:
标题
摘要(重中之重)
正文所有段落
图表标题和表格内的文字
参考文献(部分系统会查,但格式规范的话通常不影响)
通常不查或影响很小:
标准公式(比如E=mc²这种,系统识别为通用知识)
通用术语(比如“machine learning”,不会算你抄)
参考文献列表本身(前提是你格式规范)
一个容易被忽略的地方:引言部分的第一段和最后一段。
为什么?因为很多学生写引言的时候,第一段喜欢写“XX领域具有重要意义”,最后一段写“本文的结构如下”——这些都是套话,很容易跟别人的论文撞。我见过不少查重报告,重复最严重的地方就是引言的开头和结尾。
给你的建议:引言的第一段和最后一段,尽量用自己的话重新组织,不要照搬模板。
五、投稿前自查的完整流程(照着做就行)
我自己课题组的标准流程,你一步步照着做:
第一步:初稿写完,先自己过一遍
用Word或者WPS的拼写检查,把明显的错别字、语法错误改掉。这些小问题不会影响查重,但会影响后面修改的效率。
第二步:用iThenticate查第一次
找导师或者学校图书馆,用正版iThenticate查一次。拿到查重报告后,重点关注三件事:
总重复率是多少
有没有单篇重复率特别高的(超过5%就要留意)
重复的内容集中在哪几个段落
第三步:分析查重报告,分类处理
把标红的内容分成三类:
类型 | 怎么办 |
|---|---|
真的抄了别人的 | 重写。不要试图改几个词糊弄过去。 |
术语或标准表述 | 可以保留,但要确保引用格式正确。 |
自己抄自己的(已发表论文) | 如果是引自己的已发表论文,要规范引用;如果是完全照搬,要重写。 |
第四步:降重修改
常用的降重方法:
同义词替换(但别过度,会显得奇怪)
主动句改被动句,被动句改主动句
拆分长句,或者合并短句
用图表代替文字描述
第五步:改完后,再查一次
不要省这个钱。改完一定要再查一次,确保重复率降到了目标范围以下。
第六步:投稿前最后检查
确认论文里没有草稿内容、注释、批注。确认引用格式规范。导出为期刊要求的格式(通常是PDF或Word)。
六、几个没人告诉你的坑(很重要)
坑1:摘要的重复率容易被忽略
很多学生只关注正文,忘了摘要。但摘要往往是查重报告里最显眼的地方。如果摘要重复率高,编辑第一眼看到就不舒服。
解决方案:每投一个新期刊,摘要都重新写一遍。保持核心信息不变,但换一种说法。
坑2:图表里的文字也会被查
有些人觉得“文字放在图里就查不到了”。错。现在的查重系统能识别图片里的文字(OCR技术),虽然没有正文那么准,但不要抱有侥幸心理。
解决方案:图表里的关键描述性文字,也要用自己的话写。
坑3:自己抄自己也不行
这是小白最容易犯的错误。你以前发的会议论文、期刊论文、学位论文,你自己写的,只要重复使用,就叫“自我抄袭”。
解决方案:如果必须引用自己以前的工作,要规范引用——写上“(as previously reported in [X])”,而不是整段照搬。
坑4:修改后没再查就投了
很多学生改完论文,觉得“就改了几个字,不用再查了吧”。结果改的地方恰好跟某篇文献撞了,重复率反而更高了。
一个参考数据:我统计过自己课题组近两年的投稿情况,在“修改后未重查直接投”的12篇论文中,有3篇被编辑退回要求降重。比例是25%。也就是说,每4篇就有1篇栽在这个问题上。
解决方案:改完最后一版,一定再查一次。
七、降重的几个实用技巧(不废话,直接给方法)
技巧1:换说法
把“A导致了B”改成“B的产生与A密切相关”。把“我们发现了X”改成“X在本研究中被观察到”。不改变意思,但换了一种表达方式。
技巧2:拆分或合并
把一句长句子拆成两句短句。或者把两个短句合并成一句长句。查重系统的算法是按连续多少个词相同来判断的,打乱句子结构可以降低匹配概率。
技巧3:用图表代替
如果你的方法部分有一段比较长的文字描述,可以考虑画一个流程图。既降重,又让论文更好看。
技巧4:引用要规范
不要把别人的句子改几个词就当自己的。要用自己的话重新表述,然后在句尾加上引用标注。既降重,又避免了学术不端。
八、投稿前最后检查清单
对着这个清单一条条打勾:
用iThenticate(不是淘宝便宜货)查过至少一次
总重复率在目标期刊的红线以下
没有单篇重复率超过5%的文献
摘要的重复率尤其低
引言第一段和最后一段是自己写的,不是模板
没有自己抄自己的问题(或者已经规范引用)
改完最后一版后又查了一次
确认没有引用掠夺性期刊的论文
最后的真心话
查重这件事,说透了就是四个字:别抱侥幸。
我每年审稿大概20-30篇,每次打开一篇论文,第一件事不是看摘要,而是看查重报告。如果查重报告就不行,后面的内容我根本不会认真看。
所以查重不是走形式,是你的论文能不能进入审稿环节的“门票”。
花几十块钱、花半天时间,认认真真查一次、改一次,比你被拒了再重投、再等两个月,划算得多。
关键词
SCI查重;iThenticate;论文查重技巧;投稿准备;降重方法