13个字符,知网查重是按照连续出现13个字符类似就会判为重复的标准计算论文重复率。如果学生抄袭了他人论文中的句子或者段落,知网查重系统在对其进行查重时,就会识别出重复部分,并计算到论文的总重复率之中。因此建议学生在写作论文时不可出现抄袭等学术不端行为,防止因为出现过多重复部分从而使论文总重复率上升很多。
一、查重阈值是多少?「查重阈值 5%」是真的吗?
查重阈值确实存在,但具体是多少,有很多种说法,0.5%、1%、5%……但即使知道了也没多大意义,所以不必纠结这个。
比如假设阈值是 1%,知网查重会分段落(按章节或随机分),如果一个段落 10000 字,那么理论上单篇抄袭 100 字不会标红。那么实际操作是这样的,你先假定一个阈值(可能是错的),看每个章节字数(系统可能不按章节分),算出单篇可抄袭字数(最多也就一小段),找多篇文献每篇抄一小段(某些文献可借鉴的很多,而有些文献一段也用不上),最后你得确保除了抄袭的这段,其他内容不会和这些文献重复(有时自己写的也判定重复),以上条件都满足,抄袭而不标红的「阴谋」才能得逞,太累了……
当然你每篇抄得越少,被查出来的概率就越低,这是肯定的。 至于「越少」是多少,没人说得清。
二、那知网到底怎么查重?
知网采用模糊算法,分段进行查重(识别出章节就按章节分段)。 统计每个段落文字/关键词并与论文库里的文献进行对比,达到一定比率,就把连续重复多的地方标红。
看到这里,你是不是很蒙,完全不知道怎么对症下药。 你只需要知道的是,系统没有那么智能,不会对比论文表达的意思,它只是一堆很死的代码、算法,按字词的相似比率来判断抄袭,你要做的是尽量改得和别人不同,观点一样没关系,用词、表达方式一定要变。
相关问答