学术不端检测系统的介绍

2024-05-07 05:43

1. 学术不端检测系统的介绍

“学位论文学术不端行为检测系统”（简称“TMLC”）主要为检测研究生培养过程中，研究生学术论文发表及学位论文中出现的不端行为提供辅助工具。

学术不端检测系统的介绍

2. 学术不端检测系统的基本简介

由清华大学中国学术期刊(光盘版)电子杂志社和同方知网公司历时2年攻关研制的基于全文的“学术不端文献检测系统”,经1000多家中国各地科技期刊使用表明,该系统的研制成功,开辟了采用技术手段防范学术不端行为的新方法。以抄袭、剽窃、伪造等为典型表现的学术不端行为 ,历来是世界范围内科研诚信建设中重点防治的对象。“学术不端文献检测系统”采用资源对比总库,在组织结构上不仅突出知识的内在关联,更形成了以文献库、概念知识元库、学术趋势库、学者成果库和专家评价库为主题的特色资源库,不仅针对不同的文档类型和内容特征,支持从词、句子到段落的数字指纹定义,并可对图、表等特殊检测对象进行基于标题、上下文、图表内容结合的相似性检测处理,还可根据特定的概念、观点、结论等内容进行智能信息分类处理,实现语义级别内容的检测。可用于抄袭、伪造、一稿多投、篡改、不正当署名、一个成果多篇发表等多种学术不端行为的检测。该系统在高校学位论文审查方面的功能主要包括:已发表文献检测、论文实时在线检测、问题库查询以及自建比对数据库功能。该系统不仅可以为研究生培养机构提供论文审查技术支持、学位论文质量评估、还可以对已经发生学术不端行为的学位论文进行后期跟踪处理。实现了高校学位论文学术不端行为的预防和治理两重功效。在一定程度上针对学术不端行为可能带来的严重后果和恶劣影响形成了天然的科技屏蔽作用。专家们期待这一系统在防治学术不端行为进程中发挥重要作用。

3. 学术不端文献检测系统的介绍

学术不端文献检测系统（简称“AMLC”）以《中国学术文献网络出版总库》为全文比对数据库，实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测，可供用户检测论文，并支持用户自建比对库。

学术不端文献检测系统的介绍

4. 学术不端文献检测系统的技术

AMLC采用CNKI自主研发的自适应多阶指纹（AMLFP）特征检测技术，具有检测速度快，准确率，召回率较高，抗干扰性强等特征。支持篇章、段落、句子各层级检测；支持文献改写，多篇文献组合等各种文献变形检测；支持研究生论文、图书专著等超长文献的学术不端检测。对任意一篇需要检测的文献，系统首先对其进行分层处理，按照篇章、段落、句子等层级分别创建指纹，而比对资源库中的比对文献，也采取同样技术创建指纹索引。这样的分层多阶指纹结构，不仅可以满足我们对超长文献的快速检测，而且，因为我们的最小指纹粒度为句子，因此，也满足了系统对检准率和检全率的高要求。原则上，只要检测文献与比对文献存在一个相同的句子，就能被检测系统发现。

5. 学术不端检测系统的目标要求

研发目标研究生培养阶段是学术不端行为的第一次诱发期与躁动期。在这一时期，一方面要对其加强科研诚信教育，同时采取技术措施对非诚信行为进行监督，将不良的学术风气扼杀在摇篮之中，不仅对于提高研究生培养质量，而且对于整过学术环境的净化都会起到根本性的作用。如果不能从研究生培养环节遏制学术不端行为，大批带有不端治学态度的研究生毕业后，不断涌入各级研究机构，不端行为就将形成“长江之水，滔滔不绝”，就不能从根本上扭转不端行为不断恶化的事态。TMLC系统要能够达到实用化要求，还必须要满足以下条件：1、比对库及资源范围广TMLC系统的检测范围要能够基本完整覆盖中文科技学术文献。TMLC系统比对库的完整性是其能够实用化的基本保障。完整性不仅表现在仅仅收录学位论文的全面，并且还要尽可能涉及学术文献其他领域，比如科技期刊、会议、报纸、、专利、标准等文献资源，并且还要求有较长时间阶段的回溯。否则，无法对检测结果做出正确有效的判断与决策。2、检测识别精准快捷TMLC系统要有较高的不端文献识别能力。对于各种不端文献类型均有较好的分辨能力。检测能力与水平是TMLC实用的关键。存在不端问题的文献一定要能够检测出来，同时不能误检出大量没有问题的文献。即要有较高的检测正确率与较低的误检率。3、实现全文比对TMLC必须能够支持全文比对。几乎所有国外有关检测系统只进行题录摘要层次的检测，但科技成果最终的体现表现在文献的文字阐述当中，如果实现全文比对，则能更加精准判断学术不端现象，才能达到大规模实用的要求。4、支持线上实时检测TMLC系统要能够进行在线实时检测。即系统要有较好的技术性能。鉴于检测需要进行大量的运算，国际上已有检测系统一般对实时检测大都支持的不好，尤其在文章较长时更是如此。TMLC系统要能够同时支持待检超长文献检测与超长文献进入比对数据库。

学术不端检测系统的目标要求

6. 学术不端行为检测系统的检测原理及方法

 TMLC需要一个尽可能完备的全文数据比对资源库，而CNKI的《中国学术文献网络出版总库》则正好满足这一要求。到目前为止，CNKI拥有学术期刊7000余种，期刊全文文献2480万篇，期刊期数和文献收录完整率都大于99.9%，文献量居国际国内同类产品之首；出版503家硕士学位点的72万篇优秀硕士学位论文，368家博士学位点的9.6万篇博士学位论文；1286家重要会议论文106万篇；515家重要报纸500多万篇；1376种重要年鉴787万篇；600多种工具书220多万条；学术引文索引数据600多万条；这些出版物做到平均日更新20000条记录；国家标准、专利、SPRINGER数据库也集成到CNKI网络出版平台中；另外，出版平台还集成整合出版了各类第三方数据库资源1020种。在收录资源种类上，CNKI在国内具有明显优势，收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上，CNKI明显优于同类产品，各个资源库收录年限长，期刊等主要资源库回溯到创刊。在资源更新速度上，CNKI产品除了第三方合作的外文文献以外，其他资源都做到了日更新，单日更新数量大，这是推行产业化、标准化运作的结果。 学术不端行为检测系统采用的指标体系分为两个部分：3.1 总检测指标学位论文一般文献篇幅较大，字数多，硕士论文一般为3~5万字，博士论文则多达十多万字。因此，为了让用户对整个学位论文有一个快速的概况了解，特制定了以下指标体系：l 总重合字数（CCA）l 总文字复制比（TTR）l 总文字数（TCA）l 疑似章节数（QCA）l 总章节数（TCA）l 首部重合文字数（HCCA）l 尾部重合文字数（ECCA）上述指标从整体情况描述了论文的检测情况，便于用户快速了解该论文总的检测概况。下面对上述指标分别进行说明。3.1.1总重合字数（CCA）学位论文一般篇幅大，少则3~5万字，多则十多万字，若以文字复制比来衡量一篇论文的文字重合情况，则不太合适。因为对于一篇十几万字的博士论文来说，10%就已达到1万字，文字复制情况已经非常严重。因此，对于博硕士论文检测，检测系统使用绝对字数即总重合字数作为检测结果的核心指标。如图6所示：3.1.2总文字复制比（TTR）总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比例。通过该指标，我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。3.1.3总文字数（TCA）总文字数是指该检测论文所有包含的字数，文字复制比与总文字数的乘积即为重合字数。3.1.4疑似章节数（QCA）、总章节数（TCA）疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。总章节数则是指学位论文总的章节数（对于不按章节显示，而是按照固定长度切分的论文，每一段落为一章节）。3.1.5首部重合文字数（HCCA）、尾部重合文字数（ECCA）首部重合文字数指学位论文前1万字中重合的文字数量。尾部重合文字数是指除去前1万字，剩下的部分中重合的文字数量。对于学位论文，一般开头部分均是综述性的报告介绍，其重要性远低于论文尾部。3.2 子检测指标对于学位论文的每一章节，又制定了如下检测指标来反映该章节的检测情况，对于一篇学位论文来说，每一章的内容各异，重点也不一样，其核心工作内容一般主要存在某几章中，子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括：l 文字复制比（TR）l 重合字数（CNW）l 最大段长（LPL）l 平均段长（APL）l 段落数（PN）l 段文字比（PR）l 首部复制比（HR）l 尾部复制比（ER）l 引用复制比（RR）*上述指标从多个角度反映了检测文献的检测情况，便于用户进行针对性审核。下面对各项指标分别进行说明。3.2.1 文字复制比（TR）因为学位论文一般文字量较多，为了便于用户快速浏览检测结果。系统会自动对学位论文进行切分处理。有如下两种处理方式：1．若用户提交的论文是MS Word格式，且按照MS Word格式生成了文档目录，检测系统会自动识别论文章节，按论文实际章节信息显示论文内容。2．若学位论文不存在明显的章节信息，或者不是MS Word格式论文，则系统会自动按照每段1万余字符切分学位论文，按照切分后的结果显示。文字复制比即指论文切分后每一章节段落的文字复制情况。文字复制比即指学位论文的某一章节与比对文献比较后，重合文字部分在该章节中所占的比例。比例越高，反映该章节越多的文字来自于其他已发表文献。文字复制比反映了文章“抄袭”的文字数量比例，一般来说，文字复制比越高，存在学术不端行为的可能性越大。文字复制比情况如图7所示。3.2.2 重合字数（CNW）重合字数指学位论文该章节与比对文献比较后，重合部分的字数。一般来说，不管文字复制比如何，重合字数越多，存在学术不端行为的可能性越大。如图8所示，在图中，虽然文字复制比只有16%，比例不高，但图中左文标红部分实际上是抄袭了右文的标红部分。3.2.3 最大段长（LPL）、平均段长（APL）、段落数（PN）在学位论文检测中，当连续文字超过一定比例时，称之为段。在本系统中，一般认为，连续200以上文字称为段。与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长，抄袭的可能性越大。在学位论文中，所有段的长度的平均值即为平均段长。在学位论文中，所有段的数量为段落数。平均段长和段落数反映了重合文字在学位论文中的分布情况，一般来说，指标参数越高，存在学术不端行为的可能性越大。如图9所示，标红部分的连续文字构成了段，而且它是算法设计的抄袭，审查人员比较容易判断；而在图10中，标红文字不构成段，连续文字较少，对它的性质判断则可能需要更多的信息。3.2.4 段文字比（PR）在学位论文的某一章节中，所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段文字比反映了抄袭连续特征。一般来说，连续文字出现的越多，比文字分散出现的情况更可能存在学术不端行为。3.2.5 首部复制比（HR）学位论文某一章节的前20%称之为章节首部，首部的文字复制比为首部复制比。就中文文献来说，一般每一章节正文开头部分出现的是综述性语言，重要性相对偏低。如图11所示，左文和右文开头大段相同，但文字内容基本都是综述性的介绍。3.2.6 尾部复制比（ER）每一章节的后80%称之为章节尾部，尾部的文字复制比为尾部复制比。通常情况下，尾部文字内容就重要性来说，比前部文字内容要高。如图12所示，我们仔细查阅比较图11和图12的内容发现，图11中首部文献是综述他人工作，而图12中尾部文献则是阐述自己的研究工作的目的和意义，应该是作者个人工作的体现，在这部分直接抄袭他文，性质要严重得多。3.2.7 引用复制比（RR）引用复制比指与存在引证关系的文献的文字重合部分的比例。对于学位论文来说，存在引证关系与不存在引证关系的复制部分应区别对待。复制了他文内容，而不注明引用，性质要更加严重。同时我们也认为，不是所有的注明了引用的，就不存在抄袭，引用也应有一个度和范围的限制。

7. 学术不端检测系统的检测指标

学位论文一般文献篇幅较大，字数多，硕士论文一般为4~5万字，博士论文则多达十几万字。为了便于快速准确的分析待检文献与比对文献的复制关系。系统设计了多个检测指标，这些指标从多个角度反映文字复制的特征，供专家审核参考。总检测指标总重合字数（CCA）总文字复制比（TTR）总文字数（TCA）疑似章节数（QCA）总章节数（TCA）首部重合文字数（HCCA）尾部重合文字数（ECCA）子检测指标对于学位论文的每一章节，又制定了如下检测指标来反映该章节的检测情况，对于一篇学位论文来说，每一章的内容各异，重点也不一样，其核心工作内容一般主要存在某几章中，子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括：文字复制比（TR）重合字数（CNW）最大段长（LPL）平均段长（APL）段落数（PN）段文字比（PR）首部复制比（HR）尾部复制比（ER）引用复制比（RR）上述指标从多个角度反映了检测文献的检测情况，便于用户进行针对性审核。下面对各项指标分别进行说明。系统检测比对数据系统支持在与用户自建数据库检测。《中国学术网络出版总库》包括：《中国学术期刊网络出版总库》《中国博士论文网络出版总库》《中国优秀硕士论文网络出版总库》《中国报纸全文数据库》《中国专利全文数据库》（知网版）《中国科技成果数据库》（知网版）《中国年鉴网络出版总库》《中国工具书数据库》《中国标准数据库》（知网版）学位论文不端行为检测范围通常，研究生除去完成学位论文外，还要完成发表一定数量的期刊论文或会议论文，才能得到学位授予。一般研究生会独立发表或与导师一起发表期刊论文，这些论文有些是学位论文工作的一部分。因此，对一个学位论文工作进行检测，可能涉及到几个方面并且不端行为的检测是一项政策性非常强的工作，必须采取技术检测加专家审核的办法。学位论文的检测学位论文检测是最核心的检测工作。由于学位论文篇幅较长，通常在5-10万字之间，为便于工作，我们将一篇学位论文按章节分开比对。给出每一章节的检测结果，再给出总体指标。由于学位论文体例的要求，论文含有大量的综述性内容。这些内容的抄袭认定，必须慎重。尤其是要和参考文献核对。一般认为，凡在文章注明出处的，在一定数量之内的文字可以视为合理引用。最后要以专家审核的结果为准。由于学位论文中的部分工作通常会在期刊上发表，一定注意要排除其本人的期刊论文。培养期间发表的期刊论文的检测许多学位培养单位要求研究生发表一定数量的期刊文章，这些文章应视为学位工作的一部分。显然，应对这些文章进行检测。学习开始前的论文工作的检测现在，部分研究生培养单位，在招生简章中要求参加考试的研究生有一定的论文发表，或是报考博士的原来已经取得过硕士学位。因此，还应对之前发表的期刊论文、硕士论文进行一定的检测。这部分工作可以对入学的研究生起到一个筛选的最用。

学术不端检测系统的检测指标

8. 学术不端行为检测系统的系统简介

 TMLC 采用CNKI 自主研发的自适应多阶指纹（AMLFP）特征检测技术，具有检测速度快，准确率，召回率较高，抗干扰性强等特征。支持篇章、段落、句子各层级检测；支持文献改写，多篇文献组合等各种文献变形检测；支持研究生学位论文、图书专著等超长文献的学术不端检测。CNKI自适应多阶指纹技术原理如图2所示：对任意一篇需要检测的文献，系统首先对其进行分层处理，按照篇章、段落、句子等层级分别创建指纹，而比对资源库中的比对文献，也采取同样技术创建指纹索引。这样的分层多阶指纹结构，不仅可以满足我们对超长文献的快速检测，而且，因为我们的最小指纹粒度为句子，因此，也满足了系统对检准率和检全率的高要求。原则上，只要检测文献与比对文献存在一个相同的句子，就能被论文检测系统 发现。 系统主要功能包括：已发表文献检测、论文检测、问题库查询、自建比对库管理等。◆已发表文献检测：指检测系统能够自动将属于用户的已正式发表的学位论文检索出来，并对每一篇已发表文献进行实时检测，快速给出检测结果。◆论文检测：主要实现论文实时在线检测功能。◆问题库查询：指用户可以将检测结果中确认有问题的文献放入到问题库，便于用户集中管理。◆自建比对库：指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库，该个人比对库即可作为以后学术不端文献检测的比对数据库，该自建个人比对库完全属于用户，其他用户无权使用。 在对用户提交的检测文献检测之后，系统生成的检测结果包括：1． 重合文字来源文献信息。系统详细列出重合文字来源文献信息，这些文献都是真实存在，而且应是公开发表或得到发表确认的。2． 比对信息。检测文献和来源文献的详细比对信息，用户可以快速选择重合文字部分查阅。3． 总检测指标。该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描述。4． 子检测指标。因为学位论文一般较长，因此，系统一般按章检索，并且每一章给出子检测指标，该检测指标从多个角度对该章内容的检测情况进行了详细描述。5． 诊断类型。系统根据指标参数以及其他元数据相关信息，自动给出一个预判的诊断类型，供审查人员参考。6． 检测报告。检测系统自动生成一个检测报告单，详细列出检测文献的学术不端行为检测情况，用户可以对该报告单进行修改，生成终审报告。注意：系统只对疑似存在学术不端行为的论文生成检测报告。