原标题:毕业论文AIGC检测引争议,不同平台检测结果差异大,专家:“AI率”不等同于“查重率”,建议仅供导师参考,不宜“一刀切”
随着AI技术的快速发展,近几年不少大学针对学生的毕业论文引入AIGC检测,即“人工智能生成内容”检测。有学校要求,如毕业生论文的AIGC检测结果不达标,学生会推迟答辩。对此,不少学生在社交平台大吐苦水。
近期,极目新闻记者采访了多名大学应届毕业生,有同学表示,目前,不同平台的AIGC论文检测结果差异巨大,甚至同一平台不同时间检测结果也可能不同。还有同学称,有些“手搓”部分也会被判定为AI生成,认为检测平台应公开判定标准。
有专家提出,AIGC的检测结果是文章段落疑似使用AI生成的概率,不应简单将其与传统的论文查重率一样看待。高校仅以AIGC检测结果作为答辩硬性限制标准是不科学的。
不同平台检测结果差异大
来自华东某高校的王同学是被AIGC检测困扰的本科生之一,她是学校首批进行AIGC检测的毕业生。她在维普、知网两个平台提交同一篇论文后,一个网站显示AIGC检测结果是3%,另一个网站显示AIGC检测结果是67%。如此两极分化的结果让王同学无所适从。
王同学说,之所以查两个网站,是因为最初学校要求使用一个网站检测,而论文定稿交在另一个网站,学生们只能两个网站都测。但后来,因不少学生反映这一问题,学校最终调整为统一使用知网检测,才解决了这一难题。
最终,王同学在知网、维普各检测三次,累计花费188元。王同学说,毕业季本来开支就多,同学们其实并不愿意花钱检测,但又没办法。
同样受此困扰的还有今年毕业的秦同学,她所就读的学校要求本科生毕业论文在维普网站的AIGC检测结果不能超过30%,否则无法答辩。
“我觉得拿到30%以下的检测结果难度挺大的。”秦同学说,她在写论文时,确实使用了一些AI工具润色文本,导致论文最初的AIGC检测结果非常高。经过连续4天的熬夜修改后,她终于赶在最后一天交了改好的定稿。
在修改时,秦同学发现,即便是同一个平台,前后两次检测的结果也会出现差异。据其介绍,她记得,当时论文中有一段在第一次、第二次AIGC检测时均未出现问题,因此她并没有作出修改。但到了第三次检测,这段话又突然出现标红,意味着平台认定这段话高度疑似由AI生成,她只能再次调整语序、表达方式。
“ 手搓”致谢也会被认为AI生成
为什么同一平台的AIGC检测结果会发生改变?为什么不同平台检测结果差距这么大?不少毕业生对检测平台的认定标准十分好奇。
秦同学告诉记者,修改过程中,最离谱的是她纯手写的论文致谢部分在某一次AIGC检测中被标红。除此之外,她请一名外语专业同学帮忙人工翻译的一段英文摘要,也被平台判定为是100%是AI写作,“改得人非常头疼。”
最终,秦同学把英文摘要中长句全部改成了最直白的“主谓宾”句式,又把高级词汇全部替换成常见的单词,AIGC检测结果才下降。但她不能理解为什么明明是“手搓”的,还被判定为AI生成。
王同学称,她也使用了“书面用语转化口语表达”的办法来降低AIGC检测结果。答辩时,老师直接现场指出她论文中大白话过多,让她修改。
“一些比较书面的、有逻辑的长句表达会被判定为AI生成,不明白判定为AI生成的标准是什么?”在王同学看来,被平台判定为AI生成后,学生只能硬着头皮修改,连辩解的机会都没有,“现在的检测就像是黑箱操作,平台应该公开判定标准。”
对此,记者咨询了知网的在线客服。其回复称,AI生成文本特征有三个判断标准。一是内容空洞,言之无物,或同一个意思重复性地描述,上下文逻辑不清晰;二是通过专业人员鉴别,所描述内容是否符合专业描述规范或者习惯;三是二次生成对照,利用相关模型,按照文本内容含义二次生成,生成内容与论文内容相近。
另一免费第三方检测平台Paperpass此前曾专门发文介绍其AIGC检测机制,称其AIGC检测功能是对大量人类原创文本和AI生成文本进行了深度学习和对比分析构建,最终通过对用词、句式、文本逻辑等判断所检测文章是否为AI生成。
针对同一文章为何前后检测结果不同这个问题,上述知网客服称,技术在判断某段文本是否存在AI生成行为时,不仅仅根据这一段文本,还会参考文本的上下文,当文本的上下文修改后,也会影响对该段文本的认定。 同时,用户对论文内容进行修改、增加、删减等,不论从AI特征判断、还是字符数统计,均可能会引起AIGC检测结果发生变化。论文修改前后的两个版本,因为内容整体特征有变化,检测结果可能会有所差异,这是正常现象。
专家:需业内推动平台优化升级,打破“算法黑箱”
对于毕业生们的焦虑与困惑,北京邮电大学计算机学院(国家示范性软件学院)鄂海红教授接受极目新闻记者采访时介绍,当前,大家对AIGC检测结果有一定的误解,把这个结果所谓的“AI率”当成论文查重率来看待,实际上这是完全不同的两个概念,AIGC检测结果不能等同于查重率。查重率是“字面重复”,指论文中重复或引用其他文献内容的比例,查重结果相对明确,可以清晰呈现检测文本与相似文本的比对证据,误判率相对较低。通过查重率,可以清晰地看到,文章到底是作者自己撰写还是大面积抄袭他人。但AIGC的检测结果是文章段落疑似使用AI生成的概率,概率也就意味着结果的“不确定性”,即文章段落有一定概率是AI生成,同样也有一定概率是人工写出来的,与查重率这样客观、明确的重复文本匹配结果不同。因此,仅以AIGC检测结果“一刀切”作为答辩硬性限制标准是不科学的。她认为,应将AIGC检测报告作为参考,由导师据此决定学生是否能参与答辩。
不过,鄂海红也坦言,高校取消AIGC检测服务也不行,因为可能真的会有学生使用AI一键生成一篇论文。她认为,现在的AI应用正向着深度人机协同的方向发展,接下来的检测模型研发也应更加细化和精准。比如未来的AIGC检测报告需要指出哪些是人写的,哪些是AI写的,哪些是人写后AI润色的,哪些是AI写后人润色的,甚至是对不同的协同方式进行区分(扩写、缩写、改写等)。老师或者期刊编辑基于这份细化报告了解作者的学术贡献有多少,如AI写作部分是否已超出了作者本人独有观点的传递,还是作者仅使用AI进行了辅助润色?“这要求检测平台要能够出具一份更有决策价值的检测报告,即通过平台工具呈现出一篇文章中AI参与写作的程度和方式。”
她还提出,未来学位论文的授予应该是过程性的。即从开题到实验,学生的研究记录全程可追溯、可核查、可验证,导师对每一步都能掌握了解,也避免了学生论文全文用AI的可能。
针对目前各大检测平台的检测现状,鄂海红认为,目前的AIGC检测更多关注的还是文本,实际上,论文中的图像伪造、幻觉引用、数据造假等问题也特别值得警惕,而这是目前业界做的比较少的。她介绍,现在AI图片已经发展到肉眼难以辨别的程度。“没经过真正的实验,直接AI出了实验结果,对学术的打击更大。”在她看来,相较于AI技术本身,AI检测工具的研发是滞后的,希望通过各方力量的支持,把对图像识别、引用溯源、数据核验等检测能力的研究转化成普适服务。在发展AI行业的同时,也建起监督AI使用的护城河。
此外,对学生们所吐槽的检测存在的问题,鄂海红解释,由于不同的检测平台所使用的训练模型、设定的判定阈值不同,可能导致不同平台检测出来的AIGC检测结果不同。受算法等限制,这些检测模型的可解释性普遍比较薄弱,“所以也需要业内专家去推动平台优化升级,提升检测结果的可解释性,打破算法黑箱。”
