发布日期 2020-10-16

机器检测文章抄袭的局限性

原标题:机器检测文章抄袭的局限性

自媒体大发展,很多作者都开始在自媒体平台写文章,但是面临的一个大问题就是抄袭。很多自媒体作者的原创文章被抄袭,举报无门,维权无果,很让人气愤。但是,随着科技的发展,很多自媒体网站都推出维权项目,维护自媒体原创作者的权益。只是,这种机器检测抄袭的现象仍然有着这样那样的局限性,不尽如人意。

汉语知识非常多,单就语法来说就够人学好几年的了。作者写文章就是遵循汉语语法把汉字们排列起来,表情达意。但是,自媒体文章已经出现海量增长,难免会出现抄袭现象。或者说,自媒体文章的抄袭现象已经非常严重,而机器对关键字进行检索,也只是对关键字进行了筛选和比对,虽然能挑出一部分抄袭文章,但是不能全部挑拣出来。只要抄袭者进行了洗稿,在原创作品的基础上修改了语法,就很难被识别出来。更何况还有机器洗稿的软件,可以对现有的小说进行洗稿操作,日产几万字,轻松过关。这个过程都是机器操作的结果,没有费什么人工力气,更不会让人绞尽脑汁去思考了。只要抄袭者选定几部小说的文稿,然后一键洗稿,就可以日产几万字的网络小说了,还能连载,岂不是稀奇?

机器洗稿,机器审核,都是机器来做事,控制机器的是人写的代码,那就看谁的编程技术高明了。如果检测相似度的机器融合了人工智能,不断升级,就能检测出机器洗的稿件,如果不思进取,网站也舍不得花钱,检测相似性的机器就检测不出机器洗了的稿件。也就是说,机器检测文章是否抄袭并非那么可靠,而是有大大的局限性的。

同一篇文章,只要是变换了语法风格,意思不变,机器就检测不出是否抄袭了。更高级的洗稿机器洗出的稿件也不能被普通机器检测出来,索性,自媒体网站在检测是否抄袭的时候,引用了大数据比对,比较精准,但是对于那些洗稿操作还是不能有效禁止,只能禁止整篇都抄袭原版文章的稿件,和大量引用原版文章的稿件,就这一点进步,也算是很伟大的进步了。

希望今后自媒体网站会检测出更多的洗稿行为,还原创作者一片无忧的领地。

聚合阅读