日前,自然语言处理领域著名学者、斯坦福大学教授Christopher D. Manning题为《Human Language Understanding & Reasoning》论文于美国人文与科学学院(AAAS)期刊《人工智能与社会》特刊发表,再次将预训练大模型推上人工智能领域的“热搜位”。
然而,基于大规模数据训练产生的预训练语言模型提供通用语言理解和生成基础的应用,在许多行业并不适用。如广大机关和企事业单位的实际工作中,待处理的大量素材是以文本为主体的非结构化数据,所含的信息量也最大,但鉴于数据常具敏感、涉密属性,对信息安全有着较高乃至极高要求,所以需要大样本标注、训练数据的技术并不适合。
以档案工作为例,因新《档案法》施行和各地“十四五”档案事业发展规划纷纷出台而普遍面临如期完成馆藏档案开放审核任务的各级档案馆,亟需采用技术成熟的智能化辅助手段,高效、低成本“消化”待鉴定档案存量。不单是需要档案馆提供大量原件为学习样本训练的神经网络技术难以满足档案馆开放审核工作的需求,曾被广泛采用的人力外包、关键词库辅助开放审核方式也有其难以适应现状的缺陷。开放审核工作人力外包,鉴定效率、正确率取决于人工经验,难以及时应对理解规则的变换,且多需档案馆提供独立保密场所作为办公地。在局部疫情反复的当下,因多人现场集中作业的特性,随时可能受防疫政策升级的影响,难以为继。而基于关键词NLP技术,因“有词无义”导致的误判和“有义无词”导致的漏判常致使结果失真,实际应用效果不佳,也无法满足准确、迅速、高效辅助分析、判断文本的刚需。
被称为“强人工智能”的认知智能,则可赋予计算机如同人类一般自主思考和学习的能力。利用认知智能“语义工程”为机器“加成”的自然语言理解能力,能够实现以档案智能开放审核为代表的档案智能化应用。5月5日,联著档案智能开放审核系统“登陆”《中国档案报》。系统利用自主研发的中文语义工程技术(专利号:ZL201410227079.1),自带OCR全文检测和高效能开放审核语义知识库,无须档案馆提供档案原件为学习样本训练,可实现待开放审核档案的机器批量自动检测,与人工鉴定相较大幅度提升工作效率,助力档案馆高效、低成本如期完成馆藏档案开放任务。
人工智能技术网 倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。!:首页 > 新闻 » “零样本”文本智能助力档案开放审核