登录/注册
您当前的位置:成果库 > 基于深度学习与知识图谱的智能电子档案管理系统

基于深度学习与知识图谱的智能电子档案管理系统

10312021/12/21
基本信息
  • 成果类型 高等院校
  • 委托机构 西安电子科技大学
  • 成果持有方 西安电子科技大学
  • 行业领域 计算机应用技术
  • 项目名称 基于深度学习与知识图谱的智能电子档案管理系统
  • 知识产权 软件著作权
  • 项目简介 (一)项目背景

    电子档案管理是指通过扫描、拍照等手段将传统纸质文书档案、科技档案、人事档案、财务报表票据、试卷等转换成电子档案,建立电子档案数据库,以方便用户通过电脑、手机等终端的查询和借阅,实现对档案资源的科学、规范和有效的管理。
    当前,虽然通过(高速)扫描仪、高拍仪、相机等设备可以迅速完成纸质档案影像化采集,但档案影像资料的分类、关键字提取、摘要等工作仍然需要人工完成。这不仅耗费大量的人力和时间,而且容易出现错误, 质量难以保证。随着信息资源数字化、网络化的进程进一步加快,海量档案资料自动分类、自动摘要、自动关键字提取等智能化要求越来越迫切。

    (二)项目简介

    电子档案管理系统是企事业单位的档案现代化管理的重要技术手段。当前电子档案影像资料的分类、关键信息提取、摘要等工作仍然需要人工完成。随着信息资源数字化、网络化的进程进一步加快,海量档案资料自动分类、自动摘要、自动关键字提取等智能化要求越来越迫切。
    本项目研究基于知识图谱与深度学习的电子档案智能管理技术,通过对(高速)扫描仪或相机获取的档案影像进行 OCR 识别,运用自然语言处理技术实现档案影像自动分类、自动摘要和自动关键信息提取,从而大大减轻档案管理人员的劳动强度,提高档案资料影像化采集的质量和效率。
    近年来,文本自动分类、自动摘要、自动关键字提取等自然语言处理技术取得了长足发展,但将 NLP 与OCR 技术相结合进行电子档案自动分类, 国内外罕有团队研究。特别是融合了智能检错纠错技术的电子档案自动分类技术的电子档案智能管理系统,国内外尚没有同类产品。

    (三)关键技术

    1.基于预训练词向量和允许字符集的OCR   识别结果检错与纠错技术由于种种原因,OCR 识别结果往往存在识别错误。这些错误的文本如果不预先进行纠错,将会影响分类器的训练的效果和文本分类的精度。本项目利用CBOW 原理,通过将待检词序列中的异常词代入预训练 CBOW 模型,获得异常词位置的最大概率候选词,用该候选词替换异常词,从而实现文本纠错。在此基础上,根据 OCR 识别结果,结合额外的有用信息,尽可能的对识别结果进行纠错,进一步提高识别准确率减少人工校对的工作量。

    2.基于深度学习的文本自动分类技术

    对档案图像中的文本进行识别,对识别结果文本集合中的文本进行特征提取,形成文本特征向量集合,以文本特征向量集合为输入,对应的类别为输出,训练基于深度神经网络文本分类器,对档案进行自动分类。

    3.基于知识图谱的电子档案多级分类技术
    根据特定领域内的文本分类信息构建知识图谱本体,基于本体构建多级类别模型,利用分类器提取OCR 软件识别结果的类别,从而实现OCR 识别结果的自动多级分类。
项目咨询
查看更多咨询
交易信息
  • 意向交易额 面议
  • 挂牌时间 2022/12/21
  • 委托机构 西安电子科技大学
  • 联系人姓名 苏老师
  • 联系人电话 13991958837
  • 联系人邮箱 51978575@qq.com
  • 分享至:

产学研交流:15802954800

地址:中国·西安 太白南路2号 西安电子科技大学 邮编:710071 电话&传真:029-88202821

版权所有:西安电子科技大学工程技术研究院有限公司