新闻详情

10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节

1024是2的十次方,也是二进制计数的根本计量单位之一,每年的10月24日因而成为了我国程序员的盛会。近期,CSDN(我国开发者网络)第三届“1024程序员节”(简称“大会”)顺畅举行,来自Linaro等开源安排的领导者和微软、腾讯、华为、合合信息等企业的技能专家连续登陆主论坛重磅活动《整体大会:2022技能英豪会》,与观众云端话科技。

出产日子中,被规整记录在二维表结构里的“结构化”数据仅仅少量。据世界数据公司(IDC)猜测,全球非结构化数据将在2025年占有数据总量的80%至90%。智能文档处理技能可以对各种文件、图片中的非结构化数据进行内容辨认和抽取,对推动企业数字化转型含义严重。

怎样从数据中发现更多的价值,找到更有用的开发工具,是程序员集体要点重视的论题。合合信息智能立异事业部总经理唐琪受邀同享智能文档处理的技能优化办法及开源途径介绍,获得了很多开发者的认可。

“智能文档处理”在开发者集体中热度攀升(图源:CSDN官网)

文档处理之困:辨认文字还不行,版式了解是根底

智能文档处理技能本质上是把文档里的信息从载体中剥离出来,将其对接到其他体系,以数据的流通完结流程主动化的技能。典型场景如单据的主动审阅,便是先对单据进行图画检测,从中提取所需信息并录入到体系里,经过结构化处理,“翻译”成机器能了解的内容后再进行主动判别,到达节约人工本钱、进步作业效率的意图。

唐琪在同享中指出,收集设备的不确定性和文档版式的多样性,导致文档在处理过程中常常遇到“看不清、看禁绝、认不全、难了解”四大类问题。合合信息在曲折纠正、去摩尔纹(屏幕纹)等图画质量增强范畴进行了深入研究,为信息的提取、存储、检索、办理等后续作业发明杰出的环境。

合合信息去摩尔纹(屏幕纹)技能处理作用

“在各种场景的实践中咱们发现,单纯的文字辨认不足以支撑更详尽的文档处理需求,版面元素剖析才是根底。”唐琪说到,文档处理过程中要要点重视对印章、logo、水印、页眉、二维码、公式等元素的检测,依据检测成果采纳对应的版式剖析方法,可得到更精准的辨认成果。

合合信息对智能文档处理的要害要素的考虑

怎么让现已接受过商场查验的技能产品惠及更多的开发者?技能服务的同享是促进科技立异的重要途径。合合信息将在制造业、金融业、物流业等30个职业运用里打磨出的核心技能产品“智能文字辨认服务渠道”(简称“渠道”)以SaaS的方式免费敞开给个人开发者,助力运用者们低本钱、高效率获取贴合个性化需求的定制模型。

合合信息开源渠道:10分钟完结模型构建,10张样本即可做练习

受长途作业趋势开展和环保“无纸化”倡议的影响,社会对智能文档处理技能的需求不断添加。合合信息智能文档处理技能可支撑全球超越50种干流言语的印刷体、手写体的高精度辨认,以及增值税发票、租借车票等20多种收据的辨认,这些通用辨认、信息抽取才能被搭载于合合信息智能文字辨认服务渠道SaaS版中,并于大会上敞开试用。

该渠道供给了海量练习数据快速生成、主动化模型生成、完好的模型练习和测验等功能,具有低运用门槛、所需样本少、开发周期短的优势,运用者经过云端的简略操作,即可定制提取规范和非规范版式文档的结构化信息,仅需10张样本就可以开端练习。

合合信息智能文字辨认服务渠道作业流程

现阶段,企业关于OCR的需求趋向于定制化和多样化,却为昂扬的开发本钱所限,渠道可为中小企业的数字化转型供给助力。比起传统的技能计划,企业更期望被赋予人工智能产品开发才能,去建立根据自有事务场景的辨认模型。在渠道上,企业可经过简略的装备快速产出结构化辨认模型,无需服务器资源与运维投入便可获取技能支撑,下降开发、布置与运维环节中的门槛。

据悉,实测中运用人员最短可在10分钟内完结抽取模型开发全流程,可视化界面设计让没有算法根底的事务人员也可顺畅运用。

返回资讯列表