项目简介
本软件主要功能是版面对象(文字、表格、公式、图形等)的自动识别,包括版面分割、样式识别、表格识别、公式识别、图形解析、文字识别与元数据抽取等。可用于数字内容制作(如点读书热区检测)、文件格式转换(如PDF到EPub)、表单识别与金融文档处理、数学公式识别与结构化拷贝、题库构建与试题检索、漫画制作与检索等。目前支持图像、PS、PDF、Word、EPub、网页等文件格式,支持图书、论文、证券研究报告、试题、表单类数据等。
应用范围
本产品可应用于数字出版、金融科技、电子书、题库、在线教育、咨询、动漫等领域的内容加工与信息挖掘。
项目阶段
有关方法和软件已经开发近15年,不断进行更新,并已在多个行业与公司实际应用。
知识产权
已在人工智能、模式识别、知识工程、信息检索等领域发表论文60余篇,授权专利18项,软件著作权7项。
合作方式
1.用户可定制的软件;
2. 提供核心算法SDK或者API;
3. 云平台直接提供服务。
联系方式
邮箱:kjkfb@pku.edu.cn