PDF文档内容处理方法、装置、设备、存储介质及程序产品

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
PDF文档内容处理方法、装置、设备、存储介质及程序产品
申请号:CN202511468366
申请日期:2025-10-15
公开号:CN120930593B
公开日期:2025-12-26
类型:发明专利
摘要
本申请公开了一种PDF文档内容处理方法、装置、设备、存储介质及程序产品,涉及文档结构化处理技术领域,方法包括:获取PDF文档;对PDF文档进行预处理,获得与PDF文档的各个页面所对应的待处理数据集;基于所有待处理数据集和PDF文档各页面的图像,确定PDF文档各页面的页面类型;基于各目录页对应的待处理数据集和目录页的图像,提取目录页中各标题数据的层级结构关系,构建目录树。基于目录页的标题数据和非目录页的标题数据之间的语义相似度和文本相似度,对目录页的标题数据和非目录页的标题数据进行匹配,根据匹配结果,将内容数据对应填充至目录树的各标题节点下,获得PDF文档的结构化表示结果。本申请提升了PDF文档的语义还原度和结构化质量。
技术关键词
目录 数据 页面 序列 层级 语义 计算机程序产品 图像 文本 列表 节点 处理器 关系 匹配模块 标记 可读存储介质 视觉 存储器 密度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号