颜色分类leetcode pdffigures2:给定学术PDF,提取数字、表格、标题和章节标题

okdesign 2 0 zip 2024-10-06 07:10:52

颜色分类leetcode PDFFigures 2.0是一个基于Scala的项目,从学术文档中提取图形、标题、表格和章节标题,重点关注计算机科学领域的文档。输入和输出PDFFigures 2.0将PDF格式的学术文档作为输入。它的输出将是一个“图形”对象列表,对于每个图形,我们已经确定:

  1. 图形出现的页面(基于0)。

  2. 图形的边界框,以像素坐标形式给出,其中(0,0)是PDF裁剪框的左上角。

  3. 图中出现的文本

  4. 图的标题及标题的边界框。

  5. 推断出的图形名称,通常是一个数字(如“Figure 1”)或其他形式,取决于解析的PDF。

  6. 图形是否为表格或图形,基于标题判断。

PDFFigures 2支持将提取的图形图像保存为光栅化图像。支持保存为png、jpeg等格式图像。

用户评论
请输入评论内容
评分:
暂无评论