颜色分类leetcode pdffigures2:给定学术PDF,提取数字、表格、标题和章节标题
颜色分类leetcode PDFFigures 2.0是一个基于Scala的项目,从学术文档中提取图形、标题、表格和章节标题,重点关注计算机科学领域的文档。输入和输出PDFFigures 2.0将PDF格式的学术文档作为输入。它的输出将是一个“图形”对象列表,对于每个图形,我们已经确定:
-
图形出现的页面(基于0)。
-
图形的边界框,以像素坐标形式给出,其中(0,0)是PDF裁剪框的左上角。
-
图中出现的文本。
-
图的标题及标题的边界框。
-
推断出的图形名称,通常是一个数字(如“Figure 1”)或其他形式,取决于解析的PDF。
-
图形是否为表格或图形,基于标题判断。
PDFFigures 2支持将提取的图形图像保存为光栅化图像。支持保存为png、jpeg等格式图像。