在本指南中,我们将介绍如何使用Python脚本从PDF文档中提取各种IOC(Indicators of Compromise)。该脚本利用PDFMiner解压缩流,尝试识别和提取IP、哈希、URL及主机名等信息,以下是详细步骤:

  1. 安装依赖项

首先,您需要安装dnspythonpdfminer库。可以使用以下命令:

```bash

pip install dnspython pdfminer

```

  1. 更新TLD列表

为确保完整识别各类URL,我们还需要一个最新的顶级域名(TLD)列表。打开Python解释器并输入以下命令来更新:

```python

import uniaccept

uniaccept.refreshtlddb(\"/tmp/tld-list.txt\")

```

注意:可以根据需要调整/tmp/tld-list.txt文件的位置。scrape-pdf.py脚本会在当前工作目录(CWD)中查找此文件。

  1. 运行脚本

确认所有依赖已正确安装,更新后的TLD文件也位于指定路径,即可运行scrape-pdf.py脚本提取指定IOC信息。

关键功能:通过PDFMiner解压缩流、获取最新TLD列表、提取IP/哈希/URL/主机名等。

示例脚本运行后,您将获得一个包含所有IOC信息的汇总报告,方便进一步分析和处理。