使用Python从PDF提取IOC的脚本指南

Python脚本

qqask35325 3 0 zip 2024-10-26 18:10:30

在本指南中，我们将介绍如何使用Python脚本从PDF文档中提取各种IOC（Indicators of Compromise）。该脚本利用PDFMiner解压缩流，尝试识别和提取IP、哈希、URL及主机名等信息，以下是详细步骤：

安装依赖项

首先，您需要安装dnspython和pdfminer库。可以使用以下命令：

```bash

pip install dnspython pdfminer

```

更新TLD列表

为确保完整识别各类URL，我们还需要一个最新的顶级域名（TLD）列表。打开Python解释器并输入以下命令来更新：

```python

import uniaccept

uniaccept.refreshtlddb(\"/tmp/tld-list.txt\")

```

注意：可以根据需要调整/tmp/tld-list.txt文件的位置。scrape-pdf.py脚本会在当前工作目录（CWD）中查找此文件。

运行脚本

确认所有依赖已正确安装，更新后的TLD文件也位于指定路径，即可运行scrape-pdf.py脚本提取指定IOC信息。

关键功能：通过PDFMiner解压缩流、获取最新TLD列表、提取IP/哈希/URL/主机名等。

示例脚本运行后，您将获得一个包含所有IOC信息的汇总报告，方便进一步分析和处理。

文件列表

scrape_pdf-master.zip (预估有个2文件)

scrape_pdf-master

scrape_pdf.py 3KB

README.md 607B

用户评论

暂无评论

Python自然语言处理从文本提取信息

回答下列问题: (1)如何能构建一个系统,以至从非结构化文本中提取结构化数据? (2)有哪些稳健的方法识别一个文本描述的实体和关系? (3)哪些语料库适合这项工作,如何使用它们来训练和评估

15 2021-02-01
利用Python从Excel中提取中文字符

使用Python可以轻松地提取Excel表格中的中文字符，以下是实现的具体步骤：1.使用pandas包读取Excel表格中的数据2.使用正则表达式匹配出中文字符并保存下来3.将提取出的中文字符保存成一

7 2023-04-20
使用GIS ArcMap从tif栅格图层提取数据

使用GISArcMap从tif栅格图层提取数据信息

34 2019-09-10
从PFC提取的用户对象

一些从PFC提取的用户对象，希望对大家有帮助

29 2019-07-05
与模型无关的提取从

我们使用独立于重夸克对称性的方法,将来自Belle实验的B ̄0→D⁎+ lν ̅的展开数据拟合,其中l≡e,μ外推至零反冲并提取| Vcb |的值。这导致| Vcb | =(41.9-1.9 +

17 2020-08-11
Python从Amazon抽取商品信息的Python3脚本

从Amazon抽取商品信息的Python3脚本

27 2020-05-22
Python编程从入门到实践练手小脚本

学习python时的练手小脚本，来源自的第二章节变量与简单数据类型,内有自己写的一点小注释,编译器用的是python.3.7.

37 2019-01-09
高级Bash脚本编程指南.pdf

shell 是如此地重要,但令人惊奇的是,介绍shell 的书没有真正令人满意的。所幸的是,我看到了这本被人称为abs 的书,这本书介绍了bash 大量的细节和广阔的范围,我遇到的绝大部分的技术问题

9 2020-12-20
shell脚本学习指南pdf

shell脚本学习指南电子书,学习shell脚本语言的经典书籍,很好的介绍了shell脚本的开发

24 2020-12-20
高级Bash脚本编程指南pdf

英文名为AdvancedBash-ScriptingGuide，此为中文PDF。内容非常丰富，由浅入深。当然还是有一点linux的基础看此书比较好，一些最简单的操作，比如cp，mv，grep命令，再去

14 2020-03-03

使用Python从PDF提取IOC的脚本指南

文件列表

用户评论

推荐下载