专利分析目标是一个对公开可用的专利数据进行出色分析的项目。它目前输出1970年代不存在的当今最流行词的词云,以及总结1976年至今这些词的趋势的csv。运行此项目时,请使用python GetWordCountsOfPatentCorpus.py脚本,该脚本从1976年至今每周生成词频词典。作为中间步骤,它会从谷歌下载文件,解压缩并提取文本部分(使用文件名检测格式)。在获取单词计数时,不会进行词干处理(即,“浏览器”与“浏览器”视作不同的单词),但会小写并忽略非字母标记。在具有云级互联网连接的四核机器上,运行大约需要90分钟。该过程非常冗长,但只占用与最终字典相同的磁盘空间(约1 GB)。接下来,生成词云数据以输入wordle,并运行python AnalyzePatent以生成一些趋势数据。