My NodeJS Crawler:My NodeJS Crawler,第一个爬虫演示
项目名称:tufencrawler(土粉网爬虫程序) mysql数据库名称:tufen_crawler CREATE SCHEMA tufen_crawler CREATE TABLE tufen_crawler.topic ( id INT NOT NULL, author VARCHAR(45) NULL, date VARCHAR(45) NULL, content VARCHAR(45) NULL, PRIMARY KEY (id));原始网页地址:正则表达式匹配规则: var url = '' var s = url.match(/post-enterprise-(d+)-(d).shtml/) console.log(s[2]); var content = $('.atl-content bbs-content').html().trim();主要思路:提取内容,
文件列表
My_NodeJS_Crawler:My_NodeJS_Crawler,第一个爬虫演示
(预估有个800文件)
demo.html
1KB
demo.css
580B
tree.html
2KB
tree.css
912B
index.html
13KB
connectlists.html
1KB
.gitignore
22B
.dir-locals.el
178B
ctio.3ctype
8KB
jsl.conf
6KB
暂无评论