IDM中文官网
IDM 教程搜索
IDM 教程搜索
IDM中文网站 > 入门教程 > 如何利用IDM爬取论文集

服务中心

Internet Download Manager

简体中文版

免费下载

海量素材模板

资源分享群

点击加入
热门推荐
最新资讯

如何利用IDM爬取论文集

发布时间:2020-04-28 17: 02: 09

Internet Download Manager(简称IDM)是一款能和多个浏览器相互补充的强大的下载工具,抓取视频,极速下载等功能都不在话下。但小编最近由于学习的需求,有一个其他的需求,就是要爬一下某些会议的论文集,但和那些so easy的网络爬虫不同的是,小编还需要对提取出的数据进行过滤,这就大大加大了工作量。但没关系,利用IDM,这个问题就能解决。

第一步:点击IDM下载器的站点抓取,填入文件网址,并按照你自己的要求方案模板(这个就根据你自己所要下载的文件类型来选择就可以啦,小编想下载的是这网页上所有的pdf文件)。

图1:抓取站点设置

第二步:选择文件所存储的目录,默认的是按分类分别下载(如果你需要爬虫的数据不是很多,其实可以将所有数据保存到同一目录中)。

图2:文件保存方式设置

第三步:设置探索器。这步有一个决定爬虫时间的很重要的选项-选择你要探索的链接深度。拿自己的链接举例,小编需要的pdf最多只需要跳转两次链接就可以下载,因此只需要探索深度为2的链接就足够啦。大家可以根据自己的需求来设置。

图3:设置探索器

第四步:设置文件过滤器。过滤器功能出现啦!由于小编需要爬的是论文都是pdf形式的,因此只需要设置过滤器为pdf类型的文件就可以了。大家可以根据自己的需要自行选择!

如果已有的IDM的过滤器无法满足要求的话可以选择添加过滤器—添加来自定义的创建所需要的过滤内容。

图4:设置过滤器

第五步:开始爬虫啦,简直美滋滋!

图5:论文抓取界面

最后给大家看一个完成效果吧,爬好的论文都在所选取的文件夹中啦,非常方便快捷。

图6:完成效果图

小编自己的感受是IDM是非常容易上手的下载软件,利用这款软件可以高速并行的下载论文合集,再也不用一篇一篇的手动下载了,这简直是广大学生党的福音!想了解更多IDM的使用技巧,欢迎访问IDM中文网站

展开阅读全文

标签:IDM站点抓取IDM下载文件抓取失败

读者也访问过这里: