欢迎来到神奇下载!我们唯一域名是:www.sqxzz.com

ScrapydWeb 官方版 v1.4.0

更新时间:2022-06-12 21:19:43

软件介绍

ScrapydWeb提供web抓取项目管理功能,可以在软件上添加多个地址执行抓取,可以在软件运行蜘蛛对网络采集,采集服务全部在软件上显示,您可以添加新的Scrapyd 项目到软件上分析,实现集群管理模式,方便对多个web项目抓取,抓取全部在软件显示,可以查看列表项目,可以查看志内容,可以通过可视化的界面查看志数据,可以结合统计表分析采集数据,可以建立分布式方案执行抓取任务,可以在Heku上Scrapyd设置集群,可以在web界面管理你的任务,结合定时功能可以在任意时间段运行蜘蛛执行抓取任务!

ScrapydWeb软件功能

一、Scrapyd集群管理

支持所有Scrapyd ON API

分组,过滤和选择任意数量的节点

只需单击几下即可在多节点上执行命令

二、Scrapy志分析

统计资料收集

进度可视化

志分类

三、增强功能

自动打包项目

与整合 LogParser

计时器任务

监控和警报

行动使用者介面

Web UI的基本身份验证

ScrapydWeb软件特色

支持定时任务计划定期运行蜘蛛程序

在数据库中坚持工作

适应于LogParser v0.8.1,如果可用,请在“统计”页面中显示Crawler.stats和Crawler.engine。

支持备份stats json文件,以防Scrapyd删除原始志文件

支持分别设置EMAIL_USERNAME (问题28)

为“作业,志和项目”页面引入新的UI

在“部署项目并运行Spider”页面中添加“从同步”页面复选框

将“概述”重命名为“”,将“仪表板”重命名为“作业”

ScrapydWeb教程

如何简单高效地部署和监控分布式爬虫项目

安装与设定

1、确保已在所有主机上安装并启动了Scrapyd。请注意,如果要远程访问Scrapyd,则必须手动将bind_address设置为,bind_address = 0.0.0.0重新启动Scrapyd,以使其在外部可见。

2、通过命令在您的主机之一上安装ScrapydWebpip install scrapydweb。

3、通过命令启动ScrapydWebscrapydweb。(将在第一次启动时生成一个配置文件以自定义设置。)

4、启用HTTP基本身份验证(可选)。

5、添加您的Scrapyd,支持字符串和元组格式,您可以附加用于访问Scrapyd的基本身份验证,以及用于分组或标记的字符串。

6、通过命令重新启动ScrapydWebscrapydweb。

访问网页界面

访问http://127.0.0.1:5000,使用上面的USERNAME / PWORD登录。

页面将自动显示所有Scrapyd的工作状态。

您可以通过分组和过滤来选择任意数量的Scrapyd,只需单击几下即可在群集上调用Scrapyd的HTTP ON API。

与LogParser集成后,“作业”页面可以自动显示您的抓取作业的页面和项目。

默认情况下,ScrapydWeb会定期创建您的抓取作业的快照并将其保存在数据库中,以避免在重新启动Scrapyd时丢失作业。(第12期)

部署项目

在将SCRAPY_PROJECTS_DIR选项设置为包含Scrapy项目的路径之后,ScrapydWeb将列出该目录中的所有项目,并选择最新修改的项目。只需选择一个项目并按按钮即可提交,在后台自动打包。

如果ScrapydWeb在远程上运行时正在本地开发Scrapy项目怎么办?除了上传egg文件,您还可以使用存档软件或通过tar命令将项目文件夹压缩为存档文件tar -czvf pjectname.tar.gz /home/username/mypjects/pjectname,上传。

您可以选择任意数量的Scrapyd来部署项目。

运行蜘蛛

依次从下拉框中选择一个项目,一个版本和一个Spider。

可以随意传递任何Scrapy设置或Spider参数。

支持基于APScheduler创建计时器任务。(如果要同时启动多个蜘蛛,请不要忘记调整Scrapyd的max-pc选项)

您可以选择任意数量的Scrapyd来运行蜘蛛。

志分析和可视化

如果在同一台计算机上运行Scrapyd和ScrapydWeb,建议设置SCRAPYD_LOGS_DIR和ENABLE_LOARSER选项,以便LogParser与ScrapydWeb一起自动启动。该LOARSER的子进程将在分析和定期增量指定目录Scrapy志文件,从而加快统计页的加载不消耗内存和带宽因请求原始志文件。

同样,在其余主机上安装并运行LogParser。

如果您使用的是Scrapy 1.5.1和更早版本,则LogParser可以通过Scrapy的内置telnet控制台收集Crawler.stats和Crawler.engine 。

计时器任务

任务的参数及其执行结果。

可以自由地暂停,继续,触发,停止,编辑和删除任务。

电邮

通过在询子过程中定期访问“统计”页面,ScrapydWeb可以在满足特定条件时您,并发送包含当前作业统计的电子邮件。

1、设置您的电子邮件帐户:

2、设置电子邮件工作时间和基本触发条件:

上面的设置意味着当当前时间满足工作的9点,12点和17点时,将每小时发送一次电子邮件。这也适用于工作完成的情况。

3、除了上面的基本触发器之外,ScrapydWeb 还提供了多种触发器来处理特定类型的志,包括'CRITICAL','ERROR','WARNING','REDIRECT','RETRY'和'IORE'。

上面的设置意味着,如果在Scrapy志中找到三个或更多关键志,ScrapydWeb将自动停止当前的抓取作业。如果满足电子邮件工作时间的条件,则会发送一封电子邮件。

移动UI界面

近期热门

1
Free Disney Plus Download提供网页下载功能,将地址粘贴到软件就可以直接下载,如果你在浏 […]
2
postman windows是postman这款强大网页调试工具的windows客户端,提供功能强大的 We […]
3
TapinRadio Pro(全球电台收音机)免费下载是网络软件分类电脑软件,神奇下载小编接下来不仅仅给各位带 […]
4
WebDav小秘提供文件共享功能,可以将本地的文件夹设置共享,让企业团队成员可以访问你的电脑文件夹,这款软件作 […]
5
CIM是一款聊天软件,将其部署就可以和自己的朋友聊天,可以在软件查看在线的全部用户,获取对方的ID就可以直接聊 […]
6
华为浏览器可以让用户正常进入网页查看喜欢的资讯,大家都知道在网上查找资源都是通过浏览器执行的,浏览器的功能非常 […]
7
iVMS-4200是一款监控软件ivms4200的电脑客户端,ivms4200专为嵌入式例络监控设备开发,支持 […]
8
Chme浏览器便携增强版是一款基于版本制作的便携增强版本,这款增强版的谷歌浏览器不会和其它版本冲突,不想用了可 […]
9
租号玩商户软件是一款非常受欢迎的租号管理软件,租号玩商户软件版界面美观大方,功能强劲实用,商家可以通过此软件对 […]
10
少爷蓝奏云直解析是一款由吾爱破解论坛网友分享提供的一款蓝奏云解析下载工具,能一键提取蓝奏云的外链和直链,右键即 […]

声明:本站所有软件和文章来自互联网 如有异议 请与本站联系 本站为非赢利性网站 不接受任何赞助 转载需标注!

Copyright © 2018-2023 All Rights Reserved. 神奇下载网站备案编号:苏ICP备12036411号

抵制不良游戏软件,拒绝盗版。 注意自我保护,谨防受骗上当。 适度娱乐益脑,沉迷伤身。合理安排时间,享受健康生活。

共 22 次查询,耗时 0.951 秒