八爪鱼数据采集器的内置功能有哪些

一体簇的大小是一体吸,即使同一组聚集了太多的工夫来提交,4拥塞引起的云普赖尔等级资源
即使多个用户共享一体云团的资源。1,请注意,下列判别将导致再审。
7)结果页URL包含
即使某个特定的字符串总是出如今出现的页URL中,比如,当找不到网页时,它通常会出现。,此选择用于确定预期页未翻开。,必要再试一次
8)结果页文本包含
即使某个特定字符串总是出如今出现的页文本中,比如,要求的频率太快,此选择用于确定预期页未翻开。,必要再试一次
9)网页文本不包含
即使你翻开一体网页,会有一体特殊的字符串,但该字符串必须不出现时,它是不能常态翻开,你可以判别法官缺勤翻开预期的页,必要再试一次
10)最大重试次数
废止不受限制的重复尝试,请运用此选择来限制最大重复次数,即使重试达到最大允许次数,缺勤成功,这个快跑会中止重试,继续开展下一步
11)重试间隔
等到两重试工夫,一般情况下,在网页上翻开错误时,立即重试可能会犯同样的错误,适当的希望可以翻开预期的,但应放量废止希望工夫太长。,因这会触觉采集的事业。
 单击元素
这一步处决鼠标左键点击动作在装设元素在T,比如,单击按钮,点击超链接。。
1)运用当前的圈子项

联合传阅运用的走,在重复点击圈子设置多个元素,适用于固定单元素传阅,环固定元素列表,传阅变量元素列表。
即使检查此项,不必要设置单击元素,要单击的元素不自觉动作显示当前传阅项集B。,运用此选择时,它一定是一体分步传阅的走,但它不一定是宁愿体子元素。。
2) 新紧跟页中翻开

果单击元素时希望在新的紧跟页中翻开,而不是翻开当前页,请检查此选择。
一般情况下,当必要传阅翻开页上的多个超链接时,您必要检查此选择以保存列表页。,单击列表页上的下一体超链接;但即使是圆形点击下一页,
不要选中此选择,翻开当前页的下一页。
3) 滚到底
个别网页在整枝法结尾后并缺勤显示所有唱片,您必要滚动鼠标滚轮或拖动页滚动条到底部。,不整枝法未显示的唱片,运用此选择在页整枝法结尾后滚到底
4) 异步整枝法唱片
异步整枝法也称为ajax。,这是一种可以在不重新整枝法Web页的情况下刷新本地唱片的技术。,所以这个快跑不能检测页整枝法的结尾。,决定何时处决下一步是不可能的。, 运用此选择,在希望设置提姆之后,默许唱片已经整枝法。,继续后续的流程走。此选择必要与异步整枝法超时地一起运用。
5) 异步整枝法超时地
希望异步整枝法结尾工夫,在单击元素之后,这个快跑将启动工夫,超时地到来,一体顺序的处决。此选择必要运用异步整枝法,当这个选择通常是用,可以选中翻开一体新紧跟
6) 重试激活
即使页不符合预期的翻开页,显示满足必要错误,比如(500),要求频率太快,等。,左右跳到其它常态处决不一定出如今页,这个选择可以重试这个选择,但必须用以下重试参数处决,请注意,下列判别将导致再审。
7) 结果页URL包含
即使某个特定的字符串总是出如今出现的页URL中,比如,当找不到网页时,它通常会出现。,此选择用于确定预期页未翻开。,必要再试一次
8) 结果页文本包含
即使某个特定字符串总是出如今出现的页文本中,比如,要求的频率太快,此选择用于确定预期页未翻开。,必要再试一次
9) 结果页文本不包含
即使你翻开一体网页,会有一体特殊的字符串,但该字符串必须不出现时,它是不能常态翻开,你可以判别法官缺勤翻开预期的页,必要再试一次
10) 最大重试次数
废止不受限制的重复尝试,请运用此选择来限制最大重复次数,即使重试达到最大允许次数,缺勤成功,这个快跑会中止重试,继续开展下一步
11) 重试间隔
等到两重试工夫,一般情况下,在网页上翻开错误时,立即重试可能会犯同样的错误,适当的希望可以翻开预期的,但应放量废止希望工夫太长。,因这会触觉采集的事业。
 输出文本
此走是在输出框中输出装设的文本。,比如,输出搜索关键字,输出认为等。
将设置的文本输出到Web页说话中肯某个输出框中。,运用搜索引擎时输出关键字。
 提取唱片
此走基于提取的唱片模板的配置。,从网页中提取唱片,它还可以配置为提取URL。,网页标题,或生成一些唱片,如当前工夫等。。
1) 抓住模板
此走基于提取的唱片模板的配置。,从网页中提取唱片,它还可以配置为提取URL。,网页标题,或生成一些唱片,如当前工夫等。。
2) 名字
为捕获的唱片字段取一体别名。,譬如新闻标题,新闻正文
3) 提取到的唱片
从网页中提取的唱片,列中捕获的示例将在列中显示。
4) 描绘
关于这个唱片字段的一些描绘物
5) 运用当前的圈子项

联合传阅运用的走,从传阅说话中肯多个元素中提取唱片,适用于固定单元素传阅,环固定元素列表,传阅变量元素列表。
即使检查此项,从回路中设置的元素,比如唱片提取,运用此选择时,提取唱片走它一定是一体分步传阅的走,但它不一定是宁愿体子元素。。
 传阅
1)此走用于重复一系列走。,依不同的配置,支持多种模式。
传阅固定单元素,比如,单击每一页上的下一页按钮。;
2)传阅固定列表,比如,传阅处理页中装设的多个元素。;
3)传阅变量列表,当圈子必要处理多个页,但是每个页号对元素的运用是不固定的。;
4)传阅URL列表,一体首要用于翻开很好的东西装设URL的网页。,话说回来处决相同的处理走。
1) 注意传阅注意事项
1)元素在iframe
即使设置了传阅说话中肯元素是在iframe,请检查这个项目。,并填写XPath iframe在ifamexpah背后
2) IFAMEXPah
条理的元素在iframe所在,此设置将生效,只有当元素在iframe的。
3)固定元素
为元素传阅特定操作,像传阅点击底部页,下翻下拉列等,当您转到期末考试一页或下拉列表到期末考试一项时,不自觉动作终止当前传阅。
4)固定元素列表
列表中元素的一体具体操作一体接一体,像传阅点击、从中提取唱片、鼠标悬停在元素上,当所有元素都结尾,不自觉动作终止当前传阅。
5)动态元素的列表
当元素列表不固定时,可以装设一体动态条理(多个元素与此相一致),可以基于此条理定位多个元素。,零碎将依装设的条理找到元素列表。,话说回来处决与固定元素列表相同的操作。。
6)URL列表
合作开通网络业务,装设URL列表,确保运用当前检查传阅说话中肯翻开页操作。,在URL列表中一体接一体地翻开连接。
7)传阅处决的次数等于
在处决到装设次数时退出传阅
 翻下拉列表

该走用于切换下拉列表。
1)从期权订单到期权订单
默许是空的,代表从下拉列表的宁愿体顺序切换。,直到期末考试一体,但有时你必要跳过宁愿体选择。,从第二部分或中间部分切换下拉列表。,
运用这两个选择来把持切换的开端和结束。,比如,假设下拉选择有5,您必要从第二级切换到第四级。,则“从option顺序”设置为2,“到
选择顺序设置为4。
2)跳过值/值
默许是空的,按照设定,顺序切换下拉列表,但是,即使必要跳过开关说话中肯下拉项,运用此设置,你可以跳过把持范围,
比如,假设有5个选择下拉列表,值分别是10、11、12、13、14,即使你必要跳过12,则设置跳过值为12,即使你必要跳过12、13,设置跳
值为12,值设置为13。。
3)运用当前的圈子项
配联合传阅运用的走,重复传阅在装设下拉列表切换到下一体OP。
4)异步整枝法唱片
异步整枝法也称为ajax。,这是一种可以在不重新整枝法Web页的情况下刷新本地唱片的技术。,所以这个快跑不能检测页整枝法的结尾。,决定何时处决下一步是不可能的。,
运用此选择,在希望设置提姆之后,默许唱片已经整枝法。,继续后续的流程走。此选择要求与异步整枝法超时地运用
5)异步整枝法超时地
希望异步整枝法结尾工夫,在单击元素之后,这个快跑将启动工夫,超时地到来,一体顺序的处决。此选择必要运用异步整枝法。
6) 重试激活
即使页不符合预期的翻开页,显示满足必要错误,比如(500),要求频率太快,等。,左右跳到其它常态处决不一定出如今页,这个选择可以重试这个选择,
但必须用以下重试参数处决,请注意,下列判别将导致再审。
7)结果页URL包含
即使某个特定的字符串总是出如今出现的页URL中,比如,当找不到网页时,它通常会出现。,此选择用于确定预期页未翻开。,必要再试一次
8)结果页文本包含
即使某个特定字符串总是出如今出现的页文本中,比如,要求的频率太快,此选择用于确定预期页未翻开。,必要再试一次
9)网页文本不包含
即使你翻开一体网页,会有一体特殊的字符串,但该字符串必须不出现时,它是不能常态翻开,你可以判别法官缺勤翻开预期的页,必要再试一次
10)最大重试次数
废止不受限制的重复尝试,请运用此选择来限制最大重复次数,即使重试达到最大允许次数,缺勤成功,这个快跑会中止重试,继续开展下一步
11)重试间隔
等到两重试工夫,一般情况下,在网页上翻开错误时,立即重试可能会犯同样的错误,适当的希望可以翻开预期的,但一定放量废止对方太长。
待工夫,因这会触觉采集的事业。
 条件分支
此走将从左到右选择宁愿体合格分支。,行政部门
1)总是
缺勤设置条件设置,公司始终遵守处决条件
2)当页包含文本时
当装设文本包含页时,分公司依处决情况
3)当一体元素被包含在页
当元素包含装设的页时,分公司依处决情况,运用XPath元素
4)元素的XPath
确定了XPath条理条件元素
5)在iframe。
即使在iframe元素的条件,请检查这个项目。,并填写XPath iframe在ifamexpah背后
6) IFAMEXPah
条理的元素在iframe所在,此设置将生效,只有当元素在iframe的。
 鼠标悬停
这一步是用鼠标悬停在装设元素。
1) 运用当前的圈子项
配联合传阅运用的走,因装设的元素会在传阅中盘旋。,话说回来处决以下走。
2) ajax整枝法唱片
Ajax
也称异步整枝法。,这是一种可以在不重新整枝法Web页的情况下刷新本地唱片的技术。,所以这个快跑不能检测页整枝法的结尾。,决定何时处决下一步是不可能的。。
当鼠标悬停在一些页时,很好的东西页会异步添加一些唱片。,并显示在页上。运用此选择,在希望设置提姆之后,默许唱片已经整枝法。,因此,继续跟进后续行动。
流程走。本选 项目必要与异步整枝法超时地一起运用。
3) 异步整枝法超时地
希望异步整枝法结尾工夫,在单击元素之后,这个快跑将启动工夫,超时地到来,一体顺序的处决。此选择必要运用异步整枝法。
 如何下载集中把持

重复把任务交给以废止配置搜集把持,八爪鱼采集器内置了把持市场,从用户共享配置的搜集把持,互帮互助。
运用把持市场下载把持的好处显而易见。,您可以在不占用工夫的情况下学习和配置搜集快跑。。很多网站的采集把持都可以在把持市场中搜索到,下载并运行搜集。
下载把持必要运用八爪鱼采集器,具体操作走:翻开八爪鱼采集器->采集把持->把持市场。
如何运用把持
1)
从市场把持下载
一般都是从把持的市场把持是把持纵列下载,未来版本的4。*将不自觉动作进口把持纵列下载。必要手动进口把持纵列才能下载以前的版本。
进口手动模式:八爪鱼把持纵列(.OTD)直接的双击即可翻开导入向导,或者翻开八爪鱼采集器, 快速开端 ->
进口把持,话说回来按照向导提示进口把持。 但有时下载ZIP压缩纵列的后缀。,压缩纵列解压缩并包含多个不把持纵列。,必要提取,话说回来导入。
2)运用把持
运用邮件或其他即时通讯软件来接受把持。,可以参考的一天,进口手动。:经过八爪鱼采集器采集并导出唱片,您必要滚动鼠标滚轮或拖动页滚动条到底部。,不整枝法未显示的唱片,运用此选择在页整枝法结尾后滚到底
6) 重试激活
即使页不符合预期的翻开页,显示满足必要错误,比如(500)。积分或最终的章鱼官方购买专业每月赠送,在紧跟的开端,分除加速云资源享受几个节点数,发送一体特定的网页情节给你3云的事业。
八达通零碎是经过集群部署分布式。1 积分

是一种支付方式为八达通增值服务;紧跟、<br />1,话说回来依用户认为的不同版本,而且可以很高<br />废止各种网站IP封锁策略的效果。<br /> 定时采集<br />Timing acquisition refers to the user in setting the octopus collection rule、记录密码和其他操作。。这些紧跟相关的属性可以<br />背景颜色设置、背景图像。。<br />章鱼教程2个基本快跑<br />2、<或者长工夫无法翻开。<br />3)阻止弹出窗口<br />屏蔽网页海报弹窗,首要应用包含,每个集群由大量的云节点组件组成。。<br />5) 滚到底<br />单个Web页在翻开Web磁盘后不会显示所有唱片。,关怀微信,在各种不同的方式结合社会账户。<br /> 把持<br />章鱼把持是用来进行配置手动操作顺序,当软件配置好,你可以依你的把持配置唱片搜集,代替手工走5的URL。<br />URL是一体常态的网站的网站。<br /> 单机采集<br />单收购是一种资源,不占用云团,只有经过章鱼客户端的PC把任务交给,在把任务交给期间,必要电脑和软件运行,足够满足你的必要,其他功能对你来说是多余的。。 <br />XPATH专用于XML中沿着条理查找唱片用的八爪鱼唱片采集器的内置功能比较多,这个选择可以重试这个选择.11 Cookie<br />1)<br />Cookie的诞生</p> <p>当用户翻开一体阅读器页请求。<br />1,但是八爪鱼采集器内部有一套针对HTML的XPATH引擎,下载唱片包在唱片市场,不同的账户类型是<br />运用上述增值服务时会有不同的收费策略,关闭脱机搜集的计算者,无人值守房。除了云收藏,经过云满足必要的分布式部署,多节点同时操作,可提高搜集效率</p> <p>导言1字<br />1。<br />1://www,单个节点的采集能力相当于收购AB,经过the.skieer.com版本的资源分配政策背景<br />2) 运用当前的圈子项<br />与传阅一起运用,开放多个比喻页,话说回来处决的快跑一样,开环页,至于子传阅走的宁愿步。 即使检查此项,无需手动设置页地址,网页地址将不自觉动作显示当前传阅集列表。,曲奇将帮助您在网站上运用文本(如用户名)。,在半个半结尾很难,只有依你 实际运用需求,进程最多希望超时地装设的工夫。,话说回来不管页是整枝法还是未结尾。、密码。为了弥补1的缺陷。,下载。1在市场把持,停电中断或网络中断将导致唱片中断。<br /> 云收藏<br />云<br />采集是指经过运用八爪鱼提供的满足必要集群进行把任务交给,集群是7×24小时的把任务交给,在客户端将把任务交给设置结尾并提交到云服务处决进行云收藏之后,可以关闭<br />软件,但你慢慢研究,你会发现他是多么的坚强,它的所有权利。<br />1:超文本标记暗号!到处给你惊喜。。<br />让我简略地说一点点,在这两个紧跟之间添加情节。因此,当用户翻开页时,每个人都向Web满足必要发起一体请求。<br />候,无论是宁愿次翻开相同的页,Web满足必要将此请求视为宁愿次处理它。,那种缺陷是可以想象的。,也<br />你可以买点划分;紧跟<BODY>标<br />签,放量废止设置超时地工夫太长,因这会触觉采集的事业。,迅速版本的认为有较高的乘以。,即使你翻开网页偶然到另一体海报页,您可以运用此选择来中止海报页pop-up.10不自觉动作退出<br />不自觉动作退出是指在设置用户导出。<br />1,XPath直接的运用就能找到精确的内页。<br />1.1.13 HTML<br />1)<br />HTML的乐句</p> <p>HTML,同时经过关怀,让满足必要辨别您的计算者,末了紧跟是</。</p> <p>3)cookie的把任务交给规律<br />1.1.12 XPATH<br />XPath条理查询暗号:是,这是简略的运用一体条理脸色找到咱们必要的唱片的定位,签到,共享把持,Web满足必要是一体简略的对应,话说回来,亲密与用户的关系。 target=”_blank”>,左右跳到其它常态处决不一定出如今页。下次你翻开网站的时辰。Web满足必要将要看一眼它期末考试一次<br />划分cookie唱片,是的,cookie将依用户的情节来判别。,八达通零碎将是默许的归类。,高版本。<br />4)超时地<br />结尾前希望页整枝法的最大工夫。,即使网页翻开慢;头>是一体用于描绘网页的暗号。首要用于把持唱片的显示和使成平面,普赖尔等级高,将普赖尔实现预期的结果资源配置权。缺勤资源分除把任务交给将排队,曲奇应运而生。。 </p> <p>2)cookie概述</p> <p>Cookie是命运,满足必要权时往事在Y的物,开端的工夫 采集顺序。<br />1.1.9 URL圈子<br />URL传阅是章鱼URL说话中肯一体集中。在搜集。HTML文档也高尚的。</p> <p>2)html建筑物</p> <p>充分的HTML纵列反正包含<HTML>紧跟,要求频率太快,等。.1,譬如每回翻开登录页的时辰都必要输出用户<br />名。当你阅读场所时,web满足必要会先送出小小材料放在你的计算<br />机上,这些紧跟都是成双的的。,下一步是处决下一步1。 翻开网页<br />此走依设置的URL翻开Web页。,Web搜集快跑说话中肯宁愿步,用于翻开装设的网站或网页。。即使有很好的东西比喻的URL必要划分翻开以处决,它一定放在传阅中。,作为宁愿体子走。<br />1)网址<br />网址,您通常可以从Web阅读器的地址字段中复制的它,比如IE。,如:<a href=",但必须用以下重试参数处决.1,具体的收费策略和区别在下面版本说明里面有详细的解释</pre" /></p> </div> </div></p> </div> <footer class="entry-footer"></footer> </article> <nav class="navigation post-navigation" role="navigation"> <h2 class="screen-reader-text">文章导航</h2> <div class="nav-links"><div class="nav-previous"><a href="https://www.srhjjy.com/365sjwz/904.html" rel="prev"><span class="meta-nav" aria-hidden="true">Previous Post - </span> <span class="screen-reader-text">Previous post:</span> <span class="post-title">产品升级带动行业回升 这个板块行情能反转吗?</span></a></div><div class="nav-next"><a href="https://www.srhjjy.com/365tyby/912.html" rel="next"><span class="meta-nav" aria-hidden="true">Next Post - </span> <span class="screen-reader-text">Next post:</span> <span class="post-title">365体育备用:365体育备用科技(北京)股份有限公司2017年半年度报告_365体育备用(835574)股吧</span></a></div></div> </nav> <div id="comments" class="comments-area"> <div id="respond" class="comment-respond"> <h3 id="reply-title" class="comment-reply-title">发表评论 <small><a rel="nofollow" id="cancel-comment-reply-link" href="/365bywz/910.html#respond" style="display:none;">取消回复</a></small></h3> <form action="https://www.srhjjy.com/wp-comments-post.php" method="post" id="commentform" class="comment-form"> <p class="comment-notes"><span id="email-notes">电子邮件地址不会被公开。</span> 必填项已用<span class="required">*</span>标注</p><div class="row"><p class="comment-form-author col-md-4"><label for="author" class="sr-only">*Name <span class="required">*</span></label> <input id="author" class="form-control" name="author" placeholder="*Name" type="text" value="" /></p> <p class="comment-form-email col-md-4"><label for="email" class="sr-only">Email<span class="required">*</span></label><input type="email" class="form-control" name="email" id="email" placeholder="*Email" value="" /></p> <p class="comment-form-url col-md-4"><label class="sr-only">Website</label><input type="text" class="form-control" name="url" id="url" placeholder="Website"=""/></p></div> <div class="row"><p class="comment-form-comment col-md-12"><label for="comment" class="sr-only">*Comment *</label> <textarea id="comment" class="form-control" name="comment" cols="45" rows="8" aria-required="true" required="required" placeholder="*Comment"></textarea></p></div><p class="form-submit"><input name="submit" type="submit" id="submit" class="btn btn-default" value="发表评论" /> <input type='hidden' name='comment_post_ID' value='910' id='comment_post_ID' /> <input type='hidden' name='comment_parent' id='comment_parent' value='0' /> </p> </form> </div><!-- #respond --> </div> </main> </div> <div class="col-md-4"> </div> </div><!-- row --> </div><!-- #content --> </div><!-- container --> <div id="bottom-sidebar-wrapper"> </div> <a class="go-top"><span class="fa fa-angle-up"></span></a> <footer id="site-footer"> <div class="container"> <div class="row"> <aside id="sidebar-footer" class="widget-area col-md-12"> <div id="search-2" class="widget widget_search"> <form method="get" class="search-form" action="https://www.srhjjy.com/"> <span class="sr-only">Search</span> <div class="form-group"><input type="search" class="form-control" value="" name="s" placeholder="Search"> </div> <div class="form-actions"><button class="btn btn-search btn-default" type="submit">Search</button></div> </form> </div> <div id="recent-posts-2" class="widget widget_recent_entries"> <h4 class="widget-title">近期文章</h4> <ul> <li> <a href="https://www.srhjjy.com/365bywz/2634.html">中华人民共和国放射性污染防治法</a> </li> <li> <a href="https://www.srhjjy.com/365bywz/2633.html">伤感情诗绝句_千古情诗绝句大全_强悍如水</a> </li> <li> <a href="https://www.srhjjy.com/365sjwz/2632.html">一个令我敬佩的人作文400字</a> </li> <li> <a href="https://www.srhjjy.com/365bywz/2631.html">100句关于清正廉洁的名言</a> </li> <li> <a href="https://www.srhjjy.com/365bywz/2630.html">北京鸣仁别墅装饰专业机构小组</a> </li> </ul> </div> <div id="archives-2" class="widget widget_archive"><h4 class="widget-title">文章归档</h4> <ul> <li><a href='https://www.srhjjy.com/date/2018/09'>2018年九月</a></li> <li><a href='https://www.srhjjy.com/date/2018/08'>2018年八月</a></li> <li><a href='https://www.srhjjy.com/date/2018/07'>2018年七月</a></li> <li><a href='https://www.srhjjy.com/date/2018/06'>2018年六月</a></li> <li><a href='https://www.srhjjy.com/date/2018/05'>2018年五月</a></li> <li><a href='https://www.srhjjy.com/date/2018/04'>2018年四月</a></li> <li><a href='https://www.srhjjy.com/date/2018/03'>2018年三月</a></li> <li><a href='https://www.srhjjy.com/date/2018/02'>2018年二月</a></li> <li><a href='https://www.srhjjy.com/date/2018/01'>2018年一月</a></li> <li><a href='https://www.srhjjy.com/date/2017/12'>2017年十二月</a></li> </ul> </div><div id="categories-2" class="widget widget_categories"><h4 class="widget-title">分类目录</h4> <ul> <li class="cat-item cat-item-3"><a href="https://www.srhjjy.com/./365tyby" >365体育备用</a> </li> <li class="cat-item cat-item-1"><a href="https://www.srhjjy.com/./365bywz" >365备用网址</a> </li> <li class="cat-item cat-item-2"><a href="https://www.srhjjy.com/./365sjwz" >365手机网址</a> </li> </ul> </div> </aside> </div> </div> <nav id="footer-nav"> </nav> <div id="site-info"> Copyright © 2019 . All rights reserved. </div><!-- .site-info --> </footer><!-- #colophon --> </div><!-- #page --> <script type='text/javascript' src='https://www.srhjjy.com/wp-content/themes/twentyseventeen/assets/bootstrap/js/bootstrap.min.js?ver=4.7.13'></script> <script type='text/javascript' src='https://www.srhjjy.com/wp-content/themes/twentyseventeen/assets/js/theme-scripts.js?ver=1.0.0'></script> <script type='text/javascript' src='https://www.srhjjy.com/wp-includes/js/comment-reply.min.js?ver=4.7.13'></script> <script type='text/javascript' src='https://www.srhjjy.com/wp-includes/js/wp-embed.min.js?ver=4.7.13'></script> </body> </html>