手机版

机车采集器3.0采集图文教程

时间:2021-11-27 来源:互联网 编辑:宝哥软件园 浏览:

通过收集例子解释一些功能。今天给大家举个例子的网站是163的娱乐频道。这应该是一个普遍而实际的规则。我们开始吧。如果你是火车收藏家的老手,可以参考一下,因为我想解释的东西会违背传统思维;如果你是新手,最好仔细看看,因为这会加快你的入门速度,为你以后节省很多时间。下面是收集的一些基本步骤,可以灵活运用:1。建立一个站;1.请先打开列车收集器,新建一个车站。见下图:点击在新窗口中浏览此图片

为了方便管理,你可以给你的网站起任何你认为容易记住的名字,但我建议用目标源的名字作为网站的名字,有利于以后的管理,如下图所示点击在新窗口中浏览此图片

大多数网站和通信站通常只有一套模板或几套类似的模板。这里所谓的相似性是指模板中的标记非常接近,那么什么是模板标记呢?模板标记是指部分内容的开始和结束标记。比如很多正规网站(通常是一些网站比较大,内容比较多的网站,比如新浪、163等。)将用类似于或在内容开头的符号指示内容的开头。他们这样做的原因有两个,一是内容多,对各部门之间的协调做了相应的标记,便于项目的交接,二是内容管控的需要。随着xhtml的普及,图层控件越来越多,这让我们查找收藏标记变得越来越容易(后面你会逐渐理解)。我告诉你这些是因为我们接下来要解释的是全站的内容规则。2.标题标签说明。对应的页面在这里:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html先从“网站基本信息”切换到“全网站内容规则”,然后将待采集内容页面的URL复制到“典型页面”,再点击“测试”读取源代码。从标题标签开始,我们发现默认标签收集的标题多于“_网易娱乐”。请双击标题标签或选择标题标签点击修改,然后在排除内容框中添加“_网易娱乐”,标题标签就完成了。图片:点击在新窗口中浏览此图片

3.内容标签说明。做任何收集规则(任务)的标签最重要的是找到开始和结束的标志。目前大多数收藏者都要求开始和结束标记必须是整个源代码的唯一标记,即在所有html源代码中只能找到一个开始或结束标记。但是火车收藏家不需要这么做。你只需要从上到下寻找第一个标志。我的意思是,html代码中允许有n个相同的开始(end,下同)符号,但只要我们要收集内容的地方的这个符号是html中从上到下的第一个符号。打开任何内容页面。以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html为例。我们发现他的内容是从“进入论坛”开始的,所以双击代码测试框找到需要的代码,如图:点击在新窗口中浏览此图片

我们可以用这个作为内容开始的标志,但这并不完美。请自行打开几个内容页面,在网页中“右键”——“查看源代码”,然后对比代码,提取相同部分。我用这个作为内容开始的标志。点击在新窗口中浏览此图片

接下来看内容结束标志,如下两张图所示:点击在新窗口中浏览此图片

点击在新窗口中浏览此图片

以下是根据我们设定的规则点击在新窗口中浏览此图片收集的内容。

一般来说,从开始标志到结束标志收集的内容会包含必须排除的内容、广告或链接。这里需要排除的是“相关话题第六届金鹰电视艺术节”。消除的方法是找到对应的代码,完全复制到内容排除窗口中,将更改的部分替换为“(*)”。由于这是全站的规则,我们必须找到更多的几个类别。比如目前的163娱乐还包括“明星|图片|电影|电视|音乐|论坛|专题|名人访问”等。在这里,我只选择“明星、图片、电影”作为栏目给大家讲解。寻找其他类别只是想让规则通用和完善。如果你只想要一个类别,比如“图片”,那么你可以直接制定这个规则。http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html的这个页面正好有分页,顺便说说上下页的设置。他这边的“上一页”和“下一页”都是图片链接的,所以不要把图片的名称(右键点击对应图片查看属性,复制图片名称)复制到对应的代码框就可以了。详细看图:点击在新窗口中浏览此图片

在这里,如果要排除任何内容,只需要找到对应的代码,将其完全复制到代码排除窗口中,并将变量部分替换为'(*)'。由于他这边没有广告,即使全站所有规则都完成了,点击保存进入单任务制作。好的,全站的规则都会讲到这两个标签,其他的会根据需要按照上面的步骤添加。记住,一切都会改变。请到火车收藏家论坛:http://bbs.locoy.com讨论其他问题。其次,下面解释单任务规则的产生:1。内容规则的产生,很多人可能直到现在还不了解火车收集器的优势,但我们现在说的绝对是火车的一个独特功能(至少到目前为止,还不清楚未来是否会有人执行同样的功能!)火车收集者可以不制定网站规则直接进入内容收集,这样你就可以根据网站的难易程度来决定是否收集选定的目标源,而不是等到网站收集完毕,发现原来的网站根本无法收集或者根本不值得浪费这个时间(之前的时间都浪费了!)。Train v3.0最大的功能之一就是可以继承站点的规则。只要您之前制定的规则是通用的,就不需要为接下来的所有任务制定内容收集规则。因为我们之前制定的内容收集规则是通用的,这里不需要解释规则,直接继承网站的,如图:点击在新窗口中浏览此图片

2.网站收藏规则的制定步骤:“新建”——“新建任务”,其他操作如下:点击在新窗口中浏览此图片

制定规则需要善于发现规律的东西,做这个收集是没有问题的。我们想要收集的例子的地址在http://ent.163.com/special/00031HI0/entnews.html,这里只收集了1-3页作为例子。我们发现每个叶面上的URL开头包含“过去的娱乐热点”,结尾包含“第12页……”,所以请复制html源代码中对应的代码,前往特定区域的收藏范围。另外,URL必须包含“/06/”,这样就可以进行URL收集了(简单,自己试试),如下图所示:点击在新窗口中浏览此图片

3.释演法。发布方式有五种,这里我们以最常用的“线上发布”为例。选择要在线发布到网站的web,点击“定义全局发布模式”,然后按照系统提示的步骤操作:选择发布模块——,填写网站/cms根地址——,用火车——的内置浏览器登录,登录后关闭内置浏览器——,刷新列表——,测试成功。

下面是我刚才收集的本地论坛收藏测试的两个截图:点击在新窗口中浏览此图片

点击在新窗口中浏览此图片

版权声明:机车采集器3.0采集图文教程是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。