新手必看的火车头采集器使用入门教程

本文资料来源:火车头采集器官网,但是讲解说明远优于官网!总结到位,重点解说明确—明月SEO

上一篇我们讲到了:火车头采集器使用图文教程以及重点问题整理! 本文将以一个简单的实测案例来说明,从而对重点问题进行细致入微的由浅入深的讲解。

下面我们通过一个简单的文章规则制作,来实战说明

通过采集faq为例来说明采集器采集的原理和过程。 本例以 http://faq.locoy.com/qc-12.html 演示地址。

一.新建个采集规则

选择一个分组上右击,选择“新建任务”,如下图:

二.添加起始网址

在这里我需要采集 5页数据。分析网址变量规律:

第一页地址:http://faq.locoy.com/qc-12.html?p=1

第二页地址:http://faq.locoy.com/qc-12.html?p=2

第三页地址:http://faq.locoy.com/qc-12.html?p=3

由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示:

所以设置如下:

地址格式:把变化的分页数字用[地址参数]表示。

数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字; 共5项,即一共采集5页。

预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。

然后确定即可

【明月SEO总结】

设置网址规则的第一步是分析确认采集目标网站栏目列表页的页面URL规律(是纯列表页)

三.[常规模式]获取内容网址

常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。

在这里给大家演示用 自动获取地址链接 +设置区域 的 方式来获取。

查看页面源代码找到文章地址所在的区域:

设置如下:

注:更详细的分析说明可以参考官网帮助手册:操作指南 > 软件操作 > 网址采集规则 > 获取内容网址

点击网址采集测试,看看测试效果

四.采集网址内容规则

以 http://faq.locoy.com/q-1184.html 为例讲解标签采集

注:更详细的分析说明可以参考本帮助手册:操作指南 > 软件操作 > 内容采集规则 > 标签编辑

我们首先查看它的页面源代码,找到我们“标题”所在位置的代码:

<title>导入Excle是跳出对话框~打开Excle出错 - 火车采集器帮助中心</title>

分析得出: 开头字符串为:<title> 结尾字符串为:</title> 数据处理——内容替换/排除:需要把- 火车采集器帮助中心 给替换为空

内容标签的设置原理也是类似的,找到内容所在源码中的位置

分析得出: 开头字符串为:<div id="cmsContent"> 结尾字符串为:</div> 数据处理——HTML标签排除:把不需要的A链接等 过滤

再设置个“来源”字段

【明月SEO总结】

1.第一步:分析出列表页分页的页码规律。并设置写出采集目标网站栏目列表页的页面URL规律(是纯列表页)

2.第二步:分析出列表页单页面全部链接的前后代码标签,并设置采集此列表网址链接的规则。

3.第三步:分析出文章内容的前后代码标签,并设置内容的采集规则

注意:是从文章的正文内容开始!找出正文内容前后的代码标签。

(1)不是从文章标题开始

(2)也不是从文章的标示属性开始

好了,既然我们知道是从文章内容的【正文】处的前后找前后标志代码标签,那么怎么找呢?有什么要求吗?

4.前后代码标签查找的要求

并不是直接找正文的前后最近的闭合标签代码!

因为这个并不是唯一的

要求必须是离正文最近的,唯一不重复的前后代码标签。

5.点击开始采集的时候,后边的【发布】按钮哪怕你只是采集到本地没有设置发布,也要勾选上。不然火车头采集器就采集不上。

6.从新采集的话需要右键选择清空采集记录,或者从新新建存储文件夹。不然也采集不上。

以上总结的要点,均是明月SEO本人亲测,实属经验之谈,吐血分享,望周知。

如果你还有疑问,可以在本页面下留言评论(免登陆,直接评论)。有问必答,明月SEO肯定吐血为你解答。

(0)

相关推荐

  • 网址命名规则,如何有利于百度收录与SEO排名?

    根据以往的SEO工作经验,另搜索引擎头痛的问题,往往是来自过于复杂的网址结构,它让SEO的效果大打折扣,往往事倍功半. 当你试图运营一个站点的时候,合理的设计网址结构,看起来十分重要,为此,我们有必要 ...

  • SEO站长如何批量采集文章?火车头采集器操作教程

    已经很久没有使用火车头采集器了.想起曾经做站群SEO那段时间,经常会登陆火车头采集器去采集各大相关网站的资讯内容.而且那个时候采集之风盛行,到处是各种采集站,尤其是小说站.文章站等,动不动就是采集数十 ...

  • 火车头按作者采集今日头条全部文章的方法

    ""前期9SiR在<>一文中谈到,自媒体文章一旦过了推荐期就不能持续为作者带来收益了,为了解决这一问题,可以自建网站(博客)来同步更新文章,通过经营网站来实现持续的盈利 ...

  • 3,新手必看,修图软件Snapseed详细使用教程

    每一个热爱的人 Snapseed(指划修图) 01 主界面介绍 首先来了解主界面 导入照片后就进入这样的界面,主要是用底部的三个选项. 样式:可以理解为预设,是软件本身自带的一些样式,简单点说就是滤镜 ...

  • 新手必看,修图软件Snapseed详细使用教程

    ​每一个热爱的人 Snapseed(指划修图) 01 主界面介绍 首先来了解主界面 导入照片后就进入这样的界面,主要是用底部的三个选项. 样式:可以理解为预设,是软件本身自带的一些样式,简单点说就是滤 ...

  • 路亚白条马口新手必看,瓜子亮片及助投器的选择,看完少走弯路

    路亚白条马口新手必看,瓜子亮片及助投器的选择,看完少走弯路

  • 高手总结的零基础养花,新手必看基础知识!

    每个童鞋都有这样的经历,养花总是容易养死,又找不到原因,这里介绍一篇园艺师写的入门基础知识,来告别新手生涯吧. 新手养花基础知识大全 1 养花有什么好处 花卉以它绚丽的风采,把大自然装饰得分外美丽,给 ...

  • 自媒体入门必备网站,新手必看

    ♡ 做自媒体久了,时常被读者问到一些关于自媒体运营要用到的网站或工具问题,今天我把这些信息都做了一个合集,很多工具都是我用过或现在正在用的~ 这些都是自媒体入门必备的知识,新手一定要点赞收藏起来,下次 ...

  • 央视对于艾灸的科普片,很强大,很震撼,新手必看!

    央视对于艾灸的科普片,很强大,很震撼,新手必看!

  • 固态硬盘4K对齐教程,新手必看

    大家要知道,固态硬盘必须要4K对齐,不然性能会大打折扣,今天教大家如何进行固态硬盘4K对齐,包括如何查看硬盘是否4K对齐的几种方法. 进行4K对齐前我们要先知道自己的硬盘是否已经4K对齐了,查看方法有 ...

  • 新手必看的和田玉基本特征

    我们都知道和田玉籽料是不 可 再 生资源,挖一块少一块了,你现在花二十万买的和田玉籽料,几十年后,可能上百万.上千万,随着岁月的流逝,它会更值钱. 和田玉中数量最多的品种,有灰绿.青灰.灰蓝等色调,常 ...

  • 隶书经典《曹全碑》入门指南,写的太绝了,新手必看!

    隸書作為壹種最為靈動和高古的字體,不少人由隸入門也是無可厚非.說起入門的隸書選擇,不少人第壹想到<曹全碑>,那麽曹全碑到底好在哪裏?今天書思就重點和大家說說. 1.<曹>字保持 ...