采集规则之采集网址介绍

来源: [email protected]|点击:次|2011-06-18 21:37

在做采集规则之前，我们的第一步就先采集网址的输入，好，现在我们先看下采集网址界面：

现在，一项一项给大家介绍：

一、网站编码：你所采集的网站的编码，一般我们都使用自动识别为主，如果你要设置，可以打开一个网站，比如：这个网站。我们看下源代码：

二、采集网址深度：

我们提供0级和1级采集网址深度，0级，我们就采集最终页面，1级，我们可以采集到列表后面的内容页。例如0级，我们就采集最终于内容页地址，这里我们要填入，文章内容的网址就行了。

0级实例1：

我们只要在采集网址中，添加单条网址，把这个网址加入就可以了。这样我们就可以采集见容最终页面。

1级实例2：

这是我们采集的文章列表页，我们把这个地址填入，我们就可以采集到，这个列表的所有文章内容链接地址

三、采集网址列表：

采集网址列表，这里我们有两项操作界面。多条网址和单条网址，下面我会给大家详细介绍：

向导添加：我们选择好所采集的页面后，点击向导添加，就可以把我出面采集网址操作界面

1. 多条网址操作界面：

例如：

我们采集这样一个网址：网易新闻下面的社会新闻栏目，我们打开社会新闻栏目，看到网址是：，这个是首页。他有很多页，那我们如何可以采集他其它页呢?这里，我们就提供一个多条采集网址,这里，我们打开第二页，我们就可以看到现在的网址是这样的：，区别在“shehuibj.html”和“shehuibj_02.html”这里我们填入多条网址格式就是这样：，就可以了，然后选择数字为02—05，就可以了。这样我们就可以采集到多条网址了。

2. 单条网址操作界面：

例如：单条网址：我们就是只采集一个网页的列表，还是用网易来做为范例。

采集网址为：，输入就可以了。然后点击添加就可以了。

四、文章内容页面地址包含和排除

文章内容页面地址必含:这个是我们从列表中取得文章内容地址的链接。还是以网易新闻为例：，我们打开这个网址，查看源代码：

我们这样写：,就行了。我们变量的改为(*)，就行了。这样，亚普就可以很好的采集到文章内容页。

如果其中有其它跟文章链接差不多的，我们可以用文章内容页面地址不得包含把其它的网址排除掉。

五、页面选定区域采集网址

页面选定区域采集网址（开始）和（结束），我们一般选取文章内容链接区域的开头代码和结束代码。注意：此代码，必需是唯一的。不要重复出现，如果重复出现，就会采集不到文章内容的链接。

例如。刚才那个网易新闻的页面。我们通过查看。我们可以看到:<div class=”left-1 left”>这个是页选定区域采集网址（开始），结束: <div class="pages-1 mt25">,这个是结束。把这两个填写入就可以了。如果你不是很懂html代码，我建议你用Dreaweaver来看。这样比较容易！

六、手动填写链接

这个我们通过参数设置来实现网址采集。

亚普伪原创采集器相关内容

采集规则之采集网址介绍