当前位置: 首页 > 帮助 > 采集网址 >

采集规则之采集网址介绍

来源: [email protected]|点击:|2011-06-18 21:37

在做采集规则之前,我们的第一步就先采集网址的输入,好,现在我们先看下采集网址界面:

现在,一项一项给大家介绍:

一、网站编码:你所采集的网站的编码,一般我们都使用自动识别为主,如果你要设置,可以打开一个网站,比如: 这个网站。我们看下源代码:

二、采集网址深度:

我们提供0级和1级采集网址深度,0级,我们就采集最终页面,1级,我们可以采集到列表后面的内容页。例如0级,我们就采集最终于内容页地址,这里我们要填入,文章内容的网址就行了。

0级实例1

我们只要在采集网址中,添加单条网址,把这个网址加入就可以了。这样我们就可以采集见容最终页面。

1级实例2

这是我们采集的文章列表页,我们把这个地址填入,我们就可以采集到,这个列表的所有文章内容链接地址

三、采集网址列表:

采集网址列表,这里我们有两项操作界面。多条网址和单条网址,下面我会给大家详细介绍:

 

向导添加:我们选择好所采集的页面后,点击向导添加,就可以把我出面采集网址操作界面

1.         多条网址操作界面:

例如:

我们采集这样一个网址:网易新闻下面的社会新闻栏目,我们打开社会新闻栏目,看到网址是:,这个是首页。他有很多页,那我们如何可以采集他其它页呢?这里,我们就提供一个多条采集网址,这里,我们打开第二页,我们就可以看到现在的网址是这样的:,区别在“shehuibj.html”和“shehuibj_02.html”这里我们填入多条网址格式就是这样:,就可以了,然后选择数字为0205,就可以了。这样我们就可以采集到多条网址了。

2.         单条网址操作界面:

例如:单条网址:我们就是只采集一个网页的列表,还是用网易来做为范例。

采集网址为:,输入就可以了。然后点击添加就可以了。

四、文章内容页面地址包含和排除

文章内容页面地址必含:这个是我们从列表中取得文章内容地址的链接。还是以网易新闻为例:,我们打开这个网址,查看源代码:

我们这样写:,就行了。我们变量的改为(*),就行了。这样,亚普就可以很好的采集到文章内容页。

如果其中有其它跟文章链接差不多的,我们可以用文章内容页面地址不得包含把其它的网址排除掉。

五、页面选定区域采集网址

页面选定区域采集网址(开始)和(结束),我们一般选取文章内容链接区域的开头代码和结束代码。注意:此代码,必需是唯一的。不要重复出现,如果重复出现,就会采集不到文章内容的链接。

例如。刚才那个网易新闻的页面。我们通过查看。我们可以看到:<div class=”left-1 left”>这个是页选定区域采集网址(开始),结束: <div class="pages-1 mt25">,这个是结束。把这两个填写入就可以了。如果你不是很懂html代码,我建议你用Dreaweaver来看。这样比较容易!

六、手动填写链接

这个我们通过参数设置来实现网址采集。



亚普伪原创采集器相关内容