采集规则之采集网址介绍
来源: [email protected]|点击:次|2011-06-18 21:37
在做采集规则之前,我们的第一步就先采集网址的输入,好,现在我们先看下采集网址界面:
现在,一项一项给大家介绍:
一、网站编码:你所采集的网站的编码,一般我们都使用自动识别为主,如果你要设置,可以打开一个网站,比如: 这个网站。我们看下源代码:
二、采集网址深度:
我们提供0级和1级采集网址深度,0级,我们就采集最终页面,1级,我们可以采集到列表后面的内容页。例如0级,我们就采集最终于内容页地址,这里我们要填入,文章内容的网址就行了。
0级实例1:
我们只要在采集网址中,添加单条网址,把这个网址加入就可以了。这样我们就可以采集见容最终页面。
1级实例2:
这是我们采集的文章列表页,我们把这个地址填入,我们就可以采集到,这个列表的所有文章内容链接地址
三、采集网址列表:
采集网址列表,这里我们有两项操作界面。多条网址和单条网址,下面我会给大家详细介绍:
向导添加:我们选择好所采集的页面后,点击向导添加,就可以把我出面采集网址操作界面
1. 多条网址操作界面:
例如:
我们采集这样一个网址:网易新闻下面的社会新闻栏目,我们打开社会新闻栏目,看到网址是:,这个是首页。他有很多页,那我们如何可以采集他其它页呢?这里,我们就提供一个多条采集网址,这里,我们打开第二页,我们就可以看到现在的网址是这样的:,区别在“shehuibj.html”和“shehuibj_02.html”这里我们填入多条网址格式就是这样:,就可以了,然后选择数字为02—05,就可以了。这样我们就可以采集到多条网址了。
2. 单条网址操作界面:
例如:单条网址:我们就是只采集一个网页的列表,还是用网易来做为范例。
采集网址为:,输入就可以了。然后点击添加就可以了。
四、文章内容页面地址包含和排除
文章内容页面地址必含:这个是我们从列表中取得文章内容地址的链接。还是以网易新闻为例:,我们打开这个网址,查看源代码:
我们这样写:,就行了。我们变量的改为(*),就行了。这样,亚普就可以很好的采集到文章内容页。
如果其中有其它跟文章链接差不多的,我们可以用文章内容页面地址不得包含把其它的网址排除掉。
五、页面选定区域采集网址
页面选定区域采集网址(开始)和(结束),我们一般选取文章内容链接区域的开头代码和结束代码。注意:此代码,必需是唯一的。不要重复出现,如果重复出现,就会采集不到文章内容的链接。
例如。刚才那个网易新闻的页面。我们通过查看。我们可以看到:<div class=”left-1 left”>这个是页选定区域采集网址(开始),结束: <div class="pages-1 mt25">,这个是结束。把这两个填写入就可以了。如果你不是很懂html代码,我建议你用Dreaweaver来看。这样比较容易!
六、手动填写链接
这个我们通过参数设置来实现网址采集。
- 亚普伪原创采集器相关内容