当前位置: 首页 > 帮助 > 采集内容 >

采集内容介绍之内容匹配方式

来源: 亚普伪原创采集器|点击:|2011-06-30 12:53

 内容匹配方式,是我们采集内容的核心部分。如果这里没有写好,那你整个采集规则就不会采集到任何内容。这项很重要。亚普为你们提供三项不同的方式来采集不同的样式的网站。

第一项:普通匹配

这个匹配方式就是通过,我们采集内容前的html代码来实现的,他有开始代码字符串和结束代码字符串。

比如,我们采集一个文章的内容,在一般的情况下,我们看到的内容都放在<title></title>之间。所以,这里,我们有采集内容代码开始字符串中填入<title>;在采集内容代码结束字符串中填入</title>就可以采集到文章的标题了。但有些时候特殊,你可以把那些网站的站名和一些栏目名字都加入到</title>之前就可以采集到,你想要的标题了。

第二项:正则匹配

正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
  列目录时, dir *.txtls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。
  为便于理解和记忆,先从一些概念入手,所有特殊字符或字符组合有一个总表在后面,最后一些例子供理解相应的概念。
正则表达式
  是由普通字符(例如字符 a z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
  可以通过在一对分隔符之间放入表达式模式的各种组件来构造一个正则表达式,即/expression/ 
正则匹配是通过参数来匹配内容

第三项:手动匹配

通过手动匹配来采集内容

 



亚普伪原创采集器相关内容