支持多頁採集:
==============
多頁採集增強（採集索引頁URL改進） 比如需要採集 
http://edu.qq.com/kaoyan/fuxizhidao01.htm
...
http://edu.qq.com/kaoyan/fuxizhidao08.htm

這樣的多頁採集在RC6以前版本無法完成。

RC6做了改進，使用如下的索引頁規則 
http://edu.qq.com/kaoyan/fuxizhidao{0[1,8,0]}.htm

規則說明： {A[B,C,D]}
「{...}」是索引頁分頁語法定義

A:附加字符
B:開始頁數
C:結束頁數
D:採集的第一頁是否從默認初始頁（去掉「{...}」的URL）開始，是的話填「1」，否則填「0」


舉例1－採集索引頁URL規則1：
-------------------------
http://edu.qq.com/kaoyan/fuxizhidao{0[1,8,1]}.htm

可以採集如下頁面： 
http://edu.qq.com/kaoyan/fuxizhidao.htm
http://edu.qq.com/kaoyan/fuxizhidao01.htm
http://edu.qq.com/kaoyan/fuxizhidao02.htm
...
http://edu.qq.com/kaoyan/fuxizhidao08.htm

舉例2－採集索引頁URL規則2：
-------------------------
http://edu.qq.com/kaoyan/fuxizhidao{0[1,8,0]}.htm

可以採集如下頁面： 
http://edu.qq.com/kaoyan/fuxizhidao01.htm
http://edu.qq.com/kaoyan/fuxizhidao02.htm
...
http://edu.qq.com/kaoyan/fuxizhidao08.htm

規則1比規則2多採集了一個 http://edu.qq.com/kaoyan/fuxizhidao.htm 這個就是參數D的作用 


舉例3－採集索引頁URL規則3： 
-------------------------
http://www.blueidea.com/tech/web/index{_[2,8,1]}.asp 

可以採集如下頁面： 
http://www.blueidea.com/tech/web/index.asp
http://www.blueidea.com/tech/web/index_2.asp
http://www.blueidea.com/tech/web/index_3.asp
...
http://www.blueidea.com/tech/web/index_8.asp

舉例4－採集索引頁URL規則4： 
--------------------------
http://www.blueidea.com/tech/web/index{_[2,8,0]}.asp 

可以採集如下頁面： 
http://www.blueidea.com/tech/web/index_2.asp
http://www.blueidea.com/tech/web/index_3.asp
...
http://www.blueidea.com/tech/web/index_8.asp



－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－


多頁採集索引頁URL規則:
http://www.xinhuanet.com/newscenter/xhyw{_[1,20]}.htm

使用以上的規則就可以採集如下共20個頁面
http://www.xinhuanet.com/newscenter/xhyw.htm
http://www.xinhuanet.com/newscenter/xhyw_1.htm
http://www.xinhuanet.com/newscenter/xhyw_2.htm
http://www.xinhuanet.com/newscenter/xhyw_3.htm
...
..
.
http://www.xinhuanet.com/newscenter/xhyw_20.htm


－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

支持過慮函數管道:
<Title>{DATA}</Title>==>[clearHTML]==>[localizeImg]==>helloworld
通過使用==>[採集函數名稱]就可以加入一個過慮管道。


－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

內容圖片本地化改為使用過慮函數實現：localizeImg
<font id="Zoom">{DATA}              </font> 
              <table==>[clearRubbish]==>[localizeImg]==>[page]


－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

定義某個字段為分頁採集字段：
比如新聞內容:
規則如下：
<font id="Zoom">{DATA}              </font> 
              <table==>[clearRubbish]==>[localizeImg]==>[page]

內容頁分頁採集也使用過慮函數來實現
內容分頁採集函數:[page]


－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

更為智能的自適應規則語法，不再需要你熟悉正則語法
語法規則: [前標識]{DATA}[後標識](==>[過慮函數名1]==>[過慮函數名2]......)

[前標識]                                 :必須。任何字符串，必須具有唯一性。
{DATA}                                   :必須。就是你要採集的有效內容
[後標識]                                 :必須。任何字符串
(==>[過慮函數名1]==>[過慮函數名2]......) :可選。過慮函數管道，管道可以無限延伸下去

2.1前的規則:
/<Title>(.*)<\/Title>/isU==>[clearHTML]
2.1的新規則:
<Title>{DATA}</Title>==>[clearHTML]

2.1前的規則:
/<td class=\"Content\">(.*)<\/td>[\s]*<\/tr>[\s]*<\/table>[\s]*<table width=\"100%\" border=\"0\">/isU
2.1的新規則:
<td class="Content">{DATA}</td>  </tr> </table> <table width="100%" border="0">


－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

智能採集地址修復：
既便採集索引頁內容中的有效內容頁URL為相對地址也可以自動修復，例如
採集索引頁http://news.xinhuanet.com/newscenter/index.html

2.1前版本只支持3種格式的URL
<a href="http://news.xinhuanet.com/newscenter/2004-12/04/content_2293879.htm " >
<a href="/newscenter/2004-12/04/content_2293879.htm " >
<a href="newscenter/2004-12/04/content_2293879.htm " >

2.1前的版本在採集這樣的地址時會出現問題：
<a href="./04/content_2293879.htm " >
<a href="../../content_2293879.htm " >

2.1開始全面支持以上格式的URL，2.1支持格式列表：
<a href="http://news.xinhuanet.com/newscenter/2004-12/04/content_2293879.htm " >
<a href="/newscenter/2004-12/04/content_2293879.htm " >
<a href="newscenter/2004-12/04/content_2293879.htm " >
[新增]<a href="./04/content_2293879.htm " >
[新增]<a href="../../content_2293879.htm " >



－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

內容頁有分頁時設置採集自動檢測規則:
<center><a href="{DATA}" class="nextpage"><img

<a href="http://www.pconline.com.cn/pcjob/nettech/cisco/others/0412/506028_1.html" >[下一頁]</a>
<a href="http://news.xinhuanet.com/it/2004-12/04/content_2294495_2.htm" class="nextpage"><img src="http://imgs.xinhuanet.com/icon/newscenter/news_xy.gif"  border="0"></a>


－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

設置默認值：
{Default:xxx}


－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
時間採集器:獲取當前的時間戳（Timestamp）
{Timer}


來源地址採集器：獵取當前的來源網址
{URL}