[采集參數列表] [手工添加新規則] [導入新規則] [下載新規則] [修改標題參數] [修改內容參數]
 
規則名稱(可任意):
此規則所屬分類(可任意): $sort_fid
網站編碼選擇: gbk->gbk utf8->gbk
手工輸入多頁 有規則的連續多頁
要采集的標題列表頁,有多頁,每頁換一行

比較傻瓜化,沒規則的標題列表頁可以在此輸入,而有規則的也可以手工在此一頁一頁的輸入
注意:是文章的列表頁,不是內容頁

要采集的文章列表網址: (請復制兩個不同的列表頁網址進行對比,查找變動那個數值即頁碼用[page]代替)
比如:
http://php168.com/1/list.php?fid=1&p=2
http://php168.com/1/list.php?fid=1&p=3
那右邊應該填入
http://php168.com/1/list.php?fid=1&p=[page]
對于帶有?號的網址,一般情況第一頁不會顯示
http://php168.com/1/list.php?fid=1&p=1 而是
http://php168.com/1/list.php?fid=1
所以大家最好從第二頁開始分析,第一頁有時看不出變化規則
又比如:
http://php168.com/1/list_1.htm
http://php168.com/1/list_2.htm
http://php168.com/1/list_3.htm
那右邊應該填入
http://php168.com/1/list_[page].htm
注意:如果第一頁不是這樣
http://php168.com/1/list_1.htm
而是
http://php168.com/1/index.htm
的話,這種情況第一頁屬于沒規則,就需要在下面的表單輸入框,輸入這一頁的網址.這種情況也是比較多出現的

請寫出開始頁碼數值,結尾頁頁碼數值:(必填)
你可以設置指定采集第幾頁到第幾頁.必須要設置一個開始與結尾的頁碼,一般開始頁是1,結尾頁的話,就需要你去查看一下被采集的網站的文章列表共有幾頁,就輸入那個數值.
而梯度,一般填1,即如以下格式
http://php168.com/1/list.php?fid=1&p=1
http://php168.com/1/list.php?fid=1&p=2
http://php168.com/1/list.php?fid=1&p=3
如果填10的話,將如以下格式
http://php168.com/1/list.php?fid=1&p=10
http://php168.com/1/list.php?fid=1&p=20
http://php168.com/1/list.php?fid=1&p=30
開始第幾頁 結束第幾頁
梯度 默認1,如果想跳頁,你可以寫2,3,....
如果第一頁沒規則,請單獨在此寫出來第一頁的網址:
比如第一頁不是這個頁,即不能訪問
http://php168.com/1/list_1.htm

http://php168.com/1/list.htm
能訪問,此時就在右邊輸入沒規則的第一頁
自定義正則語法規則(即用通配符替換原文內容):
第一步,隨意查看一個要采集的標題列表頁HTML網頁源代碼.
第二步,在源代碼里,隨意找一篇文章的標題與網址,只能是一篇文章中的一小段代碼,不能是兩篇.
舉例:比如要采集的某個列表頁中的任何一篇文章的標題html代碼大致如下
<tr><td><a href="文章URL地址" title="文章標題">文章標題</a></td></tr>
那麼左邊輸入
<tr><td><a href="{url=*}" title="{*}">{title=*}</a></td></tr>

以上只是舉例,其中︰
{url=*}代表標題網址通配符
{title=*}代表標題通配符
{*}代表不需要的內容通配符,比如當鏈接地址中有title描述的時候,就必須要使用到它,不能同時使用兩個標題通配符的。
復雜設置如下︰

比如要采集的某個列表頁中的任何一篇文章的標題html代碼大致如下
<tr><td><a href="文章URL地址" title="文章標題">文章標題</a></td></tr>
那麼左邊輸入
<tr><td><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
其中{url=NO"}代表地址當中不包含有"雙引號的字符串
注意:如果代碼當中沒有"號,而是單引號的話,要改變一下,如
<tr><td><a href='文章URL地址'title="文章標題">文章標題</a></td></tr>
以上這個情況是單引號的話,
那麼需要變成
<tr><td><a href="{url=NO'}" title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 換成了 {url=NO'}
這里遵循的是靠近原則,它旁邊是什麼符號,就輸入什麼符號.又比如是這種情況的話
<tr><td><a href=文章URL地址 title="文章標題">文章標題</a></td></tr>
那麼需要變成
<tr><td><a href={url=NO } title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 換成了 {url=NO }
遵循的是靠近原則,他旁邊是空格,這里也要輸入空格,但必須要注意你的輸入法是不是全格.如果是全格的話.要換為半格.全格輸入的空格是有問題的.
又比如是這種情況的話
<tr><td><a href=文章URL地址>文章標題</a></td></tr>
那麼就要換成
<tr><td><a href={url=NO>}>{title=NO<}</a></td></tr>
即是把 {url=NO"} 換成了 {url=NO>}
遵循的是靠近原則,他旁邊是>大于號
其中{title=NO<}代表標題當中不包含有<號的字符串,也是遵循靠近原則,他旁邊的是<小于號
其中{NO"}代表不包含有"號的字符串,
必須要注意的是:為何他前面沒有等號呢?那是因為不考慮取他的值,我們只需要標題與文章的鏈接網址就足夠了.但是其他非相關的內容,也必須要寫一個這樣的正則.那是因為每個標題當中,他們都不是一樣的代碼.是變化的代碼.
注:所有NO後面可以寫上任何字符,可多個,但不能為中文,
例如:{url=NO' "=<>}代表除' "=<>他們之外的字符串
另外有一點還需要注意的是:
當這種情況的時候:
<tr><td><a href=文章URL地址1><font color=red>文章標題1</font></a></td></tr>

<tr><td><a href=文章URL地址2>文章標題2</a></td></tr>
這兩種情況同時存在的話,那麼就要換成
<tr><td><a href={url=NO>}>{title=NO[}</a></td></tr>
這里為什麼不遵循靠近原則呢?那是因為部分標題他外面還包含了一個標題顏色的HTML代碼<font color=red></font>而部分標題卻沒有,情況比較復雜.此時就需要找一個他們都不可能存在的符號,而這里設置[號,當然你也可以換成]+-]%#等等都可以的.只要他們當中都不可能出現的就可以.
另外還要注意的是,為什麼要用這段代碼:
<tr><td><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
而不用
<a href="{url=NO"}" title="{NO"}">{title=NO<}</a>
這段代碼呢?
答案是:用這段也可以采集,但是會采集到太多不相關的內容.也就是說精確度不高.盡量拿多點代碼.那精確度就會越高.但也不能過多.因為過多的話,有時就導致采集不到內容.只要唯一性就可以了.
url鏈接地址及標題中不能包含的字符
一般情況都必填<
多個請換行
(目的是過濾太多無用的鏈接地址)
標題不能小于幾個字符(常用):
留空不做限制,一個漢字相當于兩個字符,一般輸入8
(目的,有效過濾太短的標題也即是無用的鏈接)
url鏈接地址中必須包含的字符
多個請換行
(目的也是過濾太多無用的鏈接地址)
顯示不常用的高級設置(一般不用)
替換標題鏈接地址中的字符
(一般留空,目的是有些鏈接地址比較怪僻,點擊默認的不能訪問那個內容頁,不過情況極少出現.)
比如:
原字符a|新字符a
原字符b|新字符b
替換標題中的字符
(一般留空,目的是過濾某些標題中不想見到的文字)
比如:
原字符a|新字符a
原字符b|新字符b
欲截取頁面中的指定部分的標題鏈接地址,此部分標題在整個頁面HTML代碼所在位置之前唯一出現的字符串

(目的,去除指定標題之前無用信息,更準確無誤的采集指定標題鏈接地址)
欲截取頁面中的指定部分的標題鏈接地址,此部分標題在整個頁面HTML代碼所在位置之後最先出現的字符串,但不在標題所在html代碼里出現過

(目的,去除指定標題之後的無用信息,更準確無誤的采集指定標題鏈接地址)
開頭正則語法程序


(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行)
結尾正則語法程序

(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行)
(最好先測試,覺得滿意後,再提交)