[采集參數列表] [手工添加新規則] [導入新規則] [下載新規則] [修改標題參數] [修改內容參數]
>>內容采集規則設置
類似奇虎/大旗框架對方網頁即可 內容采集(常用,請選擇) 高級采集(一般不用)
是否過濾相同的標題而不采集:
(目的,防止采集重復文章)
是過濾 不過濾
自定義正則語法規則(即用通配符替換原文內容):
第一步,打開查看任意一篇要采集的文章詳細內容頁HTML網頁源代碼.
第二步,查看網頁源代碼,找到文章內容,刪除他,用通配符{content=*}替換,然後再把他前面與後面的一小段代碼也復制過來即可.

簡單舉例(常用):比如被采集的網站內容頁的html代碼如下
<tr><td>文章內容部分</td></tr><table>
那麼右邊輸入
<tr><td>{content=*}</td></tr><table>

說明:通配符的前後有一小段HTML代碼,是不可少的,目的是為了找規則,不需要太多,也不要太少,達到唯一性即可.

復雜舉例(少用):比如內容的html代碼如下
時間:2008-12-24 12:13abc不相關內容作者:張三abc不相關內容來源:php168網站abc不相關內容<tr><td class="asc">文章內容部分</td></tr><table>
那麼右邊輸入
時間:{posttime=*}abc{*}作者:{author=*}abc{*}來源:{copyfrom=*}abc{*}<tr><td class="asc" >{content=*}</td></tr><table>
注意︰除內容外,其它每個參數後面,一般都帶有{*}非相關內容的通配符,通配符前面都有一個固定的字符,不能缺少固定的字符,如abc

必須要注意的是:
為何要取內容的html代碼如下
<tr><td>文章內容部分</td></tr><table>
那麼右邊輸入
<tr><td>{content=*}</td></tr><table>
而不是
<tr><td>文章內容部分</td></tr>
那麼右邊輸入
<tr><td>{content=*}</td></tr>
這個呢?
為什麼要多一段 <table> 呢?其實少這一段也是可以的,但就有可能采集到其他內容,即是精確度不高.代碼多一點,精確度就高一點,但也不是越多越好.因為太多的話.有可能就采集不到了.

注意: 如果你采集的不僅僅是內容,還有其它作者、來源等參數,注意不能缺少{*},{*}代表非相關內容的通用代表符.
如果想盡可能的做到絕對精確,你設置以下的完畢後,請再點擊上方的[采集文章]進行采集主內容設置
文件後綴名
采集圖片的話,請輸入jpgjpg|gif,FLASH的話.請輸入swf
文件地址開頭必須有的字符
適用于哪個系統:
文章系統的話寫article,其他可選參數為music,mv,photo,flash,down
留空,則為文章
文件url地址長度不能小于

文件不能小于多少字節

最好留空,極影響效率
文件URL地址必須包含有的字符

多個請換行
文件URL地址不能包含有的字符


多個請換行
文件url分隔符

一般是src=
為了更準確的話,也可以再長一點
顯示不常用的高級設置(一般不用)
要替換文章中的字符:

目的,過濾不願意看到的文字
格式為舊字符|新字符
多頁處理:默認首頁被替換的字符
(如留空,內容如有多頁將不采集直接跳過)
比如:
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_2.html
那麼右邊的表單填.html
分析規則就是對比第一頁與第二頁的網址從左到右哪個字符出現不同,就把之後的字符復制出來
多頁處理:變動的頁去替換的字符
(留空,內容如有多頁將不采集直接跳過)
比如:
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_2.html
那麼右邊的表單填_[page].html
分析規則就是對比第一頁與第二頁的網址從左到右哪個字符出現不同,就把第二頁之後的字符復制出來,並把變動的頁碼數字用[page]替換
多頁時.第二頁是否怪癖,
比如:
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_1.html
此時屬于怪癖的,理論上應該是
第三頁http://php168.com/1/index_2.html
所以右邊請選擇是,一般情況都是選否的
開頭PHP正則程序語法

(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行)
結尾PHP正則程序語法

(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行)
采集文件結尾的PHP正則程序語法

(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行)
幫助說明
1.通配符說明︰內容通配符是{content=*},不相關內容通配符是{*},作者通配符是{author=*},來源通配符是{copyfrom=*},日期通配符是{posttime=*},瀏覽量通配符是{hits=*}
2.當你僅僅獲取內容時,是不需要用到“不相關內容”通配符的,否則是必須要用到“不相關內容”通配符的,不使用{*}的話,基本上是采集不succeed。
3.針對于非文章模型的采集,你需要查看對應的自定義字段的英文字段名,即{自定義字段名=*}即可,如字段名是abcd,那麼通配符是{abcd=*}
4.對于自定義模型,任何一個自定義字段,都是可以采集入庫的.
5.采集器的原理就是查看網頁源代碼,找到要采集的字符串用通配符替換.如果要采集的不僅僅是文章內容的話,也即要采集兩項以上的話,就必須要使用“不相關內容通配符”,但是采集字段的通配符後面或前面不能直接是{*},必須要有其它至少一個以上的HTML代碼隔開