自定義正則語法規則(即用通配符替換原文內容):
第一步,打開查看任意一篇要采集的文章詳細內容頁HTML網頁源代碼.
第二步,查看網頁源代碼,找到文章內容,刪除他,用通配符{content=*}替換,然後再把他前面與後面的一小段代碼也復制過來即可.
簡單舉例(常用):比如被采集的網站內容頁的html代碼如下
<tr><td>文章內容部分</td></tr><table>
那麼右邊輸入
<tr><td>{content=*}</td></tr><table>
說明:通配符的前後有一小段HTML代碼,是不可少的,目的是為了找規則,不需要太多,也不要太少,達到唯一性即可.
復雜舉例(少用):比如內容的html代碼如下
時間:2008-12-24 12:13abc不相關內容作者:張三abc不相關內容來源:php168網站abc不相關內容<tr><td
class="asc">文章內容部分</td></tr><table>
那麼右邊輸入
時間:{posttime=*}abc{*}作者:{author=*}abc{*}來源:{copyfrom=*}abc{*}<tr><td
class="asc" >{content=*}</td></tr><table>
注意︰除內容外,其它每個參數後面,一般都帶有{*}非相關內容的通配符,通配符前面都有一個固定的字符,不能缺少固定的字符,如abc
必須要注意的是:
為何要取內容的html代碼如下
<tr><td>文章內容部分</td></tr><table>
那麼右邊輸入
<tr><td>{content=*}</td></tr><table>
而不是
<tr><td>文章內容部分</td></tr>
那麼右邊輸入
<tr><td>{content=*}</td></tr>
這個呢?
為什麼要多一段 <table> 呢?其實少這一段也是可以的,但就有可能采集到其他內容,即是精確度不高.代碼多一點,精確度就高一點,但也不是越多越好.因為太多的話.有可能就采集不到了.
注意: 如果你采集的不僅僅是內容,還有其它作者、來源等參數,注意不能缺少{*},{*}代表非相關內容的通用代表符.
|
|
要替換文章中的字符:
目的,過濾不願意看到的文字
格式為舊字符|新字符 |
|
多頁處理:默認首頁被替換的字符
(如留空,內容如有多頁將不采集直接跳過)
比如:
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_2.html
那麼右邊的表單填.html
分析規則就是對比第一頁與第二頁的網址從左到右哪個字符出現不同,就把之後的字符復制出來 |
|
多頁處理:變動的頁去替換的字符
(留空,內容如有多頁將不采集直接跳過)
比如:
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_2.html
那麼右邊的表單填_[page].html
分析規則就是對比第一頁與第二頁的網址從左到右哪個字符出現不同,就把第二頁之後的字符復制出來,並把變動的頁碼數字用[page]替換 |
|
多頁時.第二頁是否怪癖,
比如:
第一頁http://php168.com/1/index.html
第二頁http://php168.com/1/index_1.html
此時屬于怪癖的,理論上應該是
第三頁http://php168.com/1/index_2.html
所以右邊請選擇是,一般情況都是選否的 |
是
否 |
開頭PHP正則程序語法
(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行) |
|
結尾PHP正則程序語法
(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行) |
|
采集文件結尾的PHP正則程序語法
(適合處理采集比較怪僻的網站.不懂PHP程序的,請留空,否則會出現嚴重問題使得采集程序無法運行) |
|