要采集的標題列表頁,有多頁,每頁換一行
比較傻瓜化,沒規則的標題列表頁可以在此輸入,而有規則的也可以手工在此一頁一頁的輸入 注意:是文章的列表頁,不是內容頁
|
|
自定義正則語法規則(即用通配符替換原文內容):
第一步,隨意查看一個要采集的標題列表頁HTML網頁源代碼.
第二步,在源代碼里,隨意找一篇文章的標題與網址,只能是一篇文章中的一小段代碼,不能是兩篇.
舉例:比如要采集的某個列表頁中的任何一篇文章的標題html代碼大致如下
<tr><td><a href="文章URL地址"
title="文章標題">文章標題</a></td></tr>
那麼左邊輸入
<tr><td><a href="{url=*}"
title="{*}">{title=*}</a></td></tr>
以上只是舉例,其中︰
{url=*}代表標題網址通配符
{title=*}代表標題通配符
{*}代表不需要的內容通配符,比如當鏈接地址中有title描述的時候,就必須要使用到它,不能同時使用兩個標題通配符的。
復雜設置如下︰
比如要采集的某個列表頁中的任何一篇文章的標題html代碼大致如下
<tr><td><a href="文章URL地址"
title="文章標題">文章標題</a></td></tr>
那麼左邊輸入
<tr><td><a href="{url=NO"}"
title="{NO"}">{title=NO<}</a></td></tr>
其中{url=NO"}代表地址當中不包含有"雙引號的字符串
注意:如果代碼當中沒有"號,而是單引號的話,要改變一下,如
<tr><td><a href='文章URL地址'title="文章標題">文章標題</a></td></tr>
以上這個情況是單引號的話,
那麼需要變成
<tr><td><a href="{url=NO'}"
title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 換成了 {url=NO'}
這里遵循的是靠近原則,它旁邊是什麼符號,就輸入什麼符號.又比如是這種情況的話
<tr><td><a href=文章URL地址 title="文章標題">文章標題</a></td></tr>
那麼需要變成
<tr><td><a href={url=NO
} title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 換成了 {url=NO
}
遵循的是靠近原則,他旁邊是空格,這里也要輸入空格,但必須要注意你的輸入法是不是全格.如果是全格的話.要換為半格.全格輸入的空格是有問題的.
又比如是這種情況的話
<tr><td><a href=文章URL地址>文章標題</a></td></tr>
那麼就要換成
<tr><td><a href={url=NO>}>{title=NO<}</a></td></tr>
即是把 {url=NO"} 換成了 {url=NO>}
遵循的是靠近原則,他旁邊是>大于號
其中{title=NO<}代表標題當中不包含有<號的字符串,也是遵循靠近原則,他旁邊的是<小于號
其中{NO"}代表不包含有"號的字符串,
必須要注意的是:為何他前面沒有等號呢?那是因為不考慮取他的值,我們只需要標題與文章的鏈接網址就足夠了.但是其他非相關的內容,也必須要寫一個這樣的正則.那是因為每個標題當中,他們都不是一樣的代碼.是變化的代碼.
注:所有NO後面可以寫上任何字符,可多個,但不能為中文,
例如:{url=NO' "=<>}代表除'
"=<>他們之外的字符串
另外有一點還需要注意的是:
當這種情況的時候:
<tr><td><a href=文章URL地址1><font
color=red>文章標題1</font></a></td></tr>
或
<tr><td><a href=文章URL地址2>文章標題2</a></td></tr>
這兩種情況同時存在的話,那麼就要換成
<tr><td><a href={url=NO>}>{title=NO[}</a></td></tr>
這里為什麼不遵循靠近原則呢?那是因為部分標題他外面還包含了一個標題顏色的HTML代碼<font color=red></font>而部分標題卻沒有,情況比較復雜.此時就需要找一個他們都不可能存在的符號,而這里設置[號,當然你也可以換成]+-]%#等等都可以的.只要他們當中都不可能出現的就可以.
另外還要注意的是,為什麼要用這段代碼:
<tr><td><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
而不用
<a href="{url=NO"}" title="{NO"}">{title=NO<}</a>
這段代碼呢?
答案是:用這段也可以采集,但是會采集到太多不相關的內容.也就是說精確度不高.盡量拿多點代碼.那精確度就會越高.但也不能過多.因為過多的話,有時就導致采集不到內容.只要唯一性就可以了.
|
|