A. 火車頭採集標簽過濾
這個並不復雜,用到火車頭的兩個功能,一個是標簽過濾,一個是循環採集。這兩個功專能在編輯採集屬規則頁面里。
採集規則:
起始:<span>結尾:</span></div> 設置循環採集 設置標簽過濾 把網頁代碼類的都去掉
B. 火車頭採集器怎麼過濾刪除無用信息
火車頭採集器怎麼過濾刪除無用信息?大家在使用火車頭採集器的過程中難免會版遇見某些無用的信權息或者是自己不想要採集的數據,但是因為各種各樣的原因而無法避免。
對於文章內容頁出現的垃圾信息,我們可以通過內容替換功能將其刪除。
相對進階一點的使用替換功能過濾刪除垃圾信息還可以使用星號功能來進行模糊刪除,
舉例,我們通過採集規則設置需要採集一批新聞內容,結果這些新聞內容的標題中混入了幾個軟體下載地址,這時候我們利用過濾功能就能夠方便的解決問題。
我們可以打開標題標簽的編輯界面,選擇內容過濾,在不得包含的內容中填入下載,這樣在標題中所有包含「下載」字樣的標題就會被過濾出來。
之後,我們在詳細設置中對於過濾處理選擇刪除,就可以刪除這些我們不想要的採集內容。
合理利用火車頭採集器自帶的過濾垃圾信息的功能,就可以大大提高我們的採集質量,避免了人工審核內容的煩惱。