自動外鏈工具 在線排版工具 搜索引擎提交入口 wordpress主題推薦 批量打開網址工具 【老域名購買】 思享SEO導航 【網站合作】

SEO處理采集內容問答

341
文章目錄
  1. 正文抽取
  2. 內容去重

后臺留了一堆問題,本篇是對其中兩個問題的答疑

正文抽取

在【SEO如何處理采集內容 ①】中的“泛采集”部分提到過正文抽取,然后有一些人依舊表示不知道怎么搞。

這東西用網上開源的就可以,Google搜索“{編程語言}正文提取算法”便能找到一大堆的解決方案,如:Readability、Boilerpipe、Diffbot……大部分算法已經打包好了,拿過來就可以直接用,用不著自己寫。我們是做網站的,不是搞技術的,有現成的輪子用就OK了。

那么一些人又有一個問題:我該用哪個好呢?

No No No,這不是用輪子的思維,首先不可能每個算法都能提取所有的網頁,其次,算法不止一個。

那這件事就簡單了,一個算法沒有將當前網頁的正文提取出來,好辦,不用做別的,直接切下一個算法接著試,這個不行再換下一個,如果網頁正常,總有一個能將正文提取出來。除非這個頁面模板亂七八糟什么都有,比如網站首頁,沒有明顯的主體內容區塊,這個另算。

所以,如果泛采集過程中需要提取正文的鏈接中,最好先將首頁url過濾掉。

如果非要糾結用哪個好,請參考:http://tomazkovacic.com/blog/2011/06/09/evaluating-text-extraction-algorithms/

內容去重

另一個問題,采集到重復的內容咋辦?

本渣渣之前用過兩個辦法。

第一種:

首先我們已經限定有效內容需要滿足哪些指標,比如字數必須大于150字,才算有效內容,小于150字的刪除不入庫。那么大于150字的內容一般都有4個以上標點符號。

XXXXXXX,XXXXXXXXX。XXX:“XXXXXX,XXXXXXXXXXXX。XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX。XXX?”
XXXX,XXXXXXX。XXXXXXX;XXXX;XXXXXXXX;XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX?-?XXX!

所以每篇文章,從第2個標點符號開始,連續提取兩個標點符號之間的文本,且字數大于7的,直至提取3個文本段。

然后將這3個文本段合并成一個,將文本段重復的文章去重,只保留一個。因為連續3個文本段相同的文章基本都是重復的,而且是完全重復,改都沒改的。

第二種

用現成的文本去重算法,依舊Google搜索,一堆現成的解決方案,如simhash、Shingling…..

首先對所有抓回來的文本清洗,去除無關詞匯,如停止詞、助詞(的地得..)什么的,然后再通過上述的解決方案來計算相似文檔。

哪個好?本渣渣覺得都一般,沒覺得哪個好,但都可以湊活用。。。

但都有個問題,一旦文章量大起來,比如上了幾百萬,程序跑起來很慢,巨燒CPU,怎么辦??

于是就沿用第一種辦法的思路,不分析全文了,直接找出每篇文章的最長的n句話,做一遍hash簽名,然后還是用上述現成的算法去跑,n一般取3。不但運行速度快了很多,找相似文章的最終效果貌似也比之前好了。

 

===================================================

 

來源:本文由思享SEO博客原創撰寫,歡迎分享本文,轉載請保留出處和鏈接!
seo培訓評論廣告

搶沙發

昵稱*

郵箱*

網址

七乐彩选号技巧