問:網站最近遇上個全站克隆+實時采集的小偷站,搞我的沒辦法。百度會懲罰克隆網站嗎?
百度答:百度有專門的算法識別克隆網站。看你說的這種情況,更象是對方將域名直接指向到你的服務器上了,可以直接在服務器端拒絕所有非正常域名的訪問。
問:自己的原創內容排名常常比不過轉載或抄襲的,站長能做些什么預防或改進?
百度答:這個,只能說百度的策略還不是很完善,我們也一直在改進。另外,從用戶體驗角度,有些轉載未必比原創差。比方一篇科技原創博文,被知名門戶網站的科技頻道轉載。如果這種轉載保留原創者姓名和出處鏈接,實際上對原創者是有利的,因為起到了更好的傳播效果。只是國內的轉載,很多是掐頭去尾,使原創者比較受傷。
問:百度如何面對很難處理的重復頁面,比如列表頁有分頁,文章頁也有分頁,他們的meta都是相同的,這樣會不會當重復頁面處理。同時比如一個 論壇有兩篇相同的帖子都收錄,會影響先收錄的排名嗎?

百度答:1,判定頁面重復的算法很復雜。可以肯定的是,僅meta相同,是不會被判為重復的。
2,相同兩個帖子被收錄(url可能不同),低權重的頁面會不被建索引,或者被高權重頁面類聚掉。
問:百度對重復內容是如何處理的?
百度答:這的確是個顯著的問題。這表明我們在這方面的策略上有極大改進空間。這類積重的問題,非一朝一夕能搞定,需要傷筋動骨的動動手術才行。所以請大家耐心。
另外需要說明的是,搜索引擎的排序出發點,是用戶的搜索體驗。雖然說,很多時候尊重原創和用戶體驗是一致的。但是,畢竟也有一些case,轉載的體驗會比原創更好。這時候原創者的排序未必會高于轉載者。但無論如何,原創者的應該以另外一種方式被肯定,而不是簡單的被聚合掉。
問:百度如何看待偽原創?
百度答:“偽原創”就是“非原創”。對非原創的策略,同樣適用于偽原創。歸根結底,這是一個技術實現程度問題,而不是策略思路問題。
問:如何處理百度從別的站抓取帶有廣告參數的url?
百度答:沒有什么壞的影響。另外,我們也計劃推出一個簡單的工具,方便大家處理這樣的無效參數,屆時會知會大家。
問:被小偷程序高度采集怎么辦?百度有什么識別的方法沒?
百度答:對于惡劣的小偷采集站,我們設有專門的識別并在逐步完善。



