这不是什么绝窍,而是向大家提供一种思路。 目前采集站很多,加上百度算法频繁调整,被降权,被K成光杆司令的站比比皆是。 我的新站易拍屋www.epioo.com就更不例外了。这是一个网摘类站点,在会员收藏网页 ...
这不是什么绝窍,而是向大家提供一种思路。
目前采集站很多,加上百度算法频繁调整,被降权,被K成光杆司令的站比比皆是。
我的新站易拍屋www.epioo.com就更不例外了。这是一个网摘类站点,在会员收藏网页的同时不仅给网页截图还保存原网页代码,即完全备份一个页面,存在高度复制性。
刚开始的时候百度收录3千页每天就有1千多IP,可是好景不长,几天下来,每天变成了0IP,一杆子降到底,收录也放缓了。
我就在思索为什么高度复制的网页,百度只是降了权重,却没有拔毛。除了模板完全原创以外难道还有什么原因让百度认为易拍屋还是有点可亲呢?
思来想去大概原因只有一个,就是我的网站里还有相当数量的网页列表页和标签页不存在太高的复制性,从百度收录偏好上来看也是如此,你可以查看site:epioo.com,标筌页收得最多。而标签页全是标题链接,对SEO非常有利,如果网站权重能提升的话,呵呵...
为了进一步论证列表页不会被视为垃圾页,我特地观查了网图导航www.wt265.cn,该网站列表页也存在复制性,但是一直没有被降权,而且稳居百度网址排行第2位:
http://up.baidu.com/rank_16.html
看到这里就有一线点曙光了——舍卒保帅,自已K掉内容页!
真的删除内容页不太可能,最简单的办法当然就是让robots.txt告诉亲爱的百度不要理会内容页了
。
如何设置robots.txt请参考 http://www.baidu.com/search/robots.html
需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
GOOGLE和百度都支持使用"*"和"$":
baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。
变废为宝,大家快用robots.txt打造一个伪原创站吧!
admin5首发
|