利用自定义HEADER屏蔽搜索引擎

搜索引擎收录blog对有些人而言并非是件好事,例如我就不喜欢百度的爬虫扫我的站,带来毫无意义的访问和闲杂人等。对于使用blogbus这样的BSP用户而言,自行定义robots.txt还没法实现,不过好在bus最近新推出了个自定义header的功能,我们可以利用meta信息来屏蔽某些搜索引擎乃至全部

假如你想屏蔽所有搜索引擎的抓取的话,可以在自定义header里添加如下一句

<meta name="robots" content="noindex, nofollow" />

noindex的作用是要求搜索引擎不索引你的网页,而nofollow则是不跟随网页里出现的外部链接。例如你不希望你网页里的apple.com的链接被跟随从而间接的提高apple.com的pagerank或者说免费替它打广告,nofollow的作用就显现了,事实上很多comment spam就是利用nofollow以躲避搜索引擎将其网站视为作弊的处罚。

当然,如果我们只想屏蔽某些爬虫的话,只需要把meta里的name属性改成相应的爬虫名字,例如:

<meta name="baiduspider" content="noindex, nofollow" />
<meta name="sosospider" content="noindex, nofollow" />
<meta name="sogouspider" content="noindex, nofollow" />

这三句的话分别把百度,腾讯搜搜(实如其名,just so so),搜狗的爬虫给屏蔽了

至于你想屏蔽更多的话,请google关键字"搜索引擎名字 robots.txt"

引申阅读: Preventing content from appearing in Google search results





5 Replied

  • 太实用了。我就烦通过各种搜索进入我博客的人。
    其中还有一些不怀好意的偷窥狂。
    Jessie wrote this at 2008-05-15 16:55:39 [回复]
  • 谢谢,很喜欢这个
    trueice(路过) wrote this at 2008-04-13 00:02:53 [回复]
  • .......这招狠。

    虽然说博客是SEO作弊的好地方,但是对于想博客有点名气的是有好处的。

    有好处也有代价。衡量选择。
    punkid 回复 majer 说:
    个人觉得时下很多的SEO tips其实是误传,blog也并非绝对的SEO friendly,像blogbus的blog就远非SEO friendly,首先他的URL地址就不够友好。

    当然,我几乎不做任何SEO工作,我认为只要有好的内容,页面代码够semantic,配合tag的作用就够了。
    (2008-02-23 23:54:12)
    majer wrote this at 2008-02-23 21:08:31 [回复]
  • 呃,难道你的一些实用的文章都拒绝收录吗?
    punkid 回复 heeroyuyj 说:
    Not this blog :D
    (2008-02-20 20:47:07)
    heeroyuyj wrote this at 2008-02-20 18:39:49 [回复]
  • 这个好,我马上加。
    alice wrote this at 2008-02-20 09:38:26 [回复]

Leave a Reply

{#face:1} {#face:2} {#face:3} {#face:4} {#face:5} {#face:6} {#face:7} {#face:8} {#face:9} {#face:10} {#face:11} {#face:12} {#face:13} {#face:14} {#face:15}

About

这是一个致力于挖掘,完善blogbus功能,分享blogbus小技巧和非官方资源的博客。所谓"hack",就是在官方未能达到实现某种功能之前,自己通过各种"邪门歪道"来实现它。

欢迎有兴趣的朋友加入到这个博客中来,一同完善这个站,提供更多有用的资源/技巧给blogbus用户们。

这是我的e-mail联系地址(Dont Spam It for God's Sake):

punkid.online@gmail.com

Miscellaneous