http://www.pcxingxing.net.ru/main/2007-10/13-baidu-search-results-through-artificial-edit.html
试试在百度中搜索”Google Reader“,你会发现一个奇怪的现象
分析一下访问Google Reader会被,重定向Google Account的登录页面,这个页面是经过SSL加密,所以爬虫才会访问不到
update:
看了一下google的robots.txt,发现一个问题
http://www.google.com/robots.txt
有一行
Disallow: /reader/
这表明这个页面是不因该被收录的,但是包括Google本身的搜索引擎都没有遵守这个规则。
这个页面看起来的确是人工加上去的
Random Posts
如果你喜欢我的文章, 随时 订阅我的RSS feeds




















BlogoSquare
12月 7th, 2007 at 10:09 pm
无法访问呢!