星空: Google新的网络爬虫

搜索引擎依靠网络爬虫检索网页，它从一个链接爬到另一个链接同时存储文章内容和关键字，"Googlebot" 就是指 Google's spider software。

有两种google网络爬虫检索网页，至少一种爬虫执行对网页的全文扫描。

一种是： 66.249.64.47 - "GET /robots.txt HTTP/1.0" 404 1227 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"

新的一种是：66.249.66.129 - "GET / HTTP/1.1" 200 38358 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

那么这两种网络爬虫的区别是什么呢？

新的网络爬虫用一种稍微不同的用户代理："Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)". 这也就意味着Googlebot现在也接受 HTTP 1.1协议，新的网络爬虫也就可能理解更多的文本格式，包括HTML压缩文本。

GOOGLE为什么这么做呢？

Google还未作出答复，至今主要有两种理论：

第一种是Google利用新的网络爬虫来发现使用伪装，Javascript的重定向和其他可疑网站优化技术的网站，新的网络爬虫比旧的更加强大。

第二种理论是Google爬虫的广泛抓取可能是一种恐慌反应，因为索引需要在很短时间内重建，这种原因可能是指旧的网络爬虫索引包含了太多的垃圾邮件。

这对您的网站意味着什么？

如果您的网站使用值得怀疑的网站技术如伪装和Javascript的重定向，那么您可能会陷入麻烦，如果Google果真使用这种新的网络爬虫检测垃圾网站，那么您的网站可能会被禁止索引。所以要想获得Google搜索引擎的长期关注，您最好使用道德的网站优化技术。

新的网络爬虫可能对Google来说是一个重大更新。

星空

2008年5月16日星期五

Google新的网络爬虫

没有评论:

我的简介

博客归档

标签

友情链接