关注互联网

2008年5月16日星期五

Google新的网络爬虫

搜索引擎依靠网络爬虫检索网页,它从一个链接爬到另一个链接同时存储文章内容和关键字,"Googlebot" 就是指 Google's spider software。

有两种google网络爬虫检索网页,至少一种爬虫执行对网页的全文扫描。

一种是: 66.249.64.47 - "GET /robots.txt HTTP/1.0" 404 1227 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"

新的一种是:66.249.66.129 - "GET / HTTP/1.1" 200 38358 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

那么这两种网络爬虫的区别是什么呢?

新的网络爬虫用一种稍微不同的用户代理:"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)". 这也就意味着Googlebot现在也接受 HTTP 1.1协议,新的网络爬虫也就可能理解更多的文本格式,包括HTML压缩文本。

GOOGLE为什么这么做呢?

Google还未作出答复,至今主要有两种理论:

第一种是Google利用新的网络爬虫来发现使用伪装,Javascript的重定向和其他可疑网站优化技术的网站,新的网络爬虫比旧的更加强大。

第二种理论是Google爬虫的广泛抓取可能是一种恐慌反应,因为索引需要在很短时间内重建,这种原因可能是指旧的网络爬虫索引包含了太多的垃圾邮件。

这对您的网站意味着什么?

如果您的网站使用值得怀疑的网站技术如伪装和Javascript的重定向,那么您可能会陷入麻烦,如果Google果真使用这种新的网络爬虫检测垃圾网站,那么您的网站可能会被禁止索引。所以要想获得Google搜索引擎的长期关注,您最好使用道德的网站优化技术。

新的网络爬虫可能对Google来说是一个重大更新。

没有评论: