关注互联网

2008年5月16日星期五

Google新的网络爬虫

搜索引擎依靠网络爬虫检索网页,它从一个链接爬到另一个链接同时存储文章内容和关键字,"Googlebot" 就是指 Google's spider software。

有两种google网络爬虫检索网页,至少一种爬虫执行对网页的全文扫描。

一种是: 66.249.64.47 - "GET /robots.txt HTTP/1.0" 404 1227 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"

新的一种是:66.249.66.129 - "GET / HTTP/1.1" 200 38358 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

那么这两种网络爬虫的区别是什么呢?

新的网络爬虫用一种稍微不同的用户代理:"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)". 这也就意味着Googlebot现在也接受 HTTP 1.1协议,新的网络爬虫也就可能理解更多的文本格式,包括HTML压缩文本。

GOOGLE为什么这么做呢?

Google还未作出答复,至今主要有两种理论:

第一种是Google利用新的网络爬虫来发现使用伪装,Javascript的重定向和其他可疑网站优化技术的网站,新的网络爬虫比旧的更加强大。

第二种理论是Google爬虫的广泛抓取可能是一种恐慌反应,因为索引需要在很短时间内重建,这种原因可能是指旧的网络爬虫索引包含了太多的垃圾邮件。

这对您的网站意味着什么?

如果您的网站使用值得怀疑的网站技术如伪装和Javascript的重定向,那么您可能会陷入麻烦,如果Google果真使用这种新的网络爬虫检测垃圾网站,那么您的网站可能会被禁止索引。所以要想获得Google搜索引擎的长期关注,您最好使用道德的网站优化技术。

新的网络爬虫可能对Google来说是一个重大更新。

wordpress 十佳插件


WordPress是一个简单的使用博客工具,只需简单点击几下就能在WordPress能够成为一个充分成熟的内容管理系统( CMS )

1-Akismet

反垃圾邮件插件,自动检查是否为垃圾邮件

2-WP Super Cache

非常有效率的W ordPress网页缓存系统,大大提高网站的反应速度,工作原理是把worpress页面保存成 静态档案以备使用

3-WP-PostViews

记录显示页面被浏览次数。

4-WP-PageNavi

导航页功能,使读者通过页码轻松跳读。

5-Simple Tags

标签功能,通过标签实现轻松管理和查找

6-All in One SEO Pack

自动搜索引擎优化

7-Google XML Sitemaps

此插件告诉Google应如何抓取您的博客和在哪里可以找到你想要的

8-Wordpress Thread Comment

此插件是用来增强评论功能的,它允许读者评论已经存在的评论。

9-FeedBurner FeedSmith

此插件把WordPress自己的Feed发给FeedBurner,同时创建一个随机的feed让feedburner撤出

10-Wordpress Database Backup

为您的wordpress数据库文件自动备份。

blogger无法查看怎么办?


blogger是个很好的博客,但有时会被国内防火墙封锁,不用着急,要想查看自己的blogger只用按下面方法做就可以。
方法:在你的博客阅览地址的后面加上 .nyud.net:8090

举个例子,我的blogger地址是http://xingkong178.blogspot.com,如果把直接用这个地址登录肯定会出来个百度知道提示你无法登陆,因为blogspot在中国被防火墙封锁,但加上.nyud.net:8090就可以了,变为:

http://xingkong178.blogspot.com.nyud.net:8090。ole,不信试试。

Google工具栏大全

1-New! Custom buttons 帮你轻松访问你喜欢的网站,还能列出当今流行网站。

2-New! Send To 利用这个工具可以实现网页通过邮件,SMS或博客的共享。

3-New! Bookmarks 创建书签功能,而且能在任何装上Google工具栏的计算机上访问自己的书签菜单。

4-New! Google Account Sign-in 登入或登出你的Google账户。

5-Subscribe to Feed 订阅功能,把你喜欢的博客一起订阅到Google Reader浏览。

6-Send with Gmail Google的gmail.

7-AutoLink
自动生成地图,比如你有一个新宾馆的地址但没有地图,输入邮政编码,城市名和街道名,自动为您生成在线地图,但此服务只限于美国。


8-SpellCheck 拼写自动检错,不必再害怕拼写错误了。

9-PageRank Display 为您当前浏览的网页打分,同时还有缓存网页快照,类似网页和反向链接选项。

10Highlight Search Terms 一旦输入网址,你就没有必要再费力寻找,此工具立即为您列出相关网页。

11-Word Find Buttons 在网页里寻找一个特定的字是很郁闷的,现在轻松了,试试这个工具吧。

12-AutoFill 网上购物时不必再费力输入网址,通过轻松点击完成一个表格,下次购物时只需输入简单的相关信息,此工具就会列出相应选择。

13-WordTranslator 翻译功能。

Enhanced Search Box
输入一个单词,此工具就会为你列出相关著名网址。

Google Safe Browsing
Google已经把安全浏览功能镶嵌如工具栏中,当你要浏览的网页有潜在危险时会受到相应提示。

facebook开源挑战Google


近日,美国最著名的校内社交网站Facebook宣布将其网站平台代码和应用工具开源。

其实Facebook开源的目的很明显,就是抵制Google、MySpace、Yahoo、AOL等联手推出的
opensocial计划。

代码下载地址为:developers.facebook.com/fbopen/

opensocial


The web is better when it's social


当你能轻松建立用以联系朋友的网站时,互联网将变得更有趣。随着网站的广泛应用,就会出现越来越多的网站应用程序接口,那样的话,编程人员的负担无疑增加了,因为他不得不学会每一种。


OpenSocial定义了一个标准的应用接口,利用标准的JavaScript和HTML,开发人员可以创建社交网站的应用程序。


Many sites, one API


一个标准的应用程序接口意味着你不用再学习繁杂的技术来构建复杂的网站了。opensocial正被广大社区开发人员完善,最终目的就是使社交网站能轻松应用。


Server optional


opensocial 是基于小工具之上的,所以你耗费很少的服务器成本就能建立一个伟大的社交应用网站。利用Google小工具编辑器和一个简单的key/value API ,你根本不用服务器就能建立一个社交应用网站。当然如果你喜欢,你可以把网站架构在您自己的服务器上。总之,Google的小工具的高速缓存技术可以缓解您的带宽需求