headermask image

header image

Monthly Archives: 07月 2008

前Google工程师开发新搜索引擎“Cuil”

硅谷一家名不经传的小公司“Cuil”近日自称推出了互联网上最大的搜索引擎,其索引页面的数量比Google还要大三倍。这家公司的总裁Anna Patterson此前曾在Google工作,但是她在2006年离开了公司,并和她的丈夫和几位朋友共同创建了Cuil搜索引擎(Cuil发音为“酷”,源自于盖尔语,意为“知识”),她的丈夫Tom Costello此前帮助IBM构建了新型搜索引擎WebFountain,而另外另外工程师Russell Power和Louis Monier则是Google的TeraGoogle项目前工程师。
在界面上Cuil搜索引擎并没试图模仿Google,但是也不具备图片、视频搜索能力。但Cuil相信,通过其特有的识别方法和结果展示页面,它也能一枝独秀。Cuil的搜索结果页面提交就像是一本杂志的内容,而不只是内容的叠加。Cuil也承诺将不保留用户的搜索历史,以保证用户的隐私。
Cuil搜索引擎目前获得了3300万风险投资,他们宣称索引数量已经超过1200亿个网页,是Google的三倍左右。不过Google没有公开其索引页面的数量,所以Google的实际索引数量仍不得而知。Patterson表示,3年前Google索引的页面数量是82亿个页面。
在Cuil对外公开索引页面数量之后,Google上周五在官方博客中透露,他们索引的页面数量在1万亿左右。不过Google并不会把所有索引到的页面都放到搜索结果中,因为这样会削弱搜索结果质量。
访问:cuil

谷歌中国内测音乐搜索

Google将推音乐搜索业务的传闻由来已久.这也是谷歌在全球范围内的首个MP3服务,谷歌MP3搜索业务已确定的一个商业模式是,与合作伙伴进行广告分成,这借鉴了谷歌中国其他业务的一些经验.目前,谷歌中国一个重要任务是继续加快合作伙伴的开拓,加大音乐资源的积累.
查看了Google.com的robots.txt ,其中增加了几行内容,这些行在之前是不没有的:

Disallow: /musica
Disallow: /musicad
Disallow: /musicas
Disallow: /musicl
Disallow: /musics
Disallow: /musicsearch
Disallow: /musicsp
Disallow: /musiclp

这也可以证明了Google可能的确要出音乐搜索了。但是具体什么时候正式开放就不知道了。
“谷歌MP3搜索将为用户提供最佳搜索结果,只提供一个结果,音乐质量很高,不会像其他搜索引擎一样让用户感到无从选择.”据消息人士透露,正版将是谷歌MP3搜索的主打招牌,但该服务是否对用户永久免费,以及是否会对音乐格式做一些加密,这些问题都有待揭晓.

搜狗推出卫星地图服务

据搜狐网报道,搜狗地图正式发布“搜狗卫星影像地图”服务。据了解,这是目前国内第一个应用了最新数据的卫星图片产品,首次发布21个城市的高清晰影像服务,其中涵盖全部七个奥运城市。
据搜狐网介绍,使用搜狗卫星影像地图无需下载,打开网页版搜狗地图即可自由切换。通过搜狗地图提供的卫星影像服务,使用者可以清楚地看到地面上的建筑、 汽车、树木,甚至是道路上的标线,据知情人士介绍,“最高分辨率达到了0.5米/像素,已经是世界商用卫星图片服务的极限。”通过这项服务,网民甚至可以 轻易地分辨出地上的小汽车是二厢车还是三厢车,更可以快速寻找到自己家的屋顶。在搜狗卫星影像服务中,用户依然能够进行地图搜索的相关操作,诸如放大缩小 图像、对位置进行临时标注、测距、截图,还可以随时与传统地图切换,使用公交、自驾线路查询等基本功能轻松指引出行路线。

Google公布互联网最新索引数量:1,000,000,000,000个网页

连Google也不得不承认互联网真的是很大很大的东西,到现在为止,他们已经索引了一兆(百万的平方)的网页数,数量比银河系的星体还多出一倍.
Google的索引在1998年开始工作,当时他们收集了2600万个页面,2000年就突破了10亿,到10年后的2008年,Google的数据库变成了全球最庞大的索引之一.

DNS漏洞攻击代码已经公布 危险迫在眉睫

Infoworld 报道,著名黑客HD Moore已经率先公布了可用代码.利用这段代码可以对DNS服务器进行投毒,将一条恶意纪录植入目标服务器,该服务器将随机发起域名查询,此时攻击者可以提供伪造的响应,将域名服务器中的纪录指向其特定站点.这个漏洞攻击可以默默的改变用户的升级服务下载恶意软件,IOActive研究者Dan Kaminsky很早发现漏洞并且无意中这周公布了漏洞使得开发出攻击代码.infoworld.com网站也提醒了这个攻击导致的网络钓鱼欺骗的问题.
通过这个网址http://metasploit.com/dev/trac/changeset/5579可以看到国外黑客发布的DNS漏洞攻击代码。

Google发布Knol

Google周三推出了Knol挑战维基百科,让用户写自己擅长的东西.
Knol产品经理塞德里克-杜邦表示:“我们深信,这种著述方法让读者相信这些内容.”Google从去年十二月开始对该产品进行测试.Knol的发布工具与博客页面的工具类似,但是Knol鼓励作者将内容缩减到一页,而不是按时间数序的很多页面.
杜邦说:“我们不希望最后的声音获胜,这对一个忙碌的专业人士是很困难的.”Google希望按照受欢迎程度排列,以便鼓励竞争.
与维基百科按话题区分不同,Knol的重点是个人用户或用户群.Knol不编辑信息.只要作者不批准,用户不能修改信息,也不能写新信息,用户可以通知Google内容是否客观.
Google与《纽约人》签约,让Knol的作者们都可以使用一个该杂志著名的漫画人物,作者们还能够在页面上做广告并获得收入分成.杜邦说:“我们希望Knols将填补网络上的一些空白.”
Knol
Google终于发布了knol,但是不知道这会不会像维基一样被河蟹呢?

.org域名将首先使用DNS安全扩展协议

基于目前互联网爆出的DNS漏洞问题,ICANN近日批准了一项符合公众利益的重要决定,.org域名将首先转移为使用DNS安全扩展(DNSSEC)协议的顶级域名.
DNS自身的缺陷最早被发现于1990年,但是一直没有相关的问题解决方法,最新的“cache投毒”方法据称可以有效伪造DNS信息,利用DNS缓存服务器来达到劫持网站的目的.
DNSSEC 发展于1997年1月,开发周期长达11年,DNS安全扩展(DNSSEC)协议创建的目的是为了解决原DNS协议中的漏洞,使之不再 容易遭受攻击。不过因为DNSSEC会产生额外的数据开销而得不到普及。根据早期的协定,如果要使用DNSSEC,必须将之覆盖整个互联网。而且,有关隐 私和法律方面的疑虑涌现出来,使之无法获得普及。
不过,.org域名实际上并不是最需要考虑到域名,但是鉴于一些国家已经拥有了自己的顶级域名,这不是ICANN所能控制的,可以简单而 快速从 DNS转移到DNSSEC的顶级域名目前只有.org。不过如果ICANN可以控制全面的互联网访问权限,那么全部域名转移也不是不可能。至于ICANN 和美国政府是否可以值得信任,则是另外一个问题。
从.org域名的转移我们可以看到,尽管步伐缓慢,不过DNS将最终转移到DNSSEC上。

谷歌拟2亿美元收购Digg网站 谈判已近尾声

周二有消息称,谷歌将以2亿美元左右的价格收购Digg网站. 多处消息显示,在过去的6个星期中,谷歌再次与Digg展开了并购谈判.而且,目前谈判已接近尾声,预计交易规模在2亿美元左右.如果交易成功,Digg 将被融入到谷歌的新闻服务中.早在今年3月份就有消息称,谷歌有意并购Digg,但被Digg CEO杰伊·阿德尔森(Jay Adelson)否认.
目前,双方的谈判已接近尾声,有望在未来2至3周内达成交易,但不排除谈判破裂的可能性.
Digg的大部分营收来自3年前与微软达成的一笔交易,如果出售给谷歌,与微软的协议将被终止.Digg曾获得1130万美元的风险投资.

《连线》:DNS 漏洞细节被泄露,攻击即将开始

尽管 Dan Kaminsky 努力掩盖他所发现的 DNS 严重漏洞的细节,Matasano 安全公司的一个员工还是在他的博客上泄露了这些资料,虽然文章被立即删除,但已经有人拿到了这些资料,并发表在别的地方。Kaminsky 在他的博客上发表了一个紧急消息,赶快打补丁,别睡觉,使用 OpenDNS…

HD Moore,Metasploit  的作者说,黑客们正在加紧制作攻击工具,今天的晚些时候会有攻击出现。本月初,IOActive 的 Kaminsky 公布了 DNS 系统的一个非常严重的漏洞,该漏洞会导致攻击者轻松地伪造任何网站,银行网站,Google,Gmail 以及其它 Web 邮件网站。
Kaminsky 是在同多个 DNS 系统商共同开发安全补丁的时候发现了这个漏洞。Kaminsky 在记者会宣布了这个由多家厂商共同开发的 DNS 补丁,并呼吁 DNS 服务器所有者立即更新他们的系统。
但 Kaminsky 在宣布这个漏洞的时候,没有透露相关技术细节,以便 DNS 系统管理员知道其严重性,Kaminsky 承诺会在下月的 Las Vegas 黑帽安全大会上透露漏洞细节,在这之前,他给 DNS 系统管理员预留了一个月的时间升级系统。Kaminsky 同时恳求那些安全专家不要试图猜测漏洞的细节,但很多人将他的恳求当作一个挑战。
德国的安全专家 Halvar Flake 最先发表了漏洞细节,Kaminsky 曾被要求私下里公布细节,帮助那些系统管理员升级系统,同时,一些系统管理员以及安全专家指责 Kaminsky  是在拿那些过去的众所周知的 DNS 漏洞炒作。
Matasano 的创始人Thomas Ptacek  [...]

Google自爆数据中心基础设施

Google一向很少对外透露其数据中心的工作,但5月28日,Google伙伴Jeff Dean在Google I/O会议的听众前,轻轻撩起了Google公司基础设施的神秘面紗。
一方面,Google用的是一般的服务器、处理器、硬盘、软驱等等。另一方面,Dean似乎认为1800台服务器也是非常普通、不值得一提。而Google公司使用的软件,能在半秒之內回应700至1000台服务器的搜索請求,则完全是另一回事。
Google从未透露他们究竟拥有多少台服务器,但Dean认为至少不下数十万台。Dean表示,每個机柜里存放了大约40台服务器。而根据某项估 计,Google目前在全球有36個数据中心,以每个中心有150个机柜计算, Google的服务器至少超过20万台,而实际数字还要比这大得多,且每天都在增加中。
不论真正的数字有多少,Google的成就也实在惊人,部分原因是他们推翻了电脑业的传统做法。当所有的超大型数据中心,如纽约股票交易所或航空公司的联合订位系统都是采用许多主流服务器和软件系统的时候,Google的数据中心绝大部分却是自身的技术建设而成。
有些制造和出售服务器的公司虽然不以为然,但Google显然相信自己的技术命运最好操纵在自己手中。Google搜索产品与使用者经验副总裁搜 Marissa Mayer在5月29日的演讲中提到,共同创办人Larry Page鼓励员工对“不可能的事情”保持一种健康的不敬。也就是说,别太相信有什么不可能的事情。
要维持如此大规模的运作,Google必须对每一台机器都抱有一种随时可牺牲的态度,服务器制造商喜欢宣传他们的主机质量优越、具有高度承受故障或当机的能力,但Google仍然宁愿把钱投资在冗余软件系统上。
Dean表示:“我们的观点是,拥有两倍数量但比较不可靠的硬件,胜过数量一半但比较可靠的硬件。你必须为软件提供可靠保障,如果你有1万台主机在运作,每天一定会有一些意外。”
Dean说,每次新业务上线最能显示出硬件的脆弱。一般每个新业务上线的第一年,通常会发生1000次个别主机的故障、数千次硬盘故障;一次电力输送 问题,会导致500至1000太主机失效约6小时;20次机柜损坏,每次会造成40至80台主机下线;5次机柜摇晃,会导致一半的网络封包在传送过程中遗 失;整个业务至少一次重新上线,在两天之内的任何时间,影响5%到主机。整个业务中还有一半的几率会过热,可能导致5分钟内让几乎所有服务器当机,恢复则 需要花费1到2天地时间。
虽然Google用一般的硬件组装其服务器,却不用传统的封装,他们要求英特尔提供特制的主机板。Dean表示,Google目前在每40台服务器的机柜外,都包了一层外壳,这是Google自行开发的设计,而不是服务器厂商提供的外壳。
Dean表示,Google使用了几种服务器组装的方式,有些配备了很多硬盘,有点则数量比较少。还有一些大范围的差异,他说:“我们不同的数据中心都有一些差异,但数据中心内部不会。”
对于服务器本身,Google偏好使用多核心晶片。许多习惯追求运算速度的软件公司其实很难适应多核心的晶片,但Google沒有这种问题。他们在技术上早就必须适应横跨数万台电脑的结构,因此他们已经进入平行运算的世界。
Dean说:“我们真的很喜欢使用多核心主机。对我们而言,多核心主机就像很多相互连接、性能优越的小机器,对我们来说相对好用。”
虽然Google对搜索和其他服务都要求快速回应,其平行运算能在单一指令的执行相对较慢时产生快速回应的结果。这对于多核心处理器和多线程模式设计者是一大鼓励。Dean說:“单线程的表现对我们来说无关紧要,我们有很多平行化的问题。”
那么Google要如何处理这些一般的硬件问题呢?用软件。
Dean说明了Google软件的三个核心要素:GFS(Google档案系统)、BigTable和MapReduce演算法。虽然Google资助了许多有助于其开展的开放源代码的计划,这些仍然属于专有软件。
Dean表示,三者中级别最低的GFS几乎在所有主机中运作,负责储存资料。某些GFS的化身是“许多petabyte大小”的档案系统。目前有超过200个业务在执行GFS,其中许多都包含数千台主机。
GFS把一块储存的资料(通常是64MB),至少放在三台称为chunkserver的主机內;假如chunkserver发生故障,主服务器便负责吧资料备份到一个新的地方。Dean說:“至少在储存层级,主机故障完全由GFS系统处理。”
一窥Google数据中心自行定制的40台服务器机柜。基础建设大师Jeff Dean在Google I/O大会上展示了这张照片。