原文 The Anatomy of a Large-Scale Hypertextual Web Search Engine
作者 Sergey Brin and Lawrence Page
说明 本文是Sergey Brin 和Lawrence Page在斯坦福读博士时发表的论文,两位辍学后创办了Google。正如摘要中介绍的,本文剖析了Google原型,相信尽力翻译全文会给我带来不少收获^_^
摘要
本文介绍了利用超文本结构进行搜索的大规模搜索引擎Google的原型。Google可以有效地抓取和索引网页,并且能提供比现存搜索引擎更佳的搜索结果。此原型包含至少2400万页面的全文和超链接数据库,可以通过http://google.stanford.edu/访问。
设计搜索引擎是一项具有挑战性的任务。搜索引擎为数以亿计的网页建立索引,而这些网页包含了同样数量级的不同词语;同时搜索引擎每天还要应对上千万次用户查询。因此尽管大规模搜索引擎对于网络极为重要,却鲜有对其的学术研究。不仅如此,由于技术和互联网的飞速发展,如今建立搜索引擎已不同于以往。
本文对我们的大规模搜索引擎(Google)进行了深入的描述,就我们所知是迄今为止第一篇公开、细致的讨论。除了如何把传统搜索技术扩展到前所未有的海量数据,我们还面临新的挑战:如何利用超文本中的附加信息以获取更好的搜索结果。本文着重讨论了此问题,即如何建立一个可利用超文本中附加信息的大规模搜索引擎。同时,我们也关注了如何有效处理超文本集合不可控的问题,因为任何人都可以随意发表信息。
关键词
World Wide Web, Search Engines (搜索引擎), Information Retrieval (信息检索), PageRank, Google
1. 简介
互联网为信息检索带来了新的挑战——信息数量急剧增加,对网络搜索毫无经验的新用户也越来越多。人们上网冲浪往往是通过网页相互之间的链接,而这通常是从优秀的人工维护的网站指南如Yahoo!或者搜索引擎开始的。人工维护的网址列表有效覆盖了热门话题,但却缺乏客观性、建立和维护费用高昂、更新缓慢且不能覆盖到冷门话题。而基于关键词匹配的自动化搜索引擎不仅搜索结果匹配度低,更糟的是,部分广告商想法设法误导搜索引擎以吸引人们的注意。
我们设计的大规模搜索引擎主要解决了以上这些现存的问题。它极大地利用了超文本中的附加信息从而得到匹配度更高的搜索结果。我们将此系统命名为Google,这是googol(即10的100次方)的常见拼写,很符合我们建立超大规模搜索引擎的目标。