搜索引擎的发展史计算机课的作业,

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/05 19:04:08

搜索引擎的发展史计算机课的作业,
搜索引擎的发展史
计算机课的作业,

搜索引擎的发展史计算机课的作业,
搜索引擎的发展史和应用
1990年以前,没有任何人能搜索互联网.
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie.当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源.Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件. 用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件.虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源,建立索引,提供检索服务.所以,Archie被公认为现代搜索引擎的鼻祖.
Robot(机器人)一词对编程者有特殊的意义.Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序.由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序.
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的"机器人(Robot)"程序.开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL).
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo.随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索.因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录.雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和 Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司.
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler.1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容.WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字.
1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos.除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量.
1994年底,Infoseek正式亮相.其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表.
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup).用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果, 集中起来处理后再返回给用户.第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler.
1995年12月,DEC的正式发布AltaVista.AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如 AND, OR, NOT等).用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字,搜索 Titles,搜索Java applets,搜索ActiveX objects.AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线.AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站.在面向用户的界面上,AltaVista也作了大量革新.它在搜索框区域下放了"tips"以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能.这系列功能,逐渐被其它搜索引擎广泛采用.1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的.
1995年9月26日,加州伯克利分校助教Eric Brewer,博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前.声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容.HotBot也大量运用cookie储存用户的个人搜索喜好设置.
1997年8月,Northernlight搜索引擎正式现身.它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News,7,100多出版物组成的Special Collection,良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类.
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub.1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan,Alan Steremberg的共同参与下,BachRub开始提供Demo.1999年2月,Google完成了从Alpha版到Beta版的蜕变.Google公司则把1998年9月27日认作自己的生日.Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强.Google公司的奇客(Geek)文化氛围,不作恶(Don't be evil)的理念,为Google赢得了极高的口碑和品牌美誉.2006年4月,Google宣布其中文名称"谷歌",这是Google第一个在非英语国家起的名字.
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品.1999年5月,发布了自己的搜索引擎 AllTheWebi.Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之.Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索,图像搜索,视频,MP3,和FTP搜索,拥有极其强大的高级搜索功能.(2003年 2月25日,Fast的互联网搜索部门被Overture收购).
1996年8月,sohu公司成立,制作中文网站分类目录,曾有"出门找地图,上网找搜狐"的美誉.随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应.sohu于2004年8月独立域名的搜索网站"搜狗",自称"第三代搜索引擎".
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室.Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪,奇摩,雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分.2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域.
2000年1月,两位北大校友,超链分析专利发明人,前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度 (Baidu)公司.2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索.Baidu搜索引擎的其它特色包括:百度快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,mp3搜索,Flash搜索.2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快.后推出贴吧,知道,地图,国学,百科等一系列产品,深受网民欢迎.2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU.开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录.
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索.2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) .
2005年6月,新浪正式推出自主研发的搜索引擎"爱问".
搜 索 引 擎 分 类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine),目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine).
全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有 Google,Fast/AllTheWeb,AltaVista,Inktomi,Teoma,WiseNuti等,国内著名的有百度(Baidu). 它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎.
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称"蜘蛛"(Spider)程序或"机器人" (Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎.
目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已.用户完全可以不用进行关键词(Keywords) 查询,仅靠分类目录也可找到需要的信息.目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎.其他著名的还有Open Directory Project(DMOZ),LookSmart,About等.国内的搜狐,新浪,网易搜索也都属于这一类.
元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户.著名的元搜索引擎有 InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎.在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo.
除上述三大类引擎外,还有集合式搜索引擎,门户搜索引擎,免费链接列表等几种非主流形式:
由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎.
几种搜索引擎的特点
百度搜索引擎的特点
百度搜索引擎使用了高性能的"网络蜘蛛"程序自动的在互联网中搜索信息,可定制,高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息.百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆,香港,台湾,澳门,新加坡等华语地区以及北美,欧洲的部分站点.百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长.由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,百度搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒.
它主要具有以下的特点和功能:
1)基于字词结合的信息处理方式.
2)支持主流的中文编码标准.
3)智能相关度算法.
4)检索结果能标示丰富的网页属性(如标题,网址,时间,大小,编码,摘要等),并突出用户的查询串,便于用户判断是否阅读原文.
5)百度搜索支持二次检索(又称渐进检索或逼进检索).
6)相关检索词智能推荐技术.
7)运用多线程技术,高效的搜索算法,稳定的UNIX平台,和本地化的服务器,保证了最快的响应速度.
8)可以提供一周,二周,四周等多种服务方式.可以在7天之内完成网页的更新,是目前更新时间最快,数据量最大的中文搜索引擎.
9)检索结果输出支持内容类聚,网站类聚,内容类聚+网站类聚等多种方式.
10)智能性,可扩展的搜索技术保证最快最多的收集互联网信息.
11)分布式结构,精心设计的优化算法,容错设计保证系统在大访问量下的高可用性,高扩展性,高性能和高稳定性.
12)高可配置性使得搜索服务能够满足不同用户的需求.
13)先进的网页动态摘要显示技术.
14)独有百度快照.
15)支持多种高级检索语法,使用户查询效率更高,结果更准.
Google搜索引擎特点
Google搜索引擎是一个利用蜘蛛程序(Spider)以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服的互联网信息查询系统.
它主要具有以下的特点和功能:
1)采用了先进的网页级别(PageRankTM)技术.
2)在同一个界面下,用户可以定制语言和到何种网站中进行搜索.
3)具有超链分析的功能.
4)遵从关键字的相对位置.
5)提升了中文搜索引擎的相关性,而且更好地实现了检索字串与网页中文字的语义上的匹配.
搜狐搜索引擎的特点
搜狐网站的内容丰富多彩,与我们的生活联系十分紧密.搜狐分层目录是专为中国用户设计的高质量的分类目录系统,把超过15万个精选的中文站点链接归为18个大类,如:娱乐,计算机与互联网,工商经济,科学,艺术,文学,生活服务,科学技术,政治法律等等.而有价值的用户往往只关心自己需要的专门信息.所以我们在每个最初目录下,都建立全面丰富的目录树系统,构成了四通八达的信息高速公路,方便迅速地把您带到目的地.分层目录系统不仅使用户找到最需要的专门信息,也使广告客户更便捷地找到特定的用户群,达到最佳的宣传效果.在搜狐分层目录之外,还同时设立了七项搜狐频道:搜狐新闻,财经报道,搜狐体育,网猴, 多媒体,外国资源,搜狐社区.
它主要具有以下的特点和功能:
1)最先进的人工分类技术;2)友好的全中文界面;3)符合中文语言文化习惯;4)18个部类,近15万条链接构成的树杈型网页结构;5)最直观,最轻松为网上用户提供所需要的内容.
北大天网搜索引擎的特点
北大天网收录 135 万网页和 9 万新闻组文章,更新较快;功能规范;反馈内容完整,包括网页标题,日期,长度和代码;可在反馈结果中进一步检索;支持电子邮件查询.无分类查询.另提供北京大学,中国科院等FTP站点的检索.
它主要具有以下的特点和功能:
1)在语种上支持中英文搜索.国内大部分的搜索引擎都只收录中文网站,用来查找国内的英文网站.
2)在文件格式上即支持www文件传输格式,也支持FTP文件传输格式.天网将FTP文件分成电影,动画片,mp3音乐,程序下载,开发资源共四大类,用户可以象目录导航式搜索引擎那样层层点击下去查找自己需要的FTP文件.
如何使用搜索引擎
搜索引擎可以帮助您在Internet上找到特定的信息,但它们同时也会返回大量无关的信息.如果您多使用一些下面介绍的技巧,将发现搜索引擎会花尽可能少的时间找到您需要的确切信息.
在类别中搜索
许多搜索引擎(如Yahoo!)都显示类别,如计算机和Internet,商业和经济.如果您单击其中一个类别,然后再使用搜索引擎,您将可以选择搜索整个Internet还是搜索当前类别.显然,在一个特定类别下进行搜索所耗费的时间较少,而且能够避免大量无关的Web站点.
当然,您或许还想搜索整个Internet,以搜索特定类别之外的信息.
使用具体的关键字
如果想要搜索以鸟为主题的Web站点,您可以在搜索引擎中输入关键字"bird".但是,搜索引擎会因此返回大量无关信息,如谈论羽毛球的"小鸟球 (birdie)"或烹饪game birds不同方法的Web站点.为了避免这种问题的出现,请使用更为具体的关键字,如"ornithology"(鸟类学,动物学的一个分支).您所提供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小.
使用多个关键字
您还可以通过使用多个关键字来缩小搜索范围.例如,如果想要搜索有关佛罗里达州迈阿密市的信息,则输入两个关键字"Miami"和"Florida".如果只输入其中一个关键字,搜索引擎就会返回诸如Miami Dolphins足球队或Florida Marlins棒球队的无关信息.一般而言,您提供的关键字越多,搜索引擎返回的结果越精确.
使用布尔运算符
许多搜索引擎都允许在搜索中使用两个不同的布尔运算符:AND和OR.如果您想搜索所有同时包含单词"hot"和"dog"的Web站点,只需要在搜索引擎中输入如下关键字:
hot AND dog
搜索将返回以热狗(hot dog)为主题的Web站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hot day)让一只狗(dog)凉快下来的Web站点.
如果想要搜索所有包含单词"hot"或单词"dog"的Web站点,您只需要输入下面的关键字:
hot OR dog
搜索会返回与这两个单词有关的Web站点,这些Web站点的主题可能是热狗(hot dog),狗,也可能是不同的空调在热天(hot day)使您凉爽,辣酱(hot chilli sauces)或狗粮等.
留意搜索引擎返回的结果
搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置.好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做.
此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本.这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息.
正如读报纸,听收音机或看电视新闻一样,请留意您所获得的信息的来源.搜索引擎能够帮您找到信息,但无法验证信息的可靠性.因为任何人都可以在网上发布信息.