论文摘要:每个数据库引擎的大小对查找是否成功起着很大的作用,例如,我们想用字符串recipewheat Beer(酿啤酒秘诀)查询每一个引擎,其结果是:最大的Lycos数据库引擎提供给我们437个匹配页(hit),InfoSeek和Open Text Index数据库则每次提供200个页,用其他数据库则少于100页,有几种情况下,甚至查不到一个Web页。通常的情形是,数据库越小,查到的Web页就越少。
引言
Internet就像一个浩瀚的知识海洋,里面蕴藏着取之不尽的信息宝藏。如何挖掘开采它,获得人们需要的东西,目前还存在着两方面的问题:首先,人们手头的查询工具太多,有WWW(World Wide Web)、Gopher、FTP以及不计其数的专题新闻组、消息表等等;其次,Internet网上的资源没有确定的分类,人们要查找的是一堆毫无组织、地址不唯一的信息。同时,那些热心的程序员、厂商、经纪人还在源源不断地往Internet上填充着他们的东西。这无形中给检索工作带来了很大难度,没有一定的方法,在Internet上查询信息犹如大海捞针。哪种情况下该用什么样的工具帮你简便快捷地找到你想要的信息,看了本文以后,或许会对你有所帮助。
目录帮助
假如你要查找人们普遍感兴趣的题目,如内战或者热线财经一类的消息并找到其网络地址,通常这类目录会很大,而且有按专题组织的地址表。这种情况下,我们一般喜欢用Yahoo(地址:http://www.yahoo.com/)查找,它列出了8万个网络地址(包括Web页、Gophers、FTP地址以及Usenet新闻组),顶层又按艺术、计算机、卫生、保健等分成14类子题目。用鼠标点一下就可以选定子题目表,反复地查找子表,直到你找到需要的信息为止。
除了Yahoo一类人们普遍感兴趣的目录外,专题目录则覆盖了从古文物到青年工人等各方面的信息。找到这些专用目录的最佳途径是可以去密执根大学(地址:http://www.lib.mich. edu/chhome.html)查找那里的Clearinghouse,那里有面向专题的Internet资源指南。
查询引擎
当人们意欲查询Web提供的信息时,目录项是非常有用的,用户的问题越专有,待查的目录项就越少。为了取得问题的答案,人们必须使用查询引擎。查询引擎实际上是一些Web页,你可以在其中输入你想要查找的文本串。按一下按钮,等一会儿,引擎就会识别出与输入的关键字匹配的Web地址表。在最近的Web查询扫描中,我们查到60个这样的页,其中只有10页是我们觉得有用的工具,其余的用处不大,或者只有计算机科学专业的研究生对之感兴趣。
每一个查询引擎代表一个数据库,里面含有Web页的URL(Universal Resource Locator或经专门格式化后的Internet地址)地址以及其他网络资源。大多数查询引擎数据库是由Crawler程序、漫游Web的软件程序通过页与页的连接顺次查找新的地址搜集而来的。这里,Crawler又被称为机器人或蜘蛛。当蜘蛛找到新的页时,就把新页增加到数据库中。
这些数据库存有成千上万个Web页,在引擎头的位置每天都在增加新的页。其中,多数人感兴趣的引擎如Lycos和Excite覆盖面最广,其中每个数据库有150万个索引Web页,其次是Open Text Index,据称也有130万个Web页。
每个数据库引擎的大小对查找是否成功起着很大的作用,例如,我们想用字符串recipewheat Beer(酿啤酒秘诀)查询每一个引擎,其结果是:最大的Lycos数据库引擎提供给我们437个匹配页(hit),InfoSeek和Open Text Index数据库则每次提供200个页,用其他数据库则少于100页,有几种情况下,甚至查不到一个Web页。通常的情形是,数据库越小,查到的Web页就越少。
大多数数据库引擎严格限制其只能检索Web本身,InfoSeek和Excite则比其他引擎更进一步,它们增加了Usenet新闻组索引。InfoSeek还允许用户查询就近的一组非Internet数据库的信息。
索引中的信息
Web的蜘蛛程序比URL采集信息做得要多一些,它们还搜集有关每一页的信息,一旦你提交一个查询,查询引擎的backend软件就建立起一个你所需信息的索引。从一个引擎到另外一个引擎,其索引技术是各不相同的,你不要因此感到奇怪。
在每个引擎中,都有一个页的索引URL地址和题目。多数引擎还有每一段的索引标题,其他的引擎则只是记录了频繁提到的词或者文本的头几行。在Open Text Index数据库引擎中,页的每一个单词都有索引,甚至包括and一类别的引擎忽略的词也有。结果可想而知,它理所当然成了唯一能在查找过程中返回是或者不是的查询工具。即使不包含你所指定的关键字,Excite基于概念的索引也能够帮助人们找到相关的页。
找到匹配页并不意味着查询成功。一方面,数据库的大小确定了它查到的匹配页的多少,另一方面,索引质量的好坏还要由有多少个匹配页与你的查询相关来确定。如我们通过每一个查询引擎查找北卡罗来纳三角地的房地产信息,然后算一算在Chapel Hill地区有多少个与之相关的匹配页数。据统计,Web的Crawler返回19个匹配页,我们从InfoSeek上获得200多个匹配页。但是实际上19个当中只有9页是我们所想要的东西。大多数InfoSeek的匹配页与房地产有关,但是又有许多东西与北卡罗来纳没有任何关系。
使用正确的工具
无论数据库有多大,待查数据库有多么复杂,查询引擎是你进行检索的独一无二的好工具。
有时需要进行词组的查询,不同的数据库处理词组的方式不尽相同。InfoSeek用词的主干部分来检索与该部分匹配的页,如欲查impressionism一词,只需查找与impression匹配的页即可。Lycos则将查询项作为主干词来处理,所以在这种引擎中,metal一词就与metallic匹配。
有几种引擎允许用户检索所有的词组,而不只是检索被查询串的个别单词,它们检索串组合成词组的偶然搭配。有两种引擎可以查到一个词组的多种变化,这两个引擎是Aliweb(地址:http://web.nexor.co.uk/public/aliweb.html)和CUI的W3 Catalog(地址:http:// uiwww.unige.ch/w3catalog)。
另外,使用这些可用工具还有一个问题。在某些引擎中,允许用户按指定的操作对用户的查询项求精。这将意味着在最基本的底层,你检索到的地址包括待查串中的任何一个单词或者项的全部,Lycos就是这样进行的。其他一些引擎允许用户使用更多的布尔项,如AND、OR,有时还用NOT。只有InfoSeek和Open Text Index两个引擎允许用户使用相近操作,它们允许你查询与被查串相邻的项。
使用这些可用的工具动态地增加了匹配页的查询质量。例如,我们使用Open Text Index简单查询页查找酿造小麦啤酒的秘诀,可以得到90个匹配页,这里面只有很少的几页与自酿小麦啤酒有关(多数页与饮酒有关)。但当打开"Power"页进行小麦啤酒秘诀的相邻项查询时,我们可得到6个匹配页,其中有3个正是我们所需的东西。
分开有用和无用的信息当你获得匹配页表时,你的检索工作才刚刚开始。你得将这些地址分类以找到你真正想要的东西,多数引擎可以在结果页的顶部显示它们确实已检索到的词。你可能已经查找过好的、坏的和丑的东西,而检索引擎也告诉你它确实是在查好的、坏的和丑的东西,记住一点,你可以通知许多引擎查找全部词组,而不只是关键字。
多数引擎返回的匹配页与查询项密切相关。即使你获得200个以上的匹配页,你也不用担心要将所有的页都搜集起来,可能顶多你只需10个。不同的引擎采用不同的方法计算查询页的关联度。InfoprSeek根据被查项在整个数据库出现频度相近的页中出现的次数来排列匹配页, Lycos则基于项在页中的出现次数、与其他项的临近度以及在页中的位置来排列。
大多数引擎提供了匹配页的几种描述。在这方面Lycos是最佳的,它不仅提供了关联的比率、每页的描述,而且还有文本的简单摘要。
人们只需阅读一下摘要,就可以判断是否是你需要找到的匹配页。
元级检索(Metasearching)人们可能不大喜欢忙忙碌碌地从一个检索引擎到另一个去查找想要的信息,那么你应该学习使用元级检索地址。它们是几个检索引擎同时开始查询得到的页面。
有两种页面:Savvy Search(地址:http://www.cs.colostate.edu
/~dreiling/smartform.html)和MetaCrawler(地址:http://www.cs.
washington.edu/research/project/ ai/metacrawler/www/ home. h
tml),它们可同时在若干个引擎上查询。Savvy Search还会覆盖ArchiePlex(用于检索FTP地址)和DejaNewws(用于检索新闻组)。这种并行检索引起的唯一问题是用户访问不到每一个引擎查询工具,例如布尔和相近操作,用这种方法进行查询就不如实际的词汇查询精确。
另一些元级检索地址允许你在某一时间查询一个主要引擎。用户可以想用的引擎格式填写并启动它。这样做也许会漏掉一些查询工具,但是这些页可被保留在文件上供将来快速查询用。
查询后的工作
前述工具你会喜欢用哪一种?这里,我们挑选了3种检索引擎:Excite、InfoSeek及Lycos。这3种工具都提供了易于使用的界面,人们可以从中得到精确的结果。此外,我们还增加了一个目录Yahoo。这是迄今我们用到的最完整的目录,它提供了一个完美的缺省home page。幸运的是这些工具经常改进。InfoSeek已经宣布计划把一个目录编入它的检索地址。而Open Text Index也宣布计划与Yahoo合作形成一个可能会令人吃惊的产品。
在开拓者的头脑中,无论你最终使用哪一种工具,它们都会使得Web更有市场。
查找内部消息Tips
一个检索引擎数据库实际上就是与URL地址有关的词和词组的索引。你要做的工作是查找与该索引匹配的词。这里有几条通用规则可便于用户最大限度地进行查询。
1.阅读一下引擎的指令 许多检索引擎提供了自身的操作、定义符及规则集,这些东西有助于你进行高效查询。试着用一用它们。
2.选择不常用的词 检索词与其他词的区别越大,对于加快搜索越有用。举个例子,你检索埃塞俄比亚弥猴科就比非洲的绿钱币获得的索引项要多。在检索时,应尽量挑选能够表达你意思的词。
3.注意拼法 如果你在查"astronut"一词,你可以得到符合拼字正确要求的Web页。对字符串形式看来很相似的词,切记也要检索一下该词的合理变化,如你要查fly-fishing一词,应该试试查flyfishing和fly fishing两个词。
4.同义词 记住,你可能查的是一个概念,而并非只是一个单词。例如,如果你想查找有关背包徒步旅行的地址,在你的查询中就应包含这些项:徒步旅行、乘牛车旅行、背包徒步旅行以及露营。
5.勿用自然语言 某些地址支持自然语言的查询,即允许用户以说话的方式提问。不要去用这个功能,你要将焦点放在能够识别你概念的术语和词组上。
6.重复你查询的东西 在第一次查询过后,回到你最有希望查找的匹配页,把其他一些你可能会快速广泛进行查询的术语摘录下来。
7.不要忘了NOT 有一些查询引擎支持NOT(非)操作,这个操作允许你进行输入项的查询。因此,你对非重非音乐的金属进行查询,就可以找到与工业金属有关的地址,从而避免去查重金属。
8.使用多个查询引擎 我们惊奇地发现,用几个不同的查询引擎进行同一个查询,查询结果的重叠率很小。所以为了获得最佳的查询效果,尽量在多个地址上查询。
9.试试使用专有地址 如果你想查找某指定公司的Web页,可以试试Open Market Commercial Sites索引(其地址为:http://www.directory.net/)。同样,如果你想查找政府的集中Web地址,可在Infomine(其地址为:http:/lib-www.ucr.edu/Main.html)上进行。如果你想查找Usenet新闻组,可以用InfoSeek或DejaNews(其地址为:http://www.dejanews.com/)。最后一点,如果想查找Internet上可卸载的文件,ArchiePlex(地址为:http://flosun.salk.edu/archieplex.html)便可助你一臂之力。
* 稍后学术顾问联系您