Internet信息获取能力是研究生必备的一项素质。及时准确地获取领域内的研究进展信息,是保证研究工作创新性的前提;随心所欲地大范围地获取信息,是拓展知识面的有效手段;在浩如烟海的资料中快速定位自己急需的信息,是解决问题的一条有效途径。
随着Internet的飞速发展,可获取的信息量日渐丰富,乃至出现信息过载、资源迷向等问题[1]。搜索引擎的问世,在一定程度上解决了Internet信息获取困难的问题。近年来,国内已有四五百篇文献从各种应用背景和技术角度出发探讨Internet信息获取及各种搜索引擎的特点、用法等[2],但是,如何系统地有针对性地提高研究生的Internet信息获取能力(具体讲,在Internet信息获取中应该把握哪些指标或尺度、如何去把握)又是一个值得探讨和总结的新问题。本文提出了Internet信息获取广度、纯度、深度、速
度和柔度五项指标,结合研究生论文工作的实际需要,以实例形式探讨了利用Google(www.google.com)为主的搜索工具进行Internet信息获取的方法和技巧。
一、Internet信息获取广度的拓展
一般来说,研究生在刚刚步入某一研究领域时,对该领域的知识都是比较陌生的,甚至是空白的,从Internet获取相关信息进行学习不失为一条便捷途径。通过有导向性地拓展Internet信息获取的广度,可以有效扩大研究领域相关的知识面。Internet信息获取广度定义为W=IAcquired/IInternet,其中IAcquired为已获取信息量,IInternet为Internet可获取信息量,信息量一般为网页数量或文献数量。广度的拓展,即提高W值,从用户角度讲,只能通过提高IAcquired值来实现,IAcquired既受搜索引擎索引量及查全率的制约,也受用户搜索指令的限定,可以通过选择适当的搜索引擎及拓展必要的关键词等方法来拓展Internet信息获取的广度。
实例1.选择英文Google,拓展可用信息的语言范围。Google的网页索引量已近43亿,覆盖250多个国家,支持132种语言,是目前最大的搜索引擎。在第一次使用Google时,Google会根据当前操作系统确定语言界面(中国大陆地区一般为简体中文)。对于中国的研究生来说,所熟悉的语言绝大多数都是汉语和英语,对于其它语种的信息,即使搜索到了也未必能看懂。如果将Google的使用语言设置更改为英文,则搜索到的意大利语、法语、西班牙语、德语和葡萄牙语资料,Google均能提供其英译文(点击搜索结果后面的“Translate this page”超级链接即可),这样,大大拓展了可用信息的语言范围。如,关于robot的法文网页765 000页,德文网页163 000页,这些网页的处理都是用中文Google所力所不能及的。
实例2.拓展关键词,扩大相关信息的覆盖范围。以搜索“潜艇安全”相关知识为例,可以将待搜索关键词拓展为:潜艇、潜水艇、潜器、水下、海洋、海军、安全、失事、事故、海损、沉没、脱险、救援、救生、救生艇、救生钟、救生舱、隐蔽性、不沉性、水声、通信、声纳、鱼雷、水雷、攻击、反潜、水下作业、水动力、水下机器人、水下航行器、submarine、life saving、rescue、simulation、underwater等,然后将扩展后的关键词进行适当的组合搜索。如,仅用“潜艇安全”作为关键词在Google中搜索所有网站,只可搜到43 300个网页,再用“潜水艇安全”可搜索到14 300个网页(其中的3 000个网页是用“潜艇安全”搜索的结果中所不包含的),再用“submarine life saving”又可搜索到51 700个网页。在搜索过程中,可以从同义词、近义词、反义词、谐音字、错字(拼音错、五笔错、拼写错)、别字、通假字、简体字、繁体字、中文、外文、缩写等方面着手对关键词进行逐步拓展。
Internet信息获取广度的拓展,保证了信息获取的全面性和广泛性,但往往同时带来信息过载的负面效应,这便涉及到如何控制信息获取纯度问题。
二、Internet信息获取纯度的控制
Internet信息获取纯度定义P=IValuable/IAcquired,其中,IValuable为已获取的有可用价值的信息量,P在W>0时有意义。P值的提高只能通过降低IAcquired来实现,与W值的提高是一对方向相反的矛盾过程。搜索引擎的查准率是提高纯度的前提条件(Google采用PageRank专利技术能提供准确率极高的搜索结果),用户的搜索指令是控制纯度的直接手段。搜索信息提纯的基本做法是增加关键词(逻辑与)、减除关键词(逻辑非)或
短语搜索,一般的搜索引擎中都支持这些功能。在Google中还支持针对特定文件类型(filetype)、网站域名(site)、URL(inurl或allinurl)和网页标题(intitle或allintitle)的搜索。
实例3.使用逻辑组合缩小搜索范围。以搜索“基于agent理论的智能机器人(intelligent robot)技术的资料”为例,表1给出了采用关键词的各种逻辑组合在Google中的搜索结果。从表1可以清晰看出纯度控制的过程和效果。
表1 使用逻辑组合搜索
搜索方法 关键词表达式 搜索到的网页数
单词 robot 6 430 000
单词逻辑与 intelligent robot 526 000
单词逻辑与 agent intelligent robot 109 000
单词逻辑与、非 agent intelligent robot –internet 49 900
短语逻辑与、非 agent "intelligent robot" –internet 850
实例4.使用限定词在特定范围内搜索。以搜索“MIT机器人研究文献资料”为例,表2给出了依次对网站域名、URL和文件类型进行限定后在Google中的搜索结果。从搜索到的网页链接(限篇幅未给出)可以看出,限定词搜索的针对性非常强,搜索结果相当精确。
表2 使用限定词搜索
搜索方法 关键词表达式 搜索到的网页数
单词 robot 6 430 000
限定网站域名 robot site:mit.edu 12 800
限定URL robot site:mit.edu inurl:publications 247
限定文件类型 robot site:mit.edu inurl:publications filetype:pdf 148
三、Internet信息获取深度的挖掘
研究生开题前,需要阅读大量专题文献。Internet上的专业技术文献,绝大多数都赋存于各类Web数据库中,普通搜索引擎对这些数据库一般都望尘莫及,必须使用各Web数据库专用的联机检索系统才能挖掘到必要的信息获取深度。Internet信息获取深度定义为D=IWeb-DB/IValuable,其中,IWeb-DB为从Web数据库中检索到的信息量,D在IValuable>0时有意义,D值的提高只能靠提高IWeb-DB值来实现。
现存的Web数据库风格各异,但是科技文献数据库的检索方法却大同小异,一般都需要“登录-检索-下载”几个环节。各高校图书馆会提供本校可用的文献数据库检索入口、账号信息及使用指南,此不赘述。
四、Internet信息获取速度的提高
Internet信息获取速度定义为 ,其中,tSearch为获取到可用信息所花费的搜索时间,或称信息提纯时间。提高S值可通过提高纯度P值或降低tSearch值来实现。tSearch值受搜索引擎响应速度的影响,但影响不大,如,Google有15000多台服务器,200多条T3级宽带,搜索用时一般不超过0.2秒,所以,tSearch值主要还是受搜索方法的影响,若能直接提供(而不是反复试搜)尽可能完整的、必要的关键词作为查询线索并借助搜索引擎的特殊功能,则会迅速定位到目标信息上。这一过程,与信息获取纯度的提高是一致的,是加速提高P值的过程。
实例5.使用“手气不错”获取信息一步到位。研究生在论文工作中,常常需要查询某实验室的publications清单、某高校图书馆电子资源等,以了解相关研究信息或检索下载文献资料,但却没有记住网址。可以将目标网站尽可能完整的名称作为关键词,利用Google首页的“手气不错”功能,一般都可以直接打开目标网页,不用再把过多时间耽
误在网址查找上。如,用“清华大学图书馆”做关键词,单击“手气不错”按钮可直接进入清华大学图书馆的首页:http://www.lib.tsinghua.edu.cn/。
五、Internet信息获取柔度的增强
Internet信息获取柔度(即灵活性)定义为F=(W+P+D+S)/4,这是评价Internet信息获取
效果的综合指标,前面探讨的四项指标较多地依赖于搜索引擎或检索工具所支持的功能,而这项指标更多地依赖于用户的经验和技巧。增强Internet信息获取柔度需要用户对关键词的抽取与组合、Internet上目标信息的分布位置和可能存在形式以及各搜索引擎的用法与特长都有相当的熟悉程度。
实例6.用活搜索引擎增强信息获取柔度。研究生在阅读英文文献时,经常遇到陌生的术语或者缩写翻译不出来,可以通过搜索引擎来协助翻译。以翻译“These activities included mapping, soil and rock chip sampling, geophysical surveys and RC and diamond drilling.”中的“RC”为例,先在金山词霸(http://www.iciba.net)、英华金典(http://www.powerdict.com)、Dictionary(http://dictionary.com)等在线词典中查找,均未查到,考虑使用搜索引擎。
表3 给出了Internet翻译信息获取的过程,第6步搜到“…both diamond and reverse-circulation (RC) drilling…”,第7步搜到“…反循环钻进. reverse circulation drilling…”,由此确定“RC”是“反循环钻进”的英文缩写。
表3 用Google获取翻译信息
步骤 搜索范围 关键词表达式 搜索结果(项)
1 金山词霸 RC 0
2 英华金典 RC 0
3 Dictionary RC 0
4 Google简体中文网页 rc 103 000
5 Google所有网站 rc 14 900 000
6 Google所有网站 rc diamond drilling 12 100
7 Google简体中文网页 reverse circulation 417
参考文献
1 王继成等.Web信息检索研究进展.计算机研究与发展,2001,38(2):187-193
2 蒋福兰.搜索引擎使用技巧.科技情报开发与经济,2003,13(5):178-179
本文地址:http://com.8s8s.com/it/it31938.htm