计算机信息检索
问答题
试述互联网信息资源的评价方法
互联网信息资源质量的评价方法主要有:a.定性评价,按照一定的评价标准对被评站点的各方面特征、质量做出主观评判(2分)。b.定量评价,利用数量分析方法,对相关数据进行调查采集、统计分析,进而做出较系统、客观的评判(2分)。 对于个人用户来说,全面应用上述一系列标准对某一网页或者网站做出综合判断是很难的事情,用户可以通过以下途径做出评价;a.从URL中得到信息(1分)。b.查看网站描述和版权声明(1分)。c.从链接中获取信息(1分)。d.参与他人的评价(1分)。(适当阐述再给2分)
什么是用户组信息资源,它的主要优点是什么?
用户组信息资源实质上都是由一组对某一特定主题事物有共同兴趣的网络用户组成的邮件群组或电子论坛(2分),是一种有组织的电子邮件系统,用户在其间通过电子邮件进行一对多的交流(2分)。主要优点为(1)直接交互(1分);(2)全球互联(1分);(3)主题鲜明(1分)。
简述互联网信息资源的局限性
互联网信息资源的局限性主要体现在:a.分散(1分);b.无序(1分);c.多变(1分);d.信息质量难以控制(2分);e.信息安全难以保障(2分)。
试述互联网信息资源的评价标准
对互联网信息资源的评价一般是以网站或网页为评价单位,评价标准一般是借鉴了传统对印刷型文献评价的标准并结合网络信息的特点,主要着眼于网页所提供的信息内容质量和信息存取方式等综合而成(2分),评价标准分为以下几个方面: a.目的,即该网站是否有明确说明其目的,对象(1分)。 b.范围,即该网站所覆盖的主题领域,所提供信息的广度、深度、时间范围及所包括的网络资源类型和服务范围。(1分)。c.内容,该网站所提供的信息是事实性还是评论性,是否包括原始信息还是提供链接(1分)。d.费用,即接收该网站服务所花费的连通时间或流量计费,以及在访问、获取、使用网站中内容所付出的费用(1分)。e.评论,即该网站相关的网络资源评价服务(1分)。(适当阐述再给3分)
互联网检索工具的性能评价主要从哪5个方面进行,其中反映检索系统效率的主要指标是什么?
互联网检素工具的性能评价主要从以下5个方面进行(5分,每个方面给1分): (1)收录范围;(2)检索功能;(3)检索效率;(4)检索结果的处理和展示;(5)用户界面设计。 反映反映检索系统效率的主要指标是检全率与检准率(2分),另外系统的响应时间及系统的连通性也是属于要考虑的因素(本点不给出,可以不扣分)。
常用的互联网信息检索模型有哪些?各自的优缺点是什么?
常用的互联网检索模型有布尔检索模型、扩展布尔模型、向量空间模型和概率检索模型(4分,直接在优缺点部分写出的同步给分)。其中:(1)布尔检索模型的优点:布尔检索模型原理简单,容易理解,容易在计算机上实现,检索速度快;缺点:最终给出的检索结果没有相关性排序,不够精确,不能反映不同的索引项对一个文档的重要程度的差异。(2分) (2)扩展布尔模型的优点:将“一刀切”的相关判断方式改为计算相似度,可对多个关键词的检索提问进行相似度计算(2分):缺点:尚在完善中。(缺点可以不回答。) (3)向量空间模型的优点:使用简便,在模型中有许多可调整的计算方式;(或,文档与检索提问之间的相似性可以相互比较,按照相似性大小依序展现所检出的文档): 缺点:欠缺理论的支持与验证。(2分) (4)概率模型的优点:有严格的数学理论基础,采用了相关反馈原理克服不确定性推理的缺点。缺点:参数估计的难度比较大,文件和检索的表达也比较困难。(2分)上述回答若意思匹配,但语句不尽相同,酌情给全部或部分分数。
简述搜索引擎的一般工作流程以及流程的四个主要步骤
工作流程:首先对互联网上的网页进行搜集,其次对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返给用户;步骤: 1 抓取 ; 2 索引 ; 3 搜索 、 排序 ;4 显示
简述目录型网络检索工具的使用方法
1 采用广度优先查询法 ; 2注意了解各检索工具的收录特点,选择适当的工具 ; 3 掌握各目录型检索工具的分类体系 ; 4 关注热门主体和常用目录 ; 5 关注开放目录型检索工具
简述关键词选取时常用的5个步骤;并解释关键词“神舟飞船OR(载人航天AND中国)”的含义
步骤:1、抽取基础关键词、排除常用词;2、考虑基础关键词的同义词;3、考虑上位词和下位词,4、考虑相关词;5、总结审视。
神舟飞船OR(载人航天AND中国)”的含义:检索结果中必须有神舟飞船或者是中国的载人航天。
简述互联网信息资源的一般性评价单位以及评价方法。
评价单位:目的、范围、内容、费用、评论。方法:1、从URL得到信息;2、查看网站描述和版权说明;3、从链接中获取信息;4、参考他人的评价。
试述搜索引擎发展过程中3个阶段的主要特点和代表引擎
(1)第一代搜索引擎是以文档分类导航为特征,是基于文档内容的搜索引擎,以Yahoo为代表,它通过人工或自动的方式将筛选过的网络资源信息按一定的顺序放置于预先制定的分类体系目录下,用户通过浏览或检索该目录体系进行网络信息检索。第一代搜索引擎对检索结果的评价往往通过检索结果数量进行衡量,可以说第一代搜索引擎以求全为主要目标。但是,第一代搜索引擎受检索者主观意识影响较大,需要耗费大量的人力进行系统和数据的维护,同时检索全面性和精准性也不够理想;(2)第二代搜索引擎产生于20世纪90年代中期,以关键词匹配为特征,并基于超链接分析技术,从而实现网页的自动抓取、排序等。超链接分析技术来源于引文分析法,该原理认为,网络中所有的网页均存在着链接与被链接的关系,同时被链接次数越多的网页或是其存在较多高质量网页链接的网页信息质量越高。超链接分析技术不仅提出了一种新的无须人工干预的排序方法,提高了检索结果的相关性的同时兼顾了检索效率,使得大规模搜索成为可能。这一时期的主要代表为 google和百度。但随着网络信息的急速膨胀,第二代搜索引擎也逐渐产生了诸多问题,如检索视频、音频等多媒体信息能力欠缺,自然语言检索能力差,检索结果准确率较低等,人们迫切需要一种能够“理解”用户检索需求的新型搜索引擎出现,因此开始了对第三代搜索引擎的探索;(3)第三代搜索引擎目前尚未形成统一的界定标准,开发也处于探索阶段。但总体来说,第三代搜索引擎是一种智能化的搜索引擎,可以实现自然语言的无障碍搜索、可以实现语义匹配、可直接返回检索结果而非链接,提供智能化的检索结果排序,并且可能具备“推理”功能,对复杂的检索问题,也能给出符合使用者需要的更精确和权威的答案。其搜索服务也更注重加强与用户的互动和用户使用的个性化。随着网络的进一步发展,新代搜索引擎要能用最简洁的方式,使检索用户可以“随时随地”通过各种各样的终端,跨语言、无障碍地从互联网中获取信息。
试述目前搜索引擎的“瓶颈”与不足,以及网络信息检索中可能存在的法律风险
一、“瓶颈”与不足:①没有真正解决相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文档的相关性,更何况许多时候这些特征不会都同时存在。这也是许多针对搜索引擎作弊的方法能产生效果的原因。另外,有些文档中没有出现与搜索词字面匹配的词,但该文档与搜索词主题内容十分相关。例如,搜索“恐怖分子”,但网页是关于本·拉登的介绍,文中没有出现“恐怖分子”的字眼,搜索引擎就无法搜索到该网页;②搜索结果的单一化。目前,任何人通过搜索引擎在同一时间使用同一个词检索获得的搜索结果都是一样的。这显然不能满足各种需求不同的非单一化群体,科学人员搜索“火箭”,可能是希望了解相关武器或航天运载器的研发信息,而普通人可能是想找火箭篮球队的比赛录像等,但搜索引擎不加区分,给出的都是一样的、混杂在一起的搜索结果。要满足这些不同类型、不同需求的搜索者,理想的方式应该需要对搜索结果进行个性。二、法律风险:版权风险;侵犯隐私的风险;搜索引擎营销的法律风险。
简述搜索引擎的主要类型以及按检索领域划分的类型,并比较两者是否一致。
类型:通用搜索引擎、垂直搜索引擎、元搜索引擎;按检索领域划分:综合型网络检索工具、专业型网络检索工具、特殊型网络检索工具。
二者的划分标准不同,所以不一致。
简述目录型检索工具的特点以及主要适用的场合。
特点:①面向用户的易用性;②提供准确性较高的信息内容;③提供导航作用良好的检索体系结构;④以明确的主题和对象为中心设置确定类目;⑤有兼容性强的多元类目。适用场合:目录型检索工具适合那些希望了解某一方面、某一概念的全面信息,而不是只限于查询若干关键词的用户,有助于逐步缩小主题或者查找某个主题常见的、质量较高的信息;特别适用于一般的网络信息门户,面向普通用户及网络新手展示、提供信息时采用。具体来说,目录型网络检索工具主要适用于:(1)用户进行较笼统的主题浏览和检索;(2)用户尚未形成很精确的检索概念时,采用主题指南作为检索起点非常有效。
简述互联网信息检索时,实施检索策略的步骤
1、分析信息资源,明确检索要求;2、选择信息检索系统,确定检索途径;3、选择检索词;4、制定检索策略,查阅检索工具;5、处理检索结果;6、原始文献的获取。
简述FTP协议的功能及通过FTP获取文件的步骤
功能:完成从一个系统到另一个系统完整的文件拷贝,即在联网计算机之间传输文件。步骤:(1)登录、(2)浏览目录,找到所需文件;(3)设置文件传输参数,选择文件的传输模式;(4)下载所需文件。
试述“主题爬虫”技术与垂直搜索引擎的特征,并分析仅利用“主题爬虫”技术是否可以达到其搜索目标。
“主题爬虫技术”的特征:目标是尽可能快速爬行、采集尽可能多的与预定主题相关的页面;垂直搜索引擎的特征:专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,该领域外的其他庞杂信息不予收录。“主题爬虫”可以根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的网页URL,并重复上述过程,直到达到系统的某一条件才停止。所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引。对于“主题爬虫”来说,这个过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。
试述网络信息检索服务的发展方向以及能进行开发和创新的主要领域。
发展方向:个性化、多样化、社会化。开发和创新的主要领域:智能检索、语义检索、垂直搜索、基于内容的多媒体信息检索、跨语言检索、信息检索可视化
名词解释
Web信息资源
Web信息资源,又称Word wide web(简称WWW,)是因特网信息资源的最主要最常见的形式。它是指建立在超文本 超媒体技术的基础上,集文本,图像,图形。声音为一体,并以直观的图形用户界面(GUI)展现和提供信息的网络资源形式。
目录型网络检索工具
目录型网络检索工具一般采用人工或半人工方式采集和存储网络信息,由专业人员对网络资源进行调查收集,并遵循某种分类体系进行分类、存储和组织。
主页(Home Page)
主页是浏览器访问某个web服务器上的信息时第一个链接到的文档 。 它是该服务器入口处的HTML文档,是进入服务器、访问其所提供的各类信息资源的导引页,是为用户浏览该服务器中的有关信息提供方便。
Telnet信息资源
Telnet信息资源包括政府部门、研究机构对外开放的数据库,某些商业性联机检索系统(如Dialog、Lexis-Nexis等),一些大学和研究机构开设的电子布告栏系统BBS(Bulletin Board System),还有许多大中型图书馆的在线公共检索目录(Online Public Access Catalog,OPAC)等。
信息查询
主要包括检索表达式的分析、关键词的匹配和结果的排序。
年鉴
每年出版的统计数据和事实的汇编,兼有现期性和回溯性内容
浏览器(Browser)
浏览器指Web服务客户端的浏览程序,是显示网页服务器或档案系统内的文件,并让用户与这些文件互动的一种软件。
参考信息
指人名、地名、机构、事件、统计数据等一类数据 ,具备真实性 , 是人们在工作研究与日常生活中经常要查考、引用的信息 。
传记资料
记录历史人物或当代著名人物的生平资料等相关信息,这些信息一般包括生卒、学历、职务、经历、家庭、政治背景、学术观点、团体、著述、评价、通信方式等 。
元数据
用来揭示各类型的电子文档的内容和其他特征的有力工具 ,其典型的作业环境是互联网。