计算机信息检索

发布 2022-08-25 06:15:28 阅读 6534

8 .检索语言:是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。

检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言(体系分类语言、主题词语言)和非规范化语言(自然语言)两类。

9.自然语言:索引词汇直接来自系统所处理的文献或提问本身,使用前未经过优选和规范化处理的一类检索语言。

10.超文本:是一个非线性的网状结构,它以结点为单位组织信息,在结点与结点间通过链接加以连接,构成表达特定内容的信息网络。

二. 简答。

1. 简述一下因特网信息检索的特点。

1) 检索范围大。

2) 检索效率高。

3) 检索工具强大。

4) 信息冗余。

2. 搜索引擎的基本工作原理。

搜索引擎的基本模式是:运行特定的网络搜索程序,定期地搜索internet的各个站点,送**集到的文献信息(包括web页面和新闻组文章等),并利用索引软件对这些文献进行自动标引,加入集中管理的索引数据库;同时,在internet上设立提供检索界面的web站点,由用户输入提问检索式,通过特定的检索软件,查找其索引数据库,给出与检索式相匹配的查询结果,供用户浏览。

3. 请描述检索系统的“提问处理/检索匹配”子系统的主要作业流程。

1) 接受用户提问。

2) 提问校验,包括对提问式进行语法格式用词等方面的检查,主要由程序自动完成。

3) 提问加工,指对源提问式进行解释性或编译性的加工,生成便于机器处理的目标提问式。

4) 检索匹配,即将目标提问式与数据库索引文档的记录进行匹配,把满足要求的数据库记录输出到结果文档中,或直接显示在检索屏幕上。具体的匹配策略可以是精确匹配,也可以是局部匹配。精确匹配是指要求结果记录(标识)中包含的需求模式必须与提问式所表达的模式完全匹配,才能作为命中结果输出。

局部匹配则是指只要求结果记录(标识)中包含的需求模式与提问式所表达的模式部分匹配,即为命中。

4. 网络信息检索工具的评价。

1) 收录范围。

2) 查全率。

3) 查准率。

4) 响应时间。

5) 用户负担。

6) 输出方式。

7) 新颖程度,更新速率。

5. 因特网搜索引擎的划分类型【书p188】

按信息内容的组织方式划分:1)目录式搜索引擎(directory,catalog)directory提供由网页作者所呈送的因特网的链接集合,同时对这些资源作出评价并组织成主题目录。

2)机器人搜索引擎。

机器人搜索引擎不是靠人工发现和甄别信息,而是由一个被称作“蜘蛛”的计算机程序在网中爬行,依据一定的网络协议在因特网中发现、加工、整理信息,并为用户提供检索服务。机器人搜索引擎由3部分组成:a、搜索软件 b、索引软件 c、检索软件。

重要的机器人搜索引擎有:alta vista, excite, hotbot, infoseek, lycos, webcrawler; 中文的天网,悠游、北极星等。

3) 混合式搜索引擎。

按专业范畴划分:1)综合性搜索引擎:主要以网页和新闻组为搜索对象,信息覆盖范围广,适用用户广泛,如yahoo!alta vista,excite等。

2)专业性搜索引擎。

如:社会科学信息资源的搜索引擎social science information gateway

医学世界检索medical world search, 法律检索系统westlaw

按检索功能划分:1)独立搜索引擎:又称为单一搜索引擎或常规搜索引擎,它有自己的数据库,搜索时通常只检索自己的数据库,并根据数据库的内容反馈出相应的查询信息或链接站点。

如,yahoo!,infoseek, alta vista等,都属于这一类。

2)多元搜索引擎:又称为元搜索引擎(meta search engine)或集成式搜索引擎(multi search engine), 它是多个独立搜索引擎的集合。元搜索引擎是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。

用户只需输入一次检索式,多元搜索引擎便同时将其转给不同的搜索引擎帮助检索,有的se还可以将检索结果中的重复部分删去。

6. 简述常用的计算机信息检索策略。

检索策略是在分析信息需求u实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排,主要包括选择检索词和编制检索提问式两步。

(1)、“最专指面优先”策略:指检索时首先查找所有概念组面中最专指的一个概念组面。然后,再依据用户需求以及初步检索结果,决定是否需要加入其他的概念组面,以及怎样加入其他的概念组面。

(2)、“最低登录量的面优先”策略:指检索时首先查找所有概念组面中登录数最小一个概念组面。然后,再依据用户需求以及初步检索结果,决定是否需要加入其他的概念组面,以及怎样加入其他的概念组面。

(3)、“积木式”策略:指检索时首先逐个查找各个概念组面,然后再把各个组面组配起来,得到最终的检索结果。

(4)、“引文珠形增长”策略:首先以一个较为核心的概念组面进行试检,并仔细浏览初步的检索结果,尤其是特别符合用户需要的文献记录,从中选择更多、更合适的检索词补充到检索式中,然后,再浏览命中的文献记录,再从中选择检索词补充到检索式中。如此反复操作,直至得到理想的最终检索结果。

(5)、“逐次分馏”策略(“连续分割”策略):指检索时首先建立较大的初始文献集(也称为临时子文档,即临时建立起来的子数据库) ,然后利用各种检索的限制或限定措施,逐步缩小检索范围,直至符合用户需要为止。

7. 布尔逻辑检索;运算符包括;各有哪些含义。

布尔检索是通过标准的布尔逻辑关系词来表达检索词与检索词间逻辑关系的检索方法。

(1). and 关系:运算符为:

“and” (and”)或 “*用来组配不同检索概念。其含义是检出的记录必须同时含有所有的检索词,即,检索词必须同时出现在结果中才满足检索条件。

在实际检索中,不同概念组面之间及同一组面内的不同含义的词之间通常使用and算符。

其中“and”主要是用于外文的检索;“*多用于中文的检索。

(2). or 关系。

运算符为:“or” (or”) 或 “+是用来组配具有同义或同族概念的词,如同义词、相关词等。

其含义是检出的记录中至少含有两个检索词中的一个,即, or表示它所连接的检索词中任意一个出现在结果中就满足检索条件;

在实际检索中,同一组面中含有相同的词,相互之间都使用or运算符。其中“or”主要是用于外文的检索;“+多用于中文的检索。另外,在使用截词方法检索具有相同词干的检索词时,这些词之间也自动隐含了逻辑“或”的关系。

例如检索式economics or agriculture就要检索结果中可以只有economics、或只有agriculture、或同时包含economics 和agriculture。

(3).not 关系。

运算符为:“not”(“not”)或 “-表示它所连接的检索词中应从前面的概念中排除后面的概念,即,表示要查找含有前面的检索词而不包含有后面的检索词的文献集合。例如检索式agriculture not robot 就要求检索结果中包含agriculture但不能包含robot。

运算符为:“not”(“not”)或“-”两个检索词之间以“not”或“-”相连,其中“not”主要是用于外文的检索;“-多用于中文的检索。

8. 网络信息检索工具的基本工作原理;(与搜索引擎的基本工作原理的比较)

信息检索包含信息存贮和信息查找两个过程。信息检索的基本原理抽象概括为一句话,即对信息集合与需求集合的匹配与选择。

计算机信息检索

课程编号 99000212 学时 32 学分 2 课程性质 公共选修课。选课对象 全校各专业。内容提要 介绍计算机检索概念,检索的基础知识,检索语言,检索原理,计算机检索策略,检索技术,联机检索中基本指令和搜索引擎的使用技法。建议选用教材 计算机信息检索 机械工业出版社李莹 2002版。主要参考书 ...

计算机专业信息检索

网络信息检索与利用。实。习。指。导。与。报。告。学院 电子与信息工程学院。班级 计算机科学与技术 姓名 xxxxxx 学号 xxxxxxxxx 一 检索电子图书。1 利用超星电子图书查找张有生编著的 计算病毒与木马程序剖析 打开阅读,并查找有关网络安全基础 计算机病毒 木马基本原理 特洛伊木马 病毒...

《计算机信息检索》上机作业

计算机信息检索 上机作业。一 库结构。access 2000数据库1 停用词表1 表名。stopword2 表结构。字段名字段类型字段含义id长整型 自动编号 词序号stopword字符型 文本,最大长度50 停用词。3 记录数。64个停用词2 关键词表1 表名term2 表结构。字段名字段类型字段...