文献检索课第六章计算机检索基础与因特网的使用 第六章计算机检索基础与因特网的使用 第一节计算机检索基础知识 一、数据库的一般结构 在计算机检索系统中,数据库是一种经过编辑组织以机诪形式 出现的记录集合。不同的数据库,其结构也不相同,所提供的检索 途径也有差别,但无论什么类型的数据库其基本结构具有共同的特 征 1字段、记录、文档 字段是文献著录的基本单元,反映文献外部特征和内容特征的毎一个项目, 在数据库中就称为字段,在数据库中每一个字段,往往都给予一个字段名。如 Ttle,字段名为T; Author,为AU;SO为文献来源,AB是文摘字段,PY为 出版年份,SN为国际标准书号ISSN,DE为叙词或主题词,CS为著者单位 在某些数据库的检索中,在上机检索前必须了解数据库的字段名。 记录是由若干不同字段组成的文献单元,一个记录在数据库中往往代表一篇 文献,在数据库中每一个记录都有一个记录号,与检索工具中的文摘号类似 文档,由若干数量的记录所构成的数据集合,在一些大型联机检索系统中称 作文档。如 DIALOG系统中399号文档是美国化学文摘(CA),211号文档是 世界专利索引(WPI)。 2顺排挡、倒排挡
文献检索课 第六章 计算机检索基础与因特网的使用 - 1 - 1 第六章 计算机检索基础与因特网的使用 第一节 计算机检索基础知识 一、数据库的一般结构 在计算机检索系统中,数据库是一种经过编辑组织以机读形式 出现的记录集合。不同的数据库,其结构也不相同,所提供的检索 途径也有差别,但无论什么类型的数据库其基本结构具有共同的特 征: 1.字段、记录、文档 字段是文献著录的基本单元,反映文献外部特征和内容特征的每一个项目, 在数据库中就称为字段,在数据库中每一个字段,往往都给予一个字段名。如 Title,字段名为 TI;Author,为 AU;SO 为文献来源,AB 是文摘字段,PY 为 出版年份,SN 为国际标准书号 ISSN,DE 为叙词或主题词,CS 为著者单位。 在某些数据库的检索中,在上机检索前必须了解数据库的字段名。 记录是由若干不同字段组成的文献单元,一个记录在数据库中往往代表一篇 文献,在数据库中每一个记录都有一个记录号,与检索工具中的文摘号类似。 文档,由若干数量的记录所构成的数据集合,在一些大型联机检索系统中称 作文档。如 DIALOG 系统中 399 号文档是美国化学文摘(CA),211 号文档是 世界专利索引(WPI)。 2.顺排挡、倒排挡
文献检索课第六章计算机检索基础与因特网的使用 以固定的字段顺序,按文献输入先后排列的文档,称为顺排挡。顺排挡是文 献数据库的基本单位,相当于手工检索工具的文摘正文部分,全面记录着文献 的各个特征,但要在顺排挡中检索文献,检索速度相当慢。 将顺排挡中某些文献特征的字段抽取岀来,再按一定的规律排列而形成的文 档,称为倒排挡。倒排挡相当于手工检索工具中的索引部分,因而往往也称作 索引。倒排挡大大加快了数据库的检索速度,在数据库的编制中,建立倒排挡 的字段越多,相应的检索途径越丰富,检索效率就越高。 3基本索引、辅助索引( Basic index, Additional index) Basic index,是由数据库中的某些字段的倒排挡组成,这些字段通常是能够 以主题概念检索的字段,如主题词(DE)字段、关键词(ID)字段、篇名 (∏)字段等。不同的数据库基本索引的字段有所差别,因而在检索前要先了 解该数据库的 Basic index包含哪些字段。如 DIALOG系统的Ei数据库的基本 索引包括∏I,DE,ID,AB四个字段,而WPI数据库只包含ID—个字段 Additional Index,除 Basic index包含的字段外,其他建立倒排挡的字段都是 辅助索引。在检索中,基本索引的检索与辅助索引的检索有所不同,基本索引 检索不用加字段名,而辅助索引的检索需加字段名,如要检索ARAI写的文 章,检索式应为AU=ARAI。 二、国际联机检索系统(On- Line retrieval) 联机检索,是指用户通过终端和通信线路,从信息检索系统存储的文献数据 库中检索自己所需的信息。国际联机检索系统是以大型计算机为核心,大容量 存贮设备为基础,以公共数据交换网或电话通讯线路为传输媒介建立起来的大
文献检索课 第六章 计算机检索基础与因特网的使用 - 2 - 2 以固定的字段顺序,按文献输入先后排列的文档,称为顺排挡。顺排挡是文 献数据库的基本单位,相当于手工检索工具的文摘正文部分,全面记录着文献 的各个特征,但要在顺排挡中检索文献,检索速度相当慢。 将顺排挡中某些文献特征的字段抽取出来,再按一定的规律排列而形成的文 档,称为倒排挡。倒排挡相当于手工检索工具中的索引部分,因而往往也称作 索引。倒排挡大大加快了数据库的检索速度,在数据库的编制中,建立倒排挡 的字段越多,相应的检索途径越丰富,检索效率就越高。 3.基本索引、辅助索引(Basic Index,Additional Index) Basic Index,是由数据库中的某些字段的倒排挡组成,这些字段通常是能够 以主题概念检索的字段,如主题词(DE)字段、关键词(ID)字段、篇名 (TI)字段等。不同的数据库基本索引的字段有所差别,因而在检索前要先了 解该数据库的 Basic Index 包含哪些字段。如 DIALOG 系统的 Ei数据库的基本 索引包括 TI,DE,ID,AB 四个字段,而 WPI 数据库只包含 ID 一个字段。 Additional Index,除 Basic Index 包含的字段外,其他建立倒排挡的字段都是 辅助索引。在检索中,基本索引的检索与辅助索引的检索有所不同,基本索引 检索不用加字段名,而辅助索引的检索需加字段名,如要检索 ARAI 写的文 章,检索式应为 AU=ARAI。 二、国际联机检索系统(On-Line Retrieval) 联机检索,是指用户通过终端和通信线路,从信息检索系统存储的文献数据 库中检索自己所需的信息。国际联机检索系统是以大型计算机为核心,大容量 存贮设备为基础,以公共数据交换网或电话通讯线路为传输媒介建立起来的大
文献检索课 第六章计算机检索基础与因特网的使用 型计算机情报检索系统。只要通讯线路能延伸到的地方都能进行异地远程通讯 检索。 1 DIALOG系统 DIALOG系统是国际上最著名、规模最大的联机检索系统。目前该系统拥有 三台大型计算机,总存贮量共达十八万兆,与两个卫星通信网络相连,在全世 界80多个国家和地区有10多万个终端用户,系统每天24小时为用户提供联机 检索服务。目前该系统建有400多个文档,文献存储量达2亿多个记录,文档 的专业范围遍及科学技术、政治经济、商业、新闻等。 DIALOG公司还将数据 库文档制作成各专业的数据库光盘,单独出版 2 ORBIT系统 ORBIT系统是目前世界上仅次于 DIALOG系统的国际联机检索系统,是始建 于60年代的国际著名联机检索系统。文献存储量达1亿条记录,200多个文 档。 3BDS系统 BDS系统是我国最大的联机检索系统,属北京文献服务处。该系统文献存储 量达1千余万条,该系统的数据库主要是专利文献和美国政府报告。该系统在 全国各地拥有数百个终端用户,由于国内的联机检索费用较低,因而利用率要 高于国际联机检索。但国内联机检索数据量太少无法满足各专业的用户需求。 光盘检索网络 光盘是—种存储量大,价格低廉的计算机存储设备,是采用激光、计算机、 数字通讯和光电集成等现代高科技成果的结晶。目前 CD-ROM(Compact Disk Read Only memory只读式光盘在图书馆中广泛应用,每张光盘的信息存储量达
文献检索课 第六章 计算机检索基础与因特网的使用 - 3 - 3 型计算机情报检索系统。只要通讯线路能延伸到的地方都能进行异地远程通讯 检索。 1.DIALOG 系统 DIALOG 系统是国际上最著名、规模最大的联机检索系统。目前该系统拥有 三台大型计算机,总存贮量共达十八万兆,与两个卫星通信网络相连,在全世 界 80 多个国家和地区有 10 多万个终端用户,系统每天 24 小时为用户提供联机 检索服务。目前该系统建有 400 多个文档,文献存储量达 2 亿多个记录,文档 的专业范围遍及科学技术、政治经济、商业、新闻等。DIALOG 公司还将数据 库文档制作成各专业的数据库光盘,单独出版。 2.ORBIT 系统 ORBIT系统是目前世界上仅次于 DIALOG 系统的国际联机检索系统,是始建 于 60 年代的国际著名联机检索系统。文献存储量达 1 亿条记录,200 多个文 档。 3.BDS 系统 BDS 系统是我国最大的联机检索系统,属北京文献服务处。该系统文献存储 量达 1 千余万条,该系统的数据库主要是专利文献和美国政府报告。该系统在 全国各地拥有数百个终端用户,由于国内的联机检索费用较低,因而利用率要 高于国际联机检索。但国内联机检索数据量太少无法满足各专业的用户需求。 三、光盘检索网络 光盘是一种存储量大,价格低廉的计算机存储设备,是采用激光、计算机、 数字通讯和光电集成等现代高科技成果的结晶。目前 CD-ROM(Compact Disk Read Only Memory)只读式光盘在图书馆中广泛应用,每张光盘的信息存储量达
文献检索课 第六章计算机检索基础与因特网的使用 650兆,相当于3亿多汉字。普通软盘的1600倍,缩微平片的1200倍,相当于 30万页A4型纸的信息量。存取速度快,仅用0.5秒就可以从1张存有几万页资 料的文献中检索出需要的一页。 1光盘检索系统的基本原理 光盘检索系统由光盘、 CD-ROM驱动器、计算机并配以相应的驱动软件和检 索软件构成 2光盘检索网络系统 单机的光盘检索系统随着光盘数据库的大量涌现,检索时需频繁换盘,给用 户带来不便。并且同时只能有一个读者使用而无法充分发挥昂贵的光盘数据库 的效益。在计算机网络技术的基础上开发了光盘检索网络的硬件和软件,形成 了光盘检索网络系统。目前建成的光盘检索网络系统有多种模式,共同的特点 是拥有能同时运行几十张光盘的光盘塔驱动器,有可供上百个用户同时检索同 一张或不同光盘的光盘网络软件。由于光盘网络检索系统不用换盘,可多用户 共享数据库,充分发挥了光盘的作用,在国内外高校图书馆中得以迅速的发 展 四、布尔逻辑运算 在计算机检索中,逻辑运算是常用的方法。用逻辑运算的方法反映检索词之 间的关系,能达到提高检索效果的目的。常用的逻辑运算有三种:逻辑与、逻 辑或、逻辑非。 逻辑与:机检的输入符号为“*″或“AND",是反映概念之间交叉和限定的 种组配。A*B,表示数据库中既含有A概念又含有B概念的文献才被命 中。用逻辑与可以逐步缩小文献的检索范围,提高文献命中的准确性
文献检索课 第六章 计算机检索基础与因特网的使用 - 4 - 4 650 兆,相当于 3 亿多汉字。普通软盘的 1600 倍,缩微平片的 1200 倍,相当于 30 万页 A4 型纸的信息量。存取速度快,仅用 0.5 秒就可以从 1 张存有几万页资 料的文献中检索出需要的一页。 1.光盘检索系统的基本原理 光盘检索系统由光盘、CD-ROM 驱动器、计算机并配以相应的驱动软件和检 索软件构成。 2.光盘检索网络系统 单机的光盘检索系统随着光盘数据库的大量涌现,检索时需频繁换盘,给用 户带来不便。并且同时只能有一个读者使用而无法充分发挥昂贵的光盘数据库 的效益。在计算机网络技术的基础上开发了光盘检索网络的硬件和软件,形成 了光盘检索网络系统。目前建成的光盘检索网络系统有多种模式,共同的特点 是拥有能同时运行几十张光盘的光盘塔驱动器,有可供上百个用户同时检索同 一张或不同光盘的光盘网络软件。由于光盘网络检索系统不用换盘,可多用户 共享数据库,充分发挥了光盘的作用,在国内外高校图书馆中得以迅速的发 展。 四、布尔逻辑运算 在计算机检索中,逻辑运算是常用的方法。用逻辑运算的方法反映检索词之 间的关系,能达到提高检索效果的目的。常用的逻辑运算有三种:逻辑与、逻 辑或、逻辑非。 逻辑与:机检的输入符号为“*”或“AND”,是反映概念之间交叉和限定的 一种组配。A*B,表示数据库中既含有 A 概念又含有 B 概念的文献才被命 中。用逻辑与可以逐步缩小文献的检索范围,提高文献命中的准确性
文献检索课 第六章计算机检索基础与因特网的使用 如:乙烯的水合反应A: ethylene A*B(交集) ABB B: hydration A AND B 逻辑或:机检的输入符号为"+″或“OR",是反映概念之间并列关系的种 组配。A+B,表示在数据库中只要含有A概念或B概念的文献都可命中。用 B 逻辑或可以扩大文献的检索范围,防止漏检,以提高文献的检全率。 如:石油和天然气A: petroleum A+B(并集) a BB: natural gas A OR B 逻辑非:机检的输入符号为“-″或“NOT,A-B,表示在数据库中,在命 中含有A概念的文献集合里,去除同时含有B概念的文献。逻辑非也是一种缩 小检索范围的概念组配方法,但并不一定能提高文献命中的准确性,往往只是 起到减少文献输出量的作用,在联机检索中以降低检索费用。 B 如:石油炼制催化剂以外的催化剂A: catalyst A-B BB: petroleum refining A NOT B
文献检索课 第六章 计算机检索基础与因特网的使用 - 5 - 5 如:乙烯的水合反应 A:ethylene A*B (交集) B:hydration A AND B 逻辑或:机检的输入符号为“+”或“OR”,是反映概念之间并列关系的一种 组配。A+B,表示在数据库中只要含有 A 概念或 B 概念的文献都可命中。用 逻辑或可以扩大文献的检索范围,防止漏检,以提高文献的检全率。 如:石油和天然气 A:petroleum A+B (并集) A B B:natural gas A OR B 逻辑非:机检的输入符号为“-”或“NOT”,A-B,表示在数据库中,在命 中含有 A 概念的文献集合里,去除同时含有 B 概念的文献。逻辑非也是一种缩 小检索范围的概念组配方法,但并不一定能提高文献命中的准确性,往往只是 起到减少文献输出量的作用,在联机检索中以降低检索费用。 如:石油炼制催化剂以外的催化剂 A:catalyst A-B A B B:petroleum refining A NOT B