首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率 。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率 。检索速度或者说响应时间是提高工作效率的保障 , 指的是从提交检索课题到查出资料结果所需的时间 。最基本的检索速度是应该达“千万汉字,秒级响应" 。还有诸如收录范围(所查找的范围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素 。
搜索引擎应该是全文检索技术最主要的一个应用 。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术 。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果 。全文检索技术是搜索引擎的核心支撑技术 。
一个好的检索引擎是一个理想站点的关键 。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:
分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;
全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;
有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;
必须有相关排序功能,因为当检索结果太多时 , 用户不可能一一浏览 , 大多数用户只浏览前面几条 , 没有相关排序 , 可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少 , 造成用户的错觉 。
此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面 。
目前的技术实现有Lucene,Solr,ElasticSearch等 。全文检索过程分为索引、搜索两个过程:
索引(Indexing)
从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息),源数据的来源是非常广泛的 。
将源数据采集到一个统一的地方,例如存储系统,要创建索引 , 将索引创建到一个索引库(文件系统)中,从源数据库中提取关键信息 , 从关键信息中抽取一个一个词,词和源数据是有关联的 。也即创建索引时,词和源数据有关联 , 索引库中记录了这个关联,如果找到了词就说明找到了源数据(http的网页、电子书、新闻等……) 。
搜索(Search)
用户执行搜索(全文检索)编写查询关键字 。
从索引库中搜索索引 , 根据查询关键字搜索索引库中的一个一个词 。
展示搜索的结果 。
1.布尔逻辑检索
利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种技术 。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT” 。
2.截词检索
截词检索是计算机检索系统中应用非常普遍的一种技术 。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等 。这是就要用到截词检索
经验总结扩展阅读
- 怎样梳头才更科学,都说常梳头有益健康,但是梳头也是有技巧的,怎样梳头才是正确的呢?
- 金桔怎么洗,金桔泡水的正确做法 金桔为什么要用盐水泡
- 代词是什么,代词指的是什么??
- 桥梁侧翻事故原因,湖北一高速桥梁侧翻,事发匝道去年曾加固,事故发生的主要原因是什么?
- 水果皮省钱又环保的妙用,水果皮的妙用
- 南沙大宗是哪里,南沙自贸区的功能规划是怎么样的?发展的产业有哪些?
- 赣是哪个省的简称,赣是哪个省的?
- 太平间为什么叫太平间,太平间名称怎么来的?
- 蜂胶软胶囊的作用与功效,蜂胶软胶囊的作用与功效
- 如何调整小米智能手表的时间和日期,智能手表怎么调时间和日期?