Lucene全文检索的原理是什么

这篇文章主要讲解了“Lucene全文检索的原理是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Lucene全文检索的原理是什么”吧!

作为一家“创意+整合+营销”的成都网站建设机构,我们在业内良好的客户口碑。创新互联公司提供从前期的网站品牌分析策划、网站设计、成都网站建设、网站制作、创意表现、网页制作、系统开发以及后续网站营销运营等一系列服务,帮助企业打造创新的互联网品牌经营模式与有效的网络营销方法,创造更大的价值。

在我们处理的数据当中,分为三类数据:

结构化数据:具有固定格式或限定长度的数据,如我们的数据库中的数据

非结构化数据:无固定格式、无固定长度的数据,如我们web上的文本内容等

半结构数据:如Json、XML数据。

那么我们怎么来处理这些不同类型的数据呢?

对于数据库中的结构化数据,使用SQL语句查询

对于非结构数据,我们顺序扫描、全文检索.

其中,顺序扫描就是从数据的开头的一条数据扫描到最后的一条数据。显而易见的是,这对于时间、性能都是很大的浪费。

那什么是全文检索呢?

这就是Lucene要完成的事情了。下面我们先看一张图来描述它在整个系统中所起到的作用:

Lucene全文检索的原理是什么

对lucen上层的应用部分,我们可以看到应用手机了结构化的、半结构化的、非结构化的数据,由lucene为其建立索引文件;另一种应用则是检索,用户通过输入检索条件的关键词检索我们的索引库,然后把结果返回给用户。

那么什么是索引?

就像新华字典中的拼音检索和部首索引用来查字一样。

在lucene中也是一样,全文检索指的是某一个词在哪些文档中出现过。例如:

Lucene全文检索的原理是什么

在上图中,“lucene”这个关键词在第1篇和第3篇文档中出现过。“Solr”这个关键词在第1、3、5篇文档中出现过。“hadoop”这个关键词在第3、5、7、8、9篇文档中出现过。

这里我们把整个过程称之为“反向索引”。右边的每个关键词的文档链表我们称之为倒排表

什么是反向索引?

反向索引:这种由字符串到文件的映射是文件到字符串映射的反向过程。其实描述的就是一种映射关系。

创建索引

好吧。那么创建全文检索的步骤是怎么样的呢?

这里我们将创建全文检索分为三个步骤或者说需要的三个东西:

需要检索的数据(Document)

分词技术(Analyzer)

索引创建(Indexer)

我们举个例子吧。

第一步,Document数据实例

我的博客空间

HappyBKs的Lucene文章

HappBKs的Hadoop文章

第二步,分词技术。(我们这里采用标准分词。)

我|的|博|客|空|间

happybks|的|lucene|文|章

happbks|的|hadoop|文|章

注意,这里经过标准分词之后,中文按字进行了切分,英文的大写字符被转换为了小写。

第三步,索引创建。

Term
IDTermIDTermID
1happybks2happbks3
123
1lucene2hadoop3
123
123
1





















我们对索引进行合并。

TermIDTermIDTermID
1happybks2,3

1,2,3



1lucene2hadoop3
12,3

12,3

1





















这张表就是我们所说的索引。

现在,我们来看看,如何利用索引来进行检索。

索引检索

分为四个步骤:

搜索关键词(keywords)

分词技术(Analyzer)

检索索引(Search)

返回结果

我们还是放到例子里来梳理步骤。

第一步,获得用户搜索的关键词

lucene文章

第二步,采用分词技术

lucene|文|章

第三步,检索索引。

Lucene全文检索的原理是什么

通过上面的图我们可以看到,倒排表中,包含关键词所有分词单元的文档是文档2.

感谢各位的阅读,以上就是“Lucene全文检索的原理是什么”的内容了,经过本文的学习后,相信大家对Lucene全文检索的原理是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!


分享标题:Lucene全文检索的原理是什么
网站URL:http://azwzsj.com/article/ggpgjj.html