Elasticsearch——评分机制详解

作者&投稿：五左（若有异议请与网页底部的电邮联系）

一个搜索引擎使用的时候必定需要排序这个模块，如果在不选择按照某一字段排序的情况下，都是按照打分的高低进行一个默认排序的，所以如果正式使用的话，必须对默认排序的打分策略有一个详细的了解才可以，否则被问起来为什么这个在前面，那个在后面？

将查询作为输入，将每一个因素最后通过公式综合起来，返回该文档的最终得分。这个综合考量的过程，就是将相关的文档被优先返回的考量过程。

Elasticsearch是基于Lucene的，所以它的评分机制也是基于Lucene的。在Lucene中把这种相关性称为得分（score），确定文档和查询有多大相关性的过程被称为打分（scoring）。

ES最常用的评分模型是 TF/IDF和BM25，TF-IDF属于向量空间模型，而BM25属于概率模型，但是他们的评分公式差别并不大，都使用IDF方法和TF方法的某种乘积来定义单个词项的权重，然后把和查询匹配的词项的权重相加作为整篇文档的分数。

在ES 5.0版本之前使用了TF/IDF算法实现，而在5.0之后默认使用BM25方法实现。

relevance score相关性算分：简单来说，就是计算出，一个索引中的文本，与搜索文本，他们之间的关联匹配程度。

通过倒排索引可以获取与查询语句相匹配的文档列表，那么如何将最符合用户查询需求的文档放到前列呢？

本质是一个排序问题，排序的依据是相关性算分。

Elasticsearch使用的是 term frequency/inverse document frequency算法，简称为TF/IDF算法。TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)

相关性算分的几个重要概念如下：

ES目前主要有两个相关性算分模型，如下：

BM25中的IDF公式为：

原版BM25的log中是没有加1的，Lucene为了防止产生负值，做了一点小优化。虽然对公式进行了更改，但其实和原来的公式没有实质性的差异，下面是新旧函数曲线对比：

BM25中TF的公式为：

其中tf是传统的词频值。先来看下改良前后的函数曲线对比（下图中k=1.2）：

可以看到，传统的tf计算公式中，词频越高，tf值就越大，没有上限。但BM中的tf，随着词频的增长，tf值会无限逼近(k+1)，相当于是有上限的。这就是二者的区别。一般 k取 1.2，Lucene中也使用1.2作为 k 的默认值。

在传统的计算公式中，还有一个norm。BM25将这个因素加到了TF的计算公式中，结合了norm因素的BM25中的TF计算公式为：

和之前相比，就是给分母上面的 k 加了一个乘数 (1.0−b+b∗L)(1.0−b+b∗L)。其中的 L 的计算公式为：

其中，|d|是当前文档的长度，avgDl 是语料库中所有文档的平均长度。

b 是一个常数，用来控制 L 对最总评分影响的大小，一般取0~1之间的数（取0则代表完全忽略 L ）。Lucene中 b 的默认值为 0.75。

通过这些细节上的改良，BM25在很多实际场景中的表现都优于传统的TF-IDF，所以从Lucene 6.0.0版本开始，上位成为默认的相似度评分算法。

上例是通过similarity属性来指定打分模型，用到了以下三个参数：

如果我们要使用某种特定的打分模型，并且希望应用到全局，那么就在elasticsearch.yml配置文件中加入：

通过boosting可以人为控制某个字段的在评分过程中的比重，有两种类型：

通过在mapping中设置boost参数，可以在索引期间改变字段的评分权重：

需要注意的是：在索引期间修改的文档boosting是存储在索引中的，要想修改boosting必须重新索引该篇文档。

一旦映射建立完成，那么所有name字段都会自动拥有一个boost值，并且是以降低精度的数值存储在Lucene内部的索引结构中。只有一个字节用于存储浮点型数值（存不下就损失精度了），计算文档的最终得分时可能会损失精度。

另外，boost是应用与词条的。因此，再被boost的字段中如果匹配上了多个词条，就意味着计算多次的boost，这将会进一步增加字段的权重，可能会影响最终的文档得分。

查询期间的boosting可以避免上述问题。

几乎所有的查询类型都支持boost，例如：

就对于最终得分而言，加了boost的name查询更有影响力。也只有在bool查询中，boost更有意义。

boost也可以用于multi_match查询。

除此之外，我们还可以使用特殊的语法，只为特定的字段指定一个boost。通过在字段名称后添加一个^符号和boost的值。告诉ES只需对那个字段进行boost：

上例中，title字段被boost了3倍。

需要注意的是：在使用boost的时候，无论是字段或者词条，都是按照相对值来boost的，而不是乘以乘数。如果对于所有的待搜索词条boost了同样的值，那么就好像没有boost一样。因为Lucene会标准化boost的值。如果boost一个字段4倍，不是意味着该字段的得分就是乘以4的结果。

ES背后的评分过程比我们想象的要复杂，有时候某个查询结果可能跟我们的预期不太一样，这时候可以通过explain让ES解释一下评分细节。

由于结果太长，我们这里对结果进行了过滤（"size": 1返回一篇文档），只查看指定的字段（"_source": "name"只返回name字段）。

在新增的_explanation字段中，可以看到value值是0.9331132，那么是怎么算出来的呢？

分词spring在描述字段（name）出现了1次，所以TF的综合得分经过"description" : "tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:"计算，得分是0.43243244。

那么逆文档词频呢？根据"description" : "idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:"计算得分是0.98082924。

需要注意的是，explain的特性会给ES带来额外的性能开销，一般只在调试时使用。

搜索的时候，要依靠倒排索引；排序的时候，需要依靠正排索引，看到每个document的每个field，然后进行排序，所谓的正排索引，其实就是doc values。

在建立索引的时候，一方面会建立倒排索引，以供搜索用；一方面会建立正排索引，也就是doc values，以供排序，聚合，过滤等操作使用。

doc values是被保存在磁盘上的，此时如果内存足够，os会自动将其缓存在内存中，性能还是会很高；如果内存不足够，os会将其写入磁盘上。

DocValues默认是启用的，可以在创建索引的时候关闭，如果后面要开启DocValues，需要做reindex操作。

参考：
https://www.elastic.co/guide/cn/elasticsearch/guide/current/scoring-theory.html

https://blog.csdn.net/qq_29860591/article/details/109574595

https://www.jianshu.com/p/2624f61f1d02

http://www.dtmao.cc/news_show_378736.shtml

https://blog.csdn.net/molong1208/article/details/50623948

https://www.cnblogs.com/Neeo/articles/10721071.html

https://www.cnblogs.com/jpfss/p/10775376.html

https://zhuanlan.zhihu.com/p/27951938

永和县15530962718： elasticsearch怎样用自定义评分规则排序 - ？
当涂静石椒： thisObj.className = ＂active＂; document.getElementById(tabObj+＂_Content＂+i).style.display = ＂block＂; }else{ tabList[i].className = ＂normal＂; document.getElementById(tabObj+＂_Content＂+i).style.display = ＂none＂;

永和县15530962718： 如何测试elasticsearch性能 - ？
当涂静石椒： 为了支持高可用性与高伸缩性,Elasticsearch本身就是分布式设计的.从顶层的角度来说,Elasticsearch在索引(或者集合) 中保存文档(或者数据记录),每个集合又分解为多个小块,称为分片.索引越大,所需要分配的分片越多(不必担心...

永和县15530962718： elasticsearch 测试分词能分出来,评分却没有 - ？
当涂静石椒： Elasticsearch自带的数据类型是Lucene索引的依据,也是我们做手动映射调整的依据. 映射中主要就是针对字段设置类型以及类型相关参数. 1.JSON基础类型如下: 字符串:string 数字:byte、short、integer、long、float、double、时间:...

永和县15530962718： elasticsearch 聚合查询后结果排序,使用哪个字段排序 - ？
当涂静石椒： 可以通过order指定一个单值的metric聚合,来排序. { ＂aggs＂ : { ＂genders＂ : { ＂terms＂ : { ＂field＂ : ＂gender＂, ＂order＂ : { ＂avg_height＂ : ＂desc＂ } }, ＂aggs＂ : { ＂avg_height＂ : { ＂avg＂ : { ＂field＂ : ＂height＂ } } } } } }

永和县15530962718： elasticsearch esrally 测试内容怎么看 - ？
当涂静石椒： 在output->elasticsearch下增加一个index配置output {elasticsearch {hosts => [＂192.168.10.166:9200＂]index => ＂test_system_log＂}}查看的的话,就装kibana好了,在kibana的settings->indices页面,在页面里面的输入框输入test_system_log,如果下面的按钮文字不是unable to fetch mapping xxxx,就说明日志收集成功了,点create按钮就创建好了

永和县15530962718： 请求一个elasticsearch的查询语句怎么写 - ？
当涂静石椒： Elasticsearch是一个高伸缩、高可用、基于Apache Lucene的开源搜索与分析引擎.通过它你可以很方便地对数据进行深入挖掘,可以随时放大与缩小搜索与分析的区间,并且这一切都是实时的.为了提供了一个优秀的用户体验,我们对...

永和县15530962718： elasticsearch mysql 哪个好 - ？
当涂静石椒： 这两个所适用的领域不同,不具有可比性. ElasticSearch本质是搜索引擎,它通过建立反向索引的方式处理文档型数据,不具备通常数据库的事务、关联查询等等特性,你可以把它当作nosql来用. MySQL是典型的关系型数据库. 如果你的场景是海量数据,要求水平扩展,无事务要求,那么可以用ES,否则还是要MySQL,或者根据业务需求混合使用两种.

永和县15530962718： 如何能Elasticsearch指数进行全局范围内区分大小写 - ？
当涂静石椒： 集群就是由一个或多个节点组织在一起,它们共同持有你整个的数据,并一起提供索引和搜索功能.一个集群由一个唯一的名字标识,这个名字默认就是“elasticsearch”.这个名字是重要的,因为一个节点只能通过指定某个集群的名字,来加入这个集群.

永和县15530962718： Elasticsearch 查询怎么返回指定的字段值 - ？
当涂静石椒： SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder(); searchSourceBuilder.fetchSource(＂uri＂,＂＂); _search?_source=goodsId,uri _search?fields=goodsId,uri ＂_source＂ : { ＂includes＂ : [ ＂uri＂ ], ＂excludes＂ : [ ＂＂ ] }

永和县15530962718： java+elasticsearch 分词器怎么用 - ？
当涂静石椒： 你是要在什么场景下用? elasticsearch 是基于 lucene 的.如果你直接嵌入你程序的话,直接用 lucene 就好了

你可能想看的相关专题

elasticsearch官网中文

elasticsearch菜鸟教程

elasticsearch java api

星空见康网

Elasticsearch——评分机制详解

你可能想看的相关专题