一、Elasticsearch入门
1. Elasticsearch介绍
【摘自百度百科】
Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤首先用户将数据提交到Elasticsearch 数据库中再通过分词控制器去将对应的语句分词将其权重和分词结果一并存入数据当用户搜索数据时候再根据权重将结果排名打分再将返回结果呈现给用户。
Elasticsearch是与名为Logstash的数据收集和日志解析引擎以及名为Kibana的分析和可视化平台一起开发的。这三个产品被设计成一个集成解决方案称为“Elastic Stack”以前称为“ELK stack”。
Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索具有接近实时的搜索并支持多租户。Elasticsearch是分布式的这意味着索引可以被分成分片每个分片可以有0个或多个副本。每个节点托管一个或多个分片并充当协调器将操作委托给正确的分片。再平衡和路由是自动完成的。相关数据通常存储在同一个索引中该索引由一个或多个主分片和零个或多个复制分片组成。一旦创建了索引就不能更改主分片的数量。
Elasticsearch使用Lucene并试图通过JSON和Java API提供其所有特性。它支持facetting和percolating如果新文档与注册查询匹配这对于通知非常有用。另一个特性称为“网关”处理索引的长期持久性#xff1b;例如在服务器崩溃的情况下可以从网关恢复索引。Elasticsearch支持实时GET请求适合作为NoSQL数据存储但缺少分布式事务。
2. Lucene介绍
【摘自百度百科】
Lucene是apache软件基金会 jakarta项目组的一个子项目是一个开放源代码的全文检索引擎工具包但它不是一个完整的全文检索引擎而是一个全文检索引擎的架构提供了完整的查询引擎和索引引擎部分文本分析引擎英文与德文两种西方语言。Lucene的目的是为软件开发人员提供一个简单易用的工具包以方便的在目标系统中实现全文检索的功能或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库虽然与搜索引擎有关但不应该将信息检索程序库与搜索引擎相混淆。
3. 什么是Elasticsearch
一个开源的分布式搜索引擎可以用来实现搜索、日志统计、分析、系统监控等功能帮助我们从海量数据中快速找到需要的内容。
4. 什么是elastic stackELK
是以elasticsearch为核心的技术栈包括beats、Logstash、kibana、elasticsearch
被广泛应用在日志数据分析、实时监控等领域。
5. 什么是Lucene
Lucene是Apache的开源搜索引擎类库提供了搜索引擎的核心API
Lucene是一个Java语言的搜索引擎类库是Apache公司的顶级项目由DougCutting于1999年研发。
6. 面试题
关于“谈谈你对 ES 的理解”
Elasticsearch 简称 ES 。它是建立在全文搜索引擎库 Apache Lucene 基础之上的
一个开源的搜索引擎也可以作为 NoSQL 数据库存储任意格式的文档和数据。也可
以做大数据的分析是一个跨界开源产品。
它最主要的应用场景是 ELK 的日志分析系统。
另外它还有以下特点
1. 第一、采用 Master-slave 架构实现数据的分片和备份
2. 第二、使用 Java 编写并对 Lucene 进行封装隐藏了 Lucene 的复杂性
3. 第三、能胜任上百个服务节点的扩展并支持 PB 级别的结构化或者非结构化数据
4. 第四、ES 提供的 Restful API不仅简化了 ES 的操作还支持任何语言的客户端
提供 API 接口另外 Restful API 的风格还实现了 CURD 操作、创建索引删除索
引等功能。
二、正向索引和倒排索引
1. 什么是正向索引
正向索引是最传统的根据id索引的方式。但根据词条查询时必须先逐条获取每个文档然后判断文档中是否包含所需要的词条是根据文档找词条的过程。
正向索引是以关键字为主码查询时需要遍历每一个文件。每个文件都对应一个文件ID文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中关键词也已经转换为关键词ID。
举例传统数据库如MySQL采用正向索引
如果是根据id查询那么直接走索引查询速度非常快。
2. 倒排索引
2.1 什么是倒排索引
【摘自百度百科】
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值而是由属性值来确定记录的位置因而称为倒排索引(inverted index)
2.2 倒排索引相关概念
文档
document
用来搜索的数据其中的每一条数据就是一个文档。词条
Term
对文档数据或用户搜索数据利用某种算法分词得到的具备含义的词语2.3 如何创建倒排索引
创建倒排索引是对正向索引的一种特殊处理
将每一个文档的数据利用算法分词得到一个个词条
创建表每行数据包括词条、词条所在文档id、位置等信息
因为词条唯一性可以给词条创建索引例如hash表结构索引
2.4 倒排索引的搜索流程
倒排索引的搜索流程如下以搜索"华为手机"为例
用户输入条件
"华为手机"
进行搜索。对用户输入内容分词得到词条
华为
、手机
。拿着词条在倒排索引中查找可以得到包含词条的文档id1、2、3。
拿着文档id到正向索引中查找具体文档
3. 正向索引和倒排索引
正向索引
优点
可以给多个字段创建索引
根据索引字段搜索、排序速度非常快
缺点
根据非索引字段或者索引字段中的部分词条查找时只能全表扫描
倒排索引
优点
根据词条搜索、模糊搜索时速度非常快
缺点
只能给词条创建索引而不是字段
无法根据字段做排序
三、Elasticsearch基本概念
1.什么是文档document
一条数据就是一个文档在Elasticsearch中是按照Json格式存放
2. 什么是字段Field
Json文档中的字段
3. 什么是索引Index
通类型文档的集合
4. 什么是映射mapping
索引中文档的约束比如字段名称、类型
5. Elasticsearch和MySQL的对比
MySQL | Elasticsearch | 说明 |
---|---|---|
Table | Index | 索引(index)就是文档的集合类似数据库的表(table) |
Row | document | 文档document就是一条条的数据类似数据库中的行Row文档都是JSON格式 |
Column | Field | 字段Field就是JSON文档中的字段类似数据库中的列Column |
Schema | Mapping | Mapping映射是索引中文档的约束例如字段类型约束。类似数据库的表结构Schema |
SQL | DSL | DSL是elasticsearch提供的JSON风格的请求语句用来操作elasticsearch实现CRUD |
四、Elasticsearch的安装
本章主要介绍了 基于Docker安装Elasticsearch、Kibana、IK分词器
请跳转我的另外一篇博客文章
基于Docker安装Elasticsearch【保姆级教程、内含图解】_elasticsearch docker 安装_Acloasia的博客-CSDN博客
五、索引库操作
思维导图
1.mapping属性
mapping是对索引库中文档的约束常见的mapping属性包括
type字段数据类型常见的简单类型有
字符串text可分词的文本、keyword精确值例如品牌、国家、ip地址
数值long、integer、short、byte、double、float、
布尔boolean
日期date
对象object
index是否创建索引默认为true
analyzer使用哪种分词器、
ik_smart:最少切分粗粒度
ik_max_word:最细切分细粒度
默认的是standard分词器
有两种分词模式
properties该字段的子字段
举例
2. 创建索引
倒排索引结构虽然不复杂但是一旦数据结构改变比如改变了分词器就需要重新创建倒排索引。
注意 因此索引库一旦创建无法修改mapping#xff01;#xff01;#xff01;
2.1 基本语法
注意索引库不可使用大写的英文
PUT /索引库名
2.2 使用格式
PUT /索引库名称 { "mappings": { "properties": { "字段名":{ "type": "text", "analyzer": "ik_smart" }, "字段名2":{ "type": "keyword", "index": "false" }, "字段名3":{ "properties": { "子字段": { "type": "keyword" } } }, // ...略 } } }
2.3 使用实例
PUT /myesdemo { "mappings": { "properties":{ "age":{ "type":"integer", "index":true }, "weight":{ "type":"boolean" }, "isMarried":{ "type":"boolean" }, "info":{ "type":"text", "analyzer":"ik_smart" }, "eamil":{ "type":"keyword", "index":false }, "score":{ "type":"float" }, "name":{ "properties":{ "firstName":{ "type":"keyword" }, "lastName":{ "type":"keyword" } } } } } }
3. 查询索引
3.1 基本语法
请求方式 GET
请求路径/ 索引库名
请求参数无
3.2 使用格式
GET /索引库名
3.3 使用实例
GET /myesdemo
输出
{ "myesdemo": { "aliases": {}, "mappings": { "properties": { "age": { "type": "integer" }, "eamil": { "type": "keyword", "index": false }, "info": { "type": "text", "analyzer": "ik_smart" }, "isMarried": { "type": "boolean" }, "name": { "properties": { "firstName": { "type": "keyword" }, "lastName": { "type": "keyword" } } }, "score": { "type": "float" }, "weight": { "type": "boolean" } } }, "settings": { "index": { "routing": { "allocation": { "include": { "_tier_preference": "data_content" } } }, "number_of_shards": "1", "provided_name": "myesdemo", "creation_date": "1685289278555", "number_of_replicas": "1", "uuid": "rlCb-2bpQuKUdnwJCTH5fQ", "version": { "created": "8060099" } } } } }
4. 添加新的字段到mapping
前言有提到索引库一旦创建无法修改mapping
但可以在已经创建的索引库进行添加新的字段。
4.1 基本语法
请求方式 PUT
请求路径/ 索引库名 /_mapping
请求参数无
4.2 使用格式
PUT /myesdemo/_mapping { "properties":{ "全新字段名":{ "type":"keyword", "index":false // .... 略 } } }
4.3 使用实例
PUT /myesdemo/_mapping { "properties":{ "gender":{ "type":"keyword", "index":false } } }
5. 删除索引库
5.1 基本语法
请求方式 DELETE
请求路径/ 索引库名
请求参数无
5.2 使用格式
DELETE /索引库名
5.3 使用实例
DELETE /myesdemo
六、文档操作
思维导图
1. 添加文档
1.1 基本语法
没有指定文档的id在 ES 中会自动给我们生成一个随机的文档 id 值。
请求方式POST
请求路径/索引库名/_doc/文档id
请求参数无
1.2 使用格式
POST /索引库名/_doc/文档id { "字段1": "值1", "字段2": "值2", "字段3": { "子属性1": "值3", "子属性2": "值4" }, // ... }
1.3 使用实例
#创建一个索引库 PUT /mydemo { "mappings": { "properties":{ "age":{ "type":"integer", "index":true }, "eamil":{ "type":"keyword", "index":false }, "id":{ "type":"integer" }, "score":{ "type":"float" }, "name":{ "type":"text", "analyzer": "ik_smart" } } } } #向mydemo索引库新镇文档 POST /mydemo/_doc/1 { "age":18, "name":"李华华", "email":"XXX@xxx.com", "id":"1", "score":"99" }
2. 查询文档
1.1 基本语法
请求方式 GET
请求路径/{ 索引库名 }/_doc/{id}
请求参数文档ID
1.2 使用格式
GET /{索引库名称}/_doc/{id}
1.3 使用实例
#查询文档 GET /mydemo/_doc/1
3. 删除文档
1.1 基本语法
请求方式 DELETE
请求路径/{ 索引库名 }/_doc/{id}
请求参数文档ID
1.2 使用格式
DELETE /{索引库名}/_doc/id值
1.3 使用实例
#删除文档 DELETE /mydemo/_doc/1
4.修改文档
4.1 全量修改
4.1.1 全量修改是什么
删除旧文档添加新文档
4.1.2 基本语法
请求方式 PUT
请求路径/{ 索引库名 }/_doc/{id}
请求参数文档ID
4.1.3 使用格式
PUT /索引库名/_doc/文档id { "字段1": "值1", "字段2": "值2", // ... 略 }
4.1.4 使用实例
#全量修改删除旧文档添加新文档 PUT /mydemo/_doc/1 { "age":19, "name":"张三", "email":"XXX@xxx.com", "id":"2", "score":"100" }
4.2 增量修改
4.2.1 增量修改是什么
只修改指定id匹配的文档中的指定字段值
4.2.2 基本语法
请求方式POST
请求路径/{ 索引库名 }/_pudate/{id}
请求参数文档ID
4.2.3 使用格式
POST /{索引库名}/_update/文档id { "doc": { "字段名": "新的值", } }
4.2.4 使用实例
#增量修改只修改指定id匹配的文档中的指定字段值 POST /mydemo/_update/1 { "doc":{ "name":"李四" } }
七、 高级查询
思维导图
ES 提供了基于 JSON 的 DSLDomain Specific Language来定义查询。
1. 查询的基本语法
GET /索引名称/_search { "query": { "查询类型": { "查询条件": "条件值" } } }
2. 查询所有
1. 基本语法
请求方式GET
请求路径/{ 索引库名 }/_search
请求参数无
2. 使用格式
GET /索引名称/_search { "query": { "match_all": {} } }
3. 使用实例
#查询所有 GET /mydemo/_search { "query":{ "match_all":{} } }
3. 全文检索
全文检索查询的基本流程如下
对用户搜索的内容做分词得到词条
根据词条去倒排索引库中匹配得到文档id
根据文档id找到文档返回给用户
比较常用的场景包括
商城的输入框搜索
百度输入框搜索
1. 基本语法
match单字段查询
multi_match多字段查询任意一个字段符合条件就算符合查询条件
2. 使用格式
match
GET /索引名称/_search { "query":{ "match": { "FIELD": "TEXT" } } }
multi_match
在 multi_match 的参数中query 表示要查询的字段值而 fields 表示在那些字段中查询。
GET /索引名称/_search { "query":{ "multi_match": { "query":"查询值", "fields":["查询条件1","查询条件2",...] } } }
3. 使用实例
#全文检索 GET /mydemo/_search { "query":{ "match": { "age": "19" } } } GET /mydemo/_search { "query":{ "multi_match": { "query":"张飞", "fields":["name","email"] } } }
4. 精准查询
精确查询一般是查找keyword 、数值、日期、 boolean 等类型字段。所以 不会 对搜索条件分词。
1. 基本语法
term根据词条精确值查询
range根据值的范围查询
2. 使用格式
term查询
#term查询 GET /索引名称/_search { "query":{ "term": { "FIELD": { "value": "VALUE" } } } }
range查询
##range查询 #这里的gte代表大于等于gt则代表大于 #lte代表小于等于lt则代表小于 GET /索引名称/_search { "query":{ "range": { "FIELD": { "gte": "VALUE", "lte": "VALUE" } } } }
3. 使用实例
###精确查询 ##term查询 GET /mydemo/_search { "query":{ "term": { "age": { "value": "19" } } } } ##range查询 #这里的gte代表大于等于gt则代表大于 #lte代表小于等于lt则代表小于 GET /mydemo/_search { "query":{ "range": { "age": { "gte": "18", "lte": "19" } } } } }
5. 过滤查询
布尔查询是一个或多个查询子句的组合每一个子句就是一个 子查询
1. 基本语法
must 必须匹配每个子查询类似 “ 与 ”
should选择性匹配子查询类似 “ 或 ”
must_not必须不匹配 不参与算分 类似 “ 非 ”
filter必须匹配 不参与算分
2. 使用格式
#过滤查询 GET /索引名称/_search { "query":{ "bool": { "must": [ {"term": { "FIELD": { "value": "VALUE" } }} ], "should": [ {"term": { "FIELD": { "value": "VALUE" } }} ], "must_not": [ {"term": { "FIELD": { "value": "VALUE" } }} ], "filter": [ {"term": { "FIELD": "VALUE" }} ] } } }
3. 使用实例
#过滤查询 GET /mydemo/_search { "query": { "bool": { "must": [ {"term": { "age": { "value": "19" } }} ], "should": [ {"term": { "eamil": { "value": "重庆" } }} ] } } }
6. 排序查询
ES 默认是根据相关度算分 _score 来排序但是也支持自定义方式对搜索 结果排序
1. 基本语法
请求方式GET
请求路径/{ 索引库名 }/_search
请求参数无
2. 使用格式
#排序查询 #排序字段、排序方式 #ASC 升序排列 #DESC 降序排列 GET /索引名称/_search { "query":{ "match_all": {} }, "sort": [ { "FIELD": { "order": "排序方式" } } ] } }
3. 使用实例
#排序查询 GET /mydemo/_search { "query":{ "match_all": {} }, "sort": [ { "age": { "order": "asc" } } ] } }
7. 分页查询
ES 默认情况下只返回top10的数据
如果要查询更多数据就需要修改分页参数了。ES 中通过修改from 、 size 参数来控制要返回的分页结果
注意当查询分页深度较大时汇总数据过多对内存和CPU会产生非常大的压力因此 ES 会禁止 from+ size 超过10000 的请求。 面试高频点
1. 基本语法
from 从第几个文档开始
size总共查询几个文档
2. 使用格式
GET /索引名称/_search { "query": { "match_all": {} }, "from": 0, "size": 20, "sort": [ { "age": { "order": "desc" } } ] }
3. 使用实例
#分页查询 GET /mydemo/_search { "query":{ "match_all": {} }, "from": 0, "size": 20, "sort": [ { "age": { "order": "desc" } } ] }
8. 高亮查询
注意 高亮查询只能针对字段类型为 Text 的 不能是别的类型。默认会自动加上
如果希望修改可以在字段中指定。
1. 基本语法
高亮显示的实现分为两步
给文档中的所有关键字都添加一个标签例如 标签
页面给 标签编写CSS样式
2. 使用格式
GET /索引名称/_search { "query": { "match": { "FIELD": "TEXT" } }, "highlight": { "fields": { "FIELD":{ "pre_tags": "", "post_tags": "" } } } }
3. 使用实例
#高亮查询 GET /mydemo/_search { "query": { "match": { "name": "张飞" } }, "highlight": { "fields": { "name":{ } } } }
9. 聚合查询
1. 使用格式
#聚合函数 GET /索引名称/_search { "size":0, "aggs": { "NAME": { "AGG_TYPE": {} } } }
2. 使用实例
GET /mydemo/_search { "size": 0, "aggs": { "aggName": { "terms": { "field": "age", "size": 10 } } } }