一文带你掌握Elasticsearch复合字段类型：Array、Flattened、Nested在业务系统中最佳实践-编程学习网

elasticsearch 是一个分布式、实时的搜索和分析引擎，通常用于处理和查询大规模的结构化与非结构化数据。它基于 Apache Lucene 构建，具有高效的全文搜索、数据存储、数据分析和数据可视化功能。elasticsearch 主要应用于日志分析、监控、数据检索、实时分析等场景。

官方文档地址：https://www.elastic.co/

2.映射mapping

在 elasticsearch 中，mapping（映射）是指为索引中的字段定义结构、类型和规则。类似于关系型数据库中的表结构，映射决定了 elasticsearch 如何存储和索引数据，其作用和关系型数据库定义表字段差不多：

定义字段类型：例如字符串、数字、日期等。

控制字段行为：决定字段是否进行分词、是否索引、如何排序等。

优化查询性能：正确的映射能提高查询效率，减少不必要的存储。

数据验证：映射可以确保写入的文档符合预期的数据结构和类型。

映射mapping分为：动态映射和静态映射

2.1 动态映射

顾名思义，就是自动创建出来的映射。es 根据存入的文档，自动分析出来文档中字段的类型以及存储方式，这种就是动态映射。示例如下所示:

首先，先定义一个索引，名为user_info

PUT user_info

一个简单的DSL语句就建立了一个索引，不太清楚的先跳转上面的链接入门学习下哈。

紧接着我们直接插入一条es文档数据

PUT user_info/_doc/1
{
  "id":1,
  "name":"张三",
  "amount":88.99
}

插入成功，再来看看索引user_info的mapping定义：

GET user_info/_mapping

查询结果如下：

{
  "user_info" : {
    "mappings" : {
      "properties" : {
        "amount" : {
          "type" : "float"
        },
        "id" : {
          "type" : "long"
        },
        "name" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

可以看到，es在我们插入文档数据时自动检测字段类型动态定义了mapping结构。

2.2 静态映射

静态映射就和关系型数据库表结构加字段一样，在插入es文档数据之前，先定义字段mapping再插入数据，比如我们往user_info添加一个身份证号idCard:

PUT user_info/_mapping
{
  "properties": {
     "idCard": {
      "type": "keyword"
    }
  }
}

keyword关键字类型代表不分词，elasticsearch会对text字段进行分词实现全文检索，但是身份证并不需要分词，它是一个整体属性字段，如果是通过动态映射生成mapping定义，那么会和上面的name字段一样：

"idCard" : {
      "type" : "text",
      "fields" : {
        "keyword" : {
          "type" : "keyword",
          "ignore_above" : 256
        }
      }
    }

这里我解释一下这个mapping的定义：其中既包含 text 类型字段用于全文搜索，也包含 keyword 字段用于精确匹配和聚合。这种设计方式可以在同一个字段上实现不同类型的查询

text 类型用于全文搜索（如 matchQuery），Elasticsearch 会对 text 类型字段进行分词（默认使用标准分词器）。

keyword是这是 idCard 字段的子字段类型，用于精确匹配和聚合。

keyword 类型的字段不会被分词，适合存储如ID、状态、标签等字符串数据。

**ignore_above: 256**：如果字段的长度超过 256 个字符，将会被忽略，不会被索引

这种组合让你可以在同一个字段上支持全文搜索和精确匹配，从而满足不同查询需求。但实际上name字段也是并不需要分词的，直接定义keyword更加合理，性能更好。分词是一个相对比较耗费性能的操作。

由此可见动态映射也并不是万能可行的，我个人建议是：

我们在创建真正索引之前，可以先随便创建一个测试索引，然后写入测试的es文档数据，然后查看测试索引生成的mapping，这样后面我们在创建真正索引设置mapping时，就可以在前面得到的mapping基础上修改，不需要从无到有一个一个字段地开始写mapping，极大提高效率。如果是往索引添加新字段时，我觉得还是严格按照和关系型数据库表结构加字段一样，采用静态映射插入数据前，先手动添加字段mapping定义，杜绝动态映射带来的类型不匹配、性能降低等问题。

3.使用数组Array实现一对多查询

在平时业务系统表单列表搜索中，一对多查询是非常常见的，比如说，一个用户有多个标签，有多个角色，这时候我们会搜索某些标签或者某些角色下有哪些用户，是不是很常见呀？？？话不多说开干，我这里以标签展示，首先我们按照建议先通过静态映射在索引user_info中添加一个新字段tag存储标签id：

PUT user_info/_mapping
{
  "properties": {
     "tag": {
      "type": "long"
    }
  }
}

接下来我们就可以插入数据了。这时候你可能会问，你这个定义tag字段是long类型，并没有定义array类型呀？？？这就可以插入数组多个数据了？是的，elasticsearch关于mapping字段介绍时，明确提到你无需专门声明某字段为数组类型，任何字段都可以隐式地存储为数组。但是要求数组中的所有值必须具有相同的数据类型。不支持混合数据类型的数组: [10，“ some string”]，插入数据示例：

PUT user_info/_doc/10
{
  "id":10,
  "name":"张三2",
  "tag":[1,2,3] 
}

PUT user_info/_doc/11
{
  "id":11,
  "name":"张三3",
  "tag":[3,4] 
}
PUT user_info/_doc/12
{
  "id":12,
  "name":"张三4",
  "tag":[4,8,9] 
}

PUT user_info/_doc/13
{
  "id":13,
  "name":"张三5",
  "tag":[1,6] 
}

然后我们来搜索试试吧，搜索有标签id为3或者4的用户：

GET user_info/_search
{
  "query": {
    "terms": {
      "tag": [3,4]
    }
  }
}

查询结果id=10,11,12都命中了。

Java查询实现代码：

boolQueryBuilder.must(QueryBuilders.termsQuery("tag", tagIds));

关于Spring Boot整合restHighLevelClient实现es相关操作，请查看上面的入门篇

如果要查询同时包含标签id为3和4的员工：

GET user_info/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "tag": {
              "value": 3
            }
          }
        },
        {
          "term": {
            "tag": {
              "value": 4
            }
          }
        }
      ]
    }
  }
}

只命中id=11这一条数据

Java实现代码：

for(tagId : tagIds) {
  boolQueryBuilder.must(QueryBuilders.termQuery("tag", tagId));
}

数组Array的限制：无法建立数组元素之间的关系

PUT orders/_doc/1
{
  "products": ["laptop", "mouse"],
  "quantities": [1, 2]
}

假设你想查询购买了 "laptop" 且数量为 1 的订单。这在 Elasticsearch 的数组查询中无法实现，因为 Elasticsearch 无法判断 "laptop" 和 1 是相关联的（它们只被视为两个独立的数组字段）。

解决方案：如果你需要这种关联关系，应使用 nested 类型来代替数组字段。后面会讲。

总的来说，数组（Arrays）字段类型适用于简单的多值字段，如标签、兴趣、角色等场景。使用简单、查询高效、

项目推荐：基于SpringBoot2.x、SpringCloud和SpringCloudAlibaba企业级系统架构底层框架封装，解决业务开发时常见的非功能性需求，防止重复造轮子，方便业务快速开发和企业技术栈框架统一管理。引入组件化的思想实现高内聚低耦合并且高度可配置化，做到可插拔。严格控制包依赖和统一版本管理，做到最少化依赖。

4.使用Flattened存储动态字段

Flattened 类型是 Elasticsearch 7.3 引入的一种特殊的字段类型，主要用于处理层级结构（嵌套结构）数据，但以扁平化方式存储，以节省内存并提高查询效率。它特别适用于存储动态的或高可变的键值对数据，例如日志、自定义字段等。

该类型会将嵌套 JSON 对象的键值扁平化为单一层级字段。开搞！！！先定一个字段存储用户附加信息：

PUT user_info/_mapping
{
  "properties": {
      "extendInfo": {
        "type": "flattened"
      }
    }
}

插入数据，我们在上面的数据更新字段extendInfo信息：

POST user_info/_update/10
{
  "doc":{
    "extendInfo":{
      "age":18,
      "gender":"女",
      "height":180,
      "weight":"68kg"
    }
  }
}

POST user_info/_update/11
{
  "doc":{
    "extendInfo":{
      "age":30,
      "gender":"女"
    }
  }
}

POST user_info/_update/12
{
  "doc":{
    "extendInfo":{
      "height":170,
      "weight":"58kg",
      "hobby":"篮球"
    }
  }
}

POST user_info/_update/13
{
  "doc":{
    "extendInfo":{
      "address":"杭州",
      "phone":"12334464"
    }
  }
}

可以看到我们插入的extendInfo的信息都不太一样，主打就是一个动态字段信息。接下来查询看看:

GET user_info/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "extendInfo.gender": {
              "value": "女"
            }
          }
        },
        {
          "term": {
            "extendInfo.age": {
              "value": 18
            }
          }
        }
      ]
    }
  }
}

查询结果会命中id=10这条数据

flattened 类型是一种折中的选择，适合存储动态键值对数据，如日志、标签和指标等。它提供了比 object 类型更好的性能，并且比 nested 类型占用更少的资源。然而，它无法进行复杂的嵌套关联查询和深层聚合，因此需要根据业务需求进行合理选择。

5.使用Nested存储对象数组

Nested：嵌套类型，有点千呼万唤始出来的感觉，他到底能干嘛呢？

nested 类型允许 Elasticsearch 以“独立文档”方式存储每个嵌套对象，并维持每个对象内字段之间的关系。这样可以确保查询到的数据和文档结构一致，避免出现跨对象匹配的情况。

上面我们提到数据Array类型的限制是无法建立两个数组字段直接的关系，而Flattened是存储一个对象动态字段，Nested就是可以存储数据对象，并能维护数组对象之间关系，来看看示例，一个用户有多个家人family：

PUT user_info/_mapping
{
  "properties": {
      "family": {
        "type": "nested"
      }
    }
}

写入数据，基于上面的数据写入family即可：

POST user_info/_update/10
{
  "doc":{
    "family":[
      {
        "name":"李四",
        "relation":"父子",
        "amount":10000
      },
      {
        "name":"王婆",
        "relation":"母子",
        "amount":6000
      }
    ]
  }
}

POST user_info/_update/11
{
  "doc":{
    "family":[
      {
        "name":"李四",
        "relation":"兄弟",
        "amount":10000
      },
      {
        "name":"小红",
        "relation":"夫妻",
        "amount":1000
      }
    ]
  }
}

POST user_info/_update/12
{
  "doc":{
    "family":[
      {
        "name":"王五",
        "relation":"父子",
        "amount":10000
      },
      {
        "name":"小兰",
        "relation":"兄妹",
        "amount":1000
      }
    ]
  }
}

接下来我们查询 relation=父子 and amount=10000的数据：

GET user_info/_search
{
  "query": {
    "nested": {
      "path": "family",
      "query": {
        "bool": {
          "must": [
            {
              "term": {
                "family.relation.keyword": {
                  "value": "父子"
                }
              }
            },
            {
              "term": {
                "family.amount": {
                  "value": 10000
                }
              }
            }
          ]
        }
      }
    }
  }
}

查询结果命中了id=10,12两条数据。你可能注意到查询family.relation后面接了keyword，这是因为我们嵌套字段对象属性是动态生成的，family.relation自动映射成text，对text字段进行term精确匹配，必须接上关键字keyword

nested 类型在存储和查询时比普通 Flattened 类型更耗资源，因为每个嵌套对象会被当作单独文档存储和索引，并且文档不能直接更新嵌套对象的部分字段，通常需要重建整个嵌套对象。

nested 类型适合嵌套对象数组的结构化数据，支持精确的对象内匹配查询和聚合。当嵌套对象只需要简单查询、没有严格的对象内关联需求时，使用 Flattened 类型更高效。

6.总结

上面我们讲了各自的定义、使用、局限性，最后这里总结概括下：

字段类型	适用场景	优点	缺点
Array	适合简单的多值字段（如标签、爱好）	易用、性能好	无法维护元素之间的关系
Flattened	动态键值对结构（如可变的配置、元数据）	占用存储空间少、动态字段支持好	不支持嵌套关系查询
Nested	多层级结构对象，且需要查询对象内部关系	支持复杂的关系查询	性能和存储开销大

简单来说：

Array 简单快捷，适合不需要关系的多值字段。
Flattened 提供了一种高效存储动态键值对的方式，但不适合复杂查询。
Nested 适合复杂的嵌套关系查询，但会增加存储和查询的开销。

根据你的业务需求，合理选择字段类型可以显著提升系统的查询性能和数据管理效率。

文章详情

一文带你掌握Elasticsearch复合字段类型：Array、Flattened、Nested在业务系统中最佳实践