文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Elasticsearch聚合的方法怎么用

2023-06-05 02:43

关注

本篇内容介绍了“Elasticsearch聚合的方法怎么用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

聚合是一种基于搜索的数据汇总,通过组合可以完成复杂的操作。聚合可以对文档进行汇总、分组等。通过聚合,我们会得到一个数据的概览,是分析和总结一律的数据,而不是寻觅单个文档。

{    "size": 0,     ["query": {}, ]?    "aggs" : {        "${my_name}" : {            "${aggregation_type}" : {                <aggregation_body>            }            [,"meta" : {  [<meta_data_body>] } ]?            [,"aggs" : { [<sub_aggregation>]+ } ]?        }        [,"${my_name}" : { ... } ]*    }}

使用kibana导入“kibana_sample_data_flights”,这个是飞机的航班信息,有地区、价格、天气等信息。

操作路径:Home --> 增加数据 --> 样例数据 --> Sample flight data

1、子聚合

根据目的地(DestCountry)进行分组,查看航班的数量

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "dest_count": {      "terms": {        "field": "DestCountry"      }    }  }}

2、数字区间分组

根据价格区间进行分组,比方0到100元多少个,100到200元多少个

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "price_stat": {     // 自己设置名字      "histogram": {        "field": "AvgTicketPrice",        "interval": 100     // 指定区间      }    }  }}

输出的结果中,key为“100.0”代表0到100.0的数据,计算公式如下

bucket_key = Math.floor(value / interval) * interval

3、日期区间分组

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "price_stat": {      "date_histogram": {        "field": "timestamp",        "calendar_interval": "month"      }    }  }}

注意:日期间隔设置,7.x版本用“calendar_interval”,老版本用“interval”。

支持的时间间隔表达式

计算度量这类的聚合操作是以使用一种方式或者者从文档中提取需要聚合的值为基础的。这些数据不但可以从文档(使用数据属性)的属性中提取出来,也可以使用脚本生成。

支持max、min、count、sum、avg、stats(各种统计信息)、cardinality(去重后数量)、percentiles(百分位)、geo_bounds(地理边界)

1、最值

输出航班的最大价格,最小价格

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "max_price": {      "max": {        "field": "AvgTicketPrice"      }    },    "mix_price": {      "min": {        "field": "AvgTicketPrice"      }    }  }}

2、嵌套操作

输出各个目的地航班的最大价格,最小价格

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "dest_count":{      "terms": {        "field": "DestCountry"      },      "aggs": {        "max_price": {          "max": {            "field": "AvgTicketPrice"          }        },        "min_price": {          "min": {            "field": "AvgTicketPrice"          }        }      }    }  }}

3、stats

一次性输出各种统计结果,包括count、min、max、sum、avg

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_stats":{      "stats": {        "field": "AvgTicketPrice"      }    }  }}

4、cardinality

去重后数量统计

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_cardinality":{      "cardinality": {        "field": "DestCountry"      }    }  }}

5、top_hits

top_hits 操作,最开头的几个文档。
获取去每个国家的航班的最小价格,下面的“"size": 5”代表获取5个国家的航班,“"size": 2”代表最低的2个价格。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_count": {      "terms": {        "field": "DestCountry",        "size": 5      },      "aggs": {        "my_min_price": {          "top_hits": {            "size": 2,            "sort": [              {                "AvgTicketPrice": {                  "order": "asc"                }              }            ]          }        }      }    }  }}

6、ranges 自己设置范围分组

比方下面,小于200一个分组,200到500一个分组,大于500个分组,可以指定输出的key。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_price_range":{      "range": {        "field": "AvgTicketPrice",        "ranges": [          {            "to": 200          },          {            "from": 200,            "to": 500          },          {            "key": ">500",             "from": 500          }        ]      }    }  }}

7、百分位聚合

百分位聚合,可以利用百分位聚合的结果评估数据分布,判断数据能否扭曲,判断数据能否双峰分布等。压测的时候经常使用,比方95百分位对应的值表示这个值大于95%的所有值。假设结果是“10%:12ms ,..., 70%:55ms, 99%:100ms”,说明通常情况下(70%),网页的响应时间在12ms~55ms,99%的网页在100ms内加载完成。

GET kibana_sample_data_flights/_search{  "size": 0,   "aggs": {    "my_price_percentiles":{      "percentiles": {        "field": "AvgTicketPrice",        "percents": [          1,          5,          25,          50,          75,          95,          99        ]      }    }  }}

8、地理边界聚合

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_geo_bounds": {      "geo_bounds": {        "field": "DestLocation",        "wrap_longitude": true      }    }  }}

9、优化 Terms 聚合的性能

设置 eager_global_ordinals 为true,会在内存中预先加载这些数据。

对聚合分析的结果再次做聚合分析。

分两类

说明,bucket_path参数,指定路径,假如是二级路径,注意有一个“>”。

1、Sibling的例子

根据不同的目的地获取平均票据,并对这些平均票价做分析。
注意,my_distancemy_avg_pricemy_result这三个是自己设置的变量名,buckets_path指定路径。

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "terms": {        "field": "DestCountry"      },      "aggs": {        "my_avg_price": {          "avg": {            "field": "AvgTicketPrice"          }        }      }    },    "my_result": {      "stats_bucket": {        "buckets_path": "my_distance>my_avg_price"      }    }  }}

2、Parent的例子

统计每50km的平均票价,并查看其波动

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "histogram": {        "field": "DistanceKilometers",        "interval": 50      },      "aggs": {        "my_avg_price": {          "avg": {            "field": "AvgTicketPrice"          }        },        "my_result": {          "derivative": {            "buckets_path": "my_avg_price"          }        }      }    }  }}

根据数量(_count)进行排序,数量相同根据返回的key进行排序

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "dest_count": {      "terms": {        "field": "DestCountry",        "order": [          {            "_count": "asc"          },          {            "_key": "desc"          }        ]      }    }  }}

根据最终返回的结果进行排序,比方下面的my_stats

GET kibana_sample_data_flights/_search{  "size": 0,  "aggs": {    "my_distance": {      "terms": {        "field": "DestCountry",        "order": {          "my_stats.min": "asc"        }      },      "aggs": {        "my_stats": {          "stats": {            "field": "AvgTicketPrice"          }        }      }    }  }}

Elasticsearch聚合的方法怎么用

聚合分析

Terms 聚合分析不准的起因,数据分散在多个分片上,Coordinating Node 无法获取数据全貌。

打开 show_term_doc_count_error,可以多看到两个返回值。

Elasticsearch聚合的方法怎么用

Trems 不正确的案例

那么如何处理呢?

shard_size 的默认大小 “shard_size = size * 1.5 * 10”,可以根据自己的需要进行设置。

“Elasticsearch聚合的方法怎么用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯