文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

【已解决】Java 中使用 ES 高级客户端库 RestHighLevelClient 清理百万级规模历史数据

2023-08-22 05:49

关注

🎉工作中遇到这样一个需求场景:由于ES数据库中历史数据过多,占用太多的磁盘空间,需要定期地进行清理,在一定程度上可以释放磁盘空间,减轻磁盘空间压力。

🎈在经过调研之后发现,某服务项目每周产生的数据量已经达到千万级别,单日将近能产生两百万的数据量写入到 ES 数据库中,平均每个小时最少产生 10w+ 条数据,加上之前的历史数据,目前生产环境 ES 数据量已经达到两亿一千四百八十万的数据。并且随着当前业务量的爆发式增长,数据增长量急剧飙升,在未来一年内每周产生的数据量有望达到 3kw-5kw 左右。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

💡因此,对 ES 数据库中历史数据进行清理势在必行,为了能够释放磁盘空间,并且还要保证业务方能够进行日常问题的排查定位,决定从两个月前的数据开始清理,方案如下:

在这里插入图片描述

根据以上的思路方案,设计的定时清理ES历史数据代码如下:

import org.apache.commons.lang3.StringUtils;import org.apache.commons.lang3.time.DateUtils;import org.elasticsearch.action.bulk.BulkRequest;import org.elasticsearch.action.delete.DeleteRequest;import org.elasticsearch.action.search.ClearScrollRequest;import org.elasticsearch.action.search.SearchRequest;import org.elasticsearch.action.search.SearchResponse;import org.elasticsearch.action.search.SearchScrollRequest;import org.elasticsearch.client.RequestOptions;import org.elasticsearch.client.RestHighLevelClient;import org.elasticsearch.core.TimeValue;import org.elasticsearch.index.query.QueryBuilders;import org.elasticsearch.search.Scroll;import org.elasticsearch.search.SearchHit;import org.elasticsearch.search.builder.SearchSourceBuilder;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.stereotype.Component;import javax.annotation.Resource;import java.util.Date;@Componentpublic class CleanESHistoryDataTask {    private static final Logger LOGGER = LoggerFactory.getLogger(CleanESHistoryDataTask.class);    @Resource    private RestHighLevelClient restHighLevelClient;        @Scheduled    public void cleanESHistoryData(JobContext jobContext) {    // jobContext为定时任务中回传数据        String indexName = jobContext.getData();        if (StringUtils.isBlank(indexName)) {            LOGGER.warn("ES索引名称不能为空!");            return;        }        long startTimeMillis = System.currentTimeMillis();        String twoMonthsAgoDate = DateTool.format(DateUtils.addMonths(new Date(), -1), DateTool.DF_DAY);        try {            String startTimeStr = twoMonthsAgoDate + " 00:00:00";            // 初始化时间,形如2023-08-06 00:00:00            Date initialStartTime = DateTool.parse(startTimeStr, DF_FULL);            // 每次循环清理一个小时历史文档数据,循环24次清理完一天的历史文档数据            for (int i = 0; i < 24; i++) {                Date startTime = initialStartTime;                startTime = DateUtils.addHours(startTime, i);                Date endTime = DateUtils.addHours(startTime, 1);                LOGGER.info("正在清理索引:[{}],时间:{} 至 {}的历史文档数据...", indexName, DateTool.format(startTime, DF_FULL), DateTool.format(endTime, DF_FULL));                long currentStartTimeMillis = System.currentTimeMillis();                // 指定操作的索引库                SearchRequest searchRequest = new SearchRequest(indexName);                // 构造查询条件,指定查询的时间范围,每次最多写入1000条数据至内存,减轻服务器内存压力                SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder().query(QueryBuilders.rangeQuery("createTimeStr.keyword").from(DateTool.format(startTime, DF_FULL)).to(DateTool.format(endTime, DF_FULL))).size(1000);                // 设置滚动查询结果在内存中的过期时间为1min                Scroll scroll = new Scroll(TimeValue.timeValueMinutes(1L));                // 将滚动以及构造的查询条件放入查询请求                searchRequest.scroll(scroll).source(searchSourceBuilder);                SearchResponse searchResponse = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);                // 记录要滚动的ID                String scrollId = searchResponse.getScrollId();                SearchHit[] hits = searchResponse.getHits().getHits();                while (hits != null && hits.length > 0) {                    // 创建批量处理请求对象                    BulkRequest bulkRequest = new BulkRequest();                    for (SearchHit hit : hits) {                        DeleteRequest deleteRequest = new DeleteRequest(indexName, hit.getId());                        bulkRequest.add(deleteRequest);                    }                    // 执行批量删除请求操作                    restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);                    // 构造滚动查询条件,继续滚动查询                    SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);                    scrollRequest.scroll(scroll);                    searchResponse = restHighLevelClient.scroll(scrollRequest, RequestOptions.DEFAULT);                    scrollId = searchResponse.getScrollId();                    hits = searchResponse.getHits().getHits();                }                // 当前滚动查询结束,清除滚动,释放服务器内存资源                ClearScrollRequest clearScrollRequest = new ClearScrollRequest();                clearScrollRequest.addScrollId(scrollId);                restHighLevelClient.clearScroll(clearScrollRequest, RequestOptions.DEFAULT);                LOGGER.info("清理索引:[{}],时间:{} 至 {}的历史文档数据成功,耗时{}ms", indexName, DateTool.format(startTime, DF_FULL), DateTool.format(endTime, DF_FULL), (System.currentTimeMillis() - currentStartTimeMillis));            }            LOGGER.info("[cleanESHistoryData] 定时任务-清理索引:[{}],时间:{}的历史文档数据成功,耗时{}ms", indexName, twoMonthsAgoDate, (System.currentTimeMillis() - startTimeMillis));        } catch (Exception e) {            LOGGER.error(String.format("[cleanESHistoryData] 定时任务-清理索引:[{}],时间:{}的历史文档数据失败,耗时{}ms", indexName, twoMonthsAgoDate, (System.currentTimeMillis() - startTimeMillis)), e);        }    }}

其中,需要注意以下几点

在这里插入图片描述

🎈通过观察监控可以发现,在凌晨三点执行定时任务清理 ES 历史数据期间,集群、索引查询 QPS 以及 CPU 利用率指标都明显飙升。因此,清理 ES 数据时一定要避开流量高峰期,避免在流量高峰期清理数据时造成资源实例宕机,造成生产事故。

来源地址:https://blog.csdn.net/weixin_43252521/article/details/132128554

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯