文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Thanos监控系统实战部署

2024-11-28 15:26

关注

下图是 Thanos 官方的架构图:

图片图片

Thanos组件

Thanos是一组组件,可以组合成一个具有无限存储容量的高可用指标系统,Thanos 主要由如下几个特定功能的组件组成:

读取指标的流程

对于发送报警的流程如下所示:

特性(优势)

Thanos 相比起原生的 Prometheus 具有以下的一些优势:

对象存储

一般来说, 我们将存储分为文件存储, 块存储和对象存储.

部署案例

在了解了Thanos的架构和组件服务之后,下面将进行实战配置安装。准备4台虚拟机,配置如下:

图片

部署Promethues

node3, node4 执行
useradd -s /sbin/nologin prometheus
mkdir -p /app/src
cd /app/src
wget https://github.com/prometheus/prometheus/releases/download/v2.36.1/prometheus-2.36.1.linux-amd64.tar.gz
tar -xvf prometheus-2.36.1.linux-amd64.tar.gz 
cd prometheus-2.36.1.linux-amd64
mv prometheus promtool /usr/local/sbin 
mkdir /var/lib/prometheus
mv consoles console_libraries /var/lib/prometheus/
mkdir /etc/prometheus 
mv prometheus.yml /etc/prometheus/
chown -R prometheus:prometheus /usr/local/sbin/prometheus /usr/local/sbin/promtool /etc/prometheus/ /app/prometheus/ /var/lib/prometheus

修改配置文件

vim /etc/prometheus/prometheus.yml 
# my global config
global:
  scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).
  external_labels:
    replica: A


# Alertmanager configuration
alerting:
  alertmanagers:
    - static_configs:
        - targets:
          # - alertmanager:9093


# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"


# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=` to any timeseries scraped from this config.
  - job_name: "prometheus"


    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.


    static_configs:
      - targets: ["localhost:9090"]


  - job_name: "node_exporter"
    static_configs:
      - targets: ["192.168.100.30:9100","192.168.100.40:9100","192.168.100.50:9100","192.168.100.60:9100"]

system文件

vim /etc/systemd/system/prometheus.service
[Unit]
Descriptinotallow=prometheus
Documentatinotallow=https://prometheus.io/
After=network.target
[Service]
Type=simple
User=prometheus
ExecStartPre=/usr/local/sbin/promtool check config /etc/prometheus/prometheus.yml
ExecStart=/usr/local/sbin/prometheus \
          --config.file=/etc/prometheus/prometheus.yml \
          --web.listen-address=0.0.0.0:9090 \
          --web.enable-lifecycle \
          --web.enable-admin-api \
          --web.console.templates=/var/lib/prometheus/console \
          --web.console.libraries=/var/lib/prometheus/console_libraries \
          --storage.tsdb.path=/app/prometheus/ \
          --storage.tsdb.min-block-duratinotallow=5m \
          --storage.tsdb.max-block-duratinotallow=5m \
          --storage.tsdb.retention.time=30d \
          --log.level=info
ExecReload=/bin/curl -X POST http://127.0.0.1:9090/-/reload
TimeoutStopSec=20s
Restart=always
LimitNOFILE=20480000
[Install]
WantedBy=multi-user.target

--storage.tsdb.min-block-duratinotallow=5m--storage.tsdb.max-block-duratinotallow=5m 默认为2h, 修改为5分钟, sidecar向store写入数据,方便查看效果.

Node_exporter 安装

node1, node2, node3, node4 执行
cd /app/src
wget https://github.com/prometheus/node_exporter/releases/download/v1.3.1/node_exporter-1.3.1.linux-amd64.tar.gz
tar -xvf node_exporter-1.3.1.linux-amd64.tar.gz
cd node_exporter-1.3.1.linux-amd64
mv node_exporter /usr/local/sbin/

创建system文件

 vim /usr/lib/systemd/system/node_exporter.service

[Unit]
Descriptinotallow=node_exporter
Documentatinotallow=https://prometheus.io/
After=network.target


[Service]
Type=simple
ExecStart=/usr/local/sbin/node_exporter \
          --collector.systemd 
ExecReload=/bin/kill -HUP 
TimeoutStopSec=20s
Restart=always


[Install]
WantedBy=multi-user.target

部署 Thanos

Thanos 只需要两个组件就可以简单形成一个集群,query和sidecar用来抽象数据层,query 来查询抽象出来的数据层,提供查询的接口,

根据Thanos架构图,不考虑高可用的情况下除了sidecar组件外,query,store,Compactor组件只需部署一份

node1, node3,node4 ,执行
cd /app/src/
wget https://github.com/thanos-io/thanos/releases/download/v0.26.0/thanos-0.26.0.linux-amd64.tar.gz
tar -xvf thanos-0.26.0.linux-amd64.tar.gz
cd thanos-0.26.0.linux-amd64
mv thanos /usr/local/sbin


mkdir /app/thanos
mkdir /app/thanos/compact
mkdir /app/thanos/store
mkdir /app/thanos/ruler


mkdir /etc/thanos

Thanos sidecar

node3,node4执行
# vim /etc/systemd/system/thanos-sidecar.service
[Unit]
Descriptinotallow=thanos-sidecar
Documentatinotallow=https://thanos.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/sbin/thanos sidecar \
          --tsdb.path=/app/prometheus \
          --prometheus.url=http://localhost:9090 \
          --http-address=0.0.0.0:10901 \
          --grpc-address=0.0.0.0:10902
ExecReload=/bin/kill -HUP 
TimeoutStopSec=20s
Restart=always
[Install]
WantedBy=multi-user.target

Thanos query

node1执行

# vim /etc/systemd/system/thanos-query.service
[Unit]
Descriptinotallow=thanos-query
Documentatinotallow=https://thanos.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/sbin/thanos query \
          --http-address=0.0.0.0:10903 \
          --grpc-address=0.0.0.0:10904 \
          --store=192.168.100.50:10902 \
          --store=192.168.100.60:10902 \
          --query.timeout=10m \
          --query.max-cnotallow=200 \
          --query.max-concurrent-select=40 \
          --query.replica-label=replica
ExecReload=/bin/kill -HUP 
TimeoutStopSec=20s
Restart=always
LimitNOFILE=20480000
[Install]
WantedBy=multi-user.targe

部署MinIO

node1,node2,node3,node4执行

Minio存储架构

准备工作

这里我们采用分布式存储,在四台服务器上进行安装.

注意: data目录不可以和root目录在同一磁盘,需要另外添加磁盘。错误信息 :ispart of root disk, will not be used (*errors.errorString)

wget http://dl.minio.org.cn/server/minio/release/linux-amd64/minio
mv minio /usr/local/sbin
chmod +x /usr/local/sbin/minio
mkdir -p /app/minio/data 
mkdir /etc/minio 
mkdir /app/minio/run

MinIO配置文件

MINIO_ROOT_USER=root
MINIO_ROOT_PASSWORD=Password

这里指定了4台minio的地址,通过统一的minio.pw和启动文件,可以让4台minio做到数据互通。minio会依次启动,顺序为参数的先后顺序

[Unit]
Descriptinotallow=Minio service
Documentatinotallow=https://docs.minio.io/


[Service]
WorkingDirectory=/app/minio/run/
Envirnotallow=/etc/minio/minio.pw
ExecStart=/usr/local/sbin/minio server \
          --config-dir /etc/minio \
          --address :9000 \
          --console-address :9001 \
          http://192.168.100.30:9000/app/minio/data \
          http://192.168.100.40:9000/app/minio/data \
          http://192.168.100.50:9000/app/minio/data \
          http://192.168.100.60:9000/app/minio/data
Restart=on-failure
RestartSec=5
LimitNOFILE=20480000
[Install]
WantedBy=multi-user.target

负载均衡

在node1 配置nginx vim /etc/nginx/conf.d/minio.conf

server {
        listen 9900;
        server_name  192.168.100.30;


location / {
        proxy_pass http://minio;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        }
}


upstream minio {
        server 192.168.100.30:9000;
        server 192.168.100.40:9000;
        server 192.168.100.50:9000;
        server 192.168.100.60:9000;
}

Thanos Store

node1执行
mkdir -p /app/thanos/store
[Unit]
Descriptinotallow=thanos-store
Documentatinotallow=https://thanos.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/sbin/thanos store \
          --data-dir=/app/thanos/store \
          --objstore.config-file=/etc/thanos/thanos-minio.yml \
          --http-address=0.0.0.0:10905 \
          --grpc-address=0.0.0.0:10906 \
          --chunk-pool-size=8GB \
          --max-time=30d
ExecReload=/bin/kill -HUP 
TimeoutStopSec=20s
Restart=always
LimitNOFILE=20480000
[Install]
WantedBy=multi-user.targe
type: S3
config:
  bucket: "thanos"
  endpoint: "192.168.100.30:9000"
  access_key: "root"
  secret_key: "Password"
  insecure: true
  signature_version2: false
  http_config:
    idle_conn_timeout: 5m
    response_header_timeout: 10m
    insecure_skip_verify: true
systemctl start thanos-store

在 node3, node4 ,sidecar的system文件添加

--objstore.config-file=/etc/thanos/thanos-minio.yml \


# cat /etc/systemd/system/thanos-sidecar.service
[Unit]
Descriptinotallow=thanos-sidecar
Documentatinotallow=https://thanos.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/sbin/thanos sidecar \
          --tsdb.path=/app/prometheus \
          --prometheus.url=http://localhost:9090 \
          --objstore.config-file=/etc/thanos/thanos-minio.yml \
          --http-address=0.0.0.0:10901 \
          --grpc-address=0.0.0.0:10902 
ExecReload=/bin/kill -HUP 
TimeoutStopSec=20s
Restart=always
[Install]
WantedBy=multi-user.target

在 node1  query 的system文件添加store的grpc地址

--store=192.168.100.30:10906 \


[root@node1 ~]# cat /etc/systemd/system/thanos-query.service
[Unit]
Descriptinotallow=thanos-query
Documentatinotallow=https://thanos.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/sbin/thanos query \
          --http-address=0.0.0.0:10903 \
          --grpc-address=0.0.0.0:10904 \
          --query.timeout=10m \
          --query.max-cnotallow=200 \
          --query.max-concurrent-select=40 \
          --store=192.168.100.30:10906 \
          --query.replica-label=replica
ExecReload=/bin/kill -HUP 
TimeoutStopSec=20s
Restart=always
LimitNOFILE=20480000
[Install]
WantedBy=multi-user.targe

为了展示对象存储的效果,我们把node3和node4,  sidecar的地址删除,只查询store的地址,这样我们就可以在grafana看到下图, 可以看到提供的信息并不是实时的,而是store写入对象存储的数据, 这只是为了测试store的可用性,实际环境中,数据的写入默认为2h一次,不符合监控实时性的要求.

图片

Thanos compact

node1执行:

compact的作用是定期把历史数据存入对象存储,其实他就像是一个cronjob, 如果发现满足了条件,就会对对象存储中的数据进行整理

mkdir /app/thanos/compact
[Unit]
Descriptinotallow=Thanos-compact
Documentatinotallow=https://thanos.io/
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/sbin/thanos compact \
          --data-dir=/app/thanos/compact \
          --objstore.config-file=/etc/thanos/thanos-minio.yml \
          --http-address=0.0.0.0:10923 \
          --wait-interval=5m \
          --block-sync-cnotallow=30 \
          --compact.cnotallow=6
ExecReload=/bin/kill -HUP 
TimeoutStopSec=20s
Restart=on-failure
[Install]
WantedBy=multi-user.target

Prometheus自动注册

部署Consul 

    创建配置文件 vim /etc/consul/server.json

{
"data_dir": "/app/consul/data",
"log_file": "/app/consul/log/consul.log",
"log_level": "INFO",
"log_rotate_duration": "24h",
"node_name": "node2",
"server": true,
"bootstrap_expect": 1,
"client_addr": "0.0.0.0",
"advertise_addr": "192.168.100.40",
"acl": {
    "enabled": true,
    "default_policy": "deny",
    "down_policy": "extend-cache",
    "enable_token_persistence": true,
    "tokens":{
      "master": "727d2766-ac98-26c5-0f30-47b4f6a5632d"
  }
}

创建守护进程 vim /etc/systemd/system/consul-server.service

[Unit]
Descriptinotallow=Consul service
Documentatinotallow=https://www.consul.io/docs/


[Service]
ExecStart=/usr/local/bin/consul agent -ui -config-dir /etc/consul
KillSignal=SIGINT
Restart=on-failure
RestartSec=5


[Install]
WantedBy=multi-user.target

启动consul并测试

systemctl start consul-server

浏览器访问 8500端口,提示需要登录

图片

使用 consul acl bootstrap 记录SecretID 作为token

[root@node2 ~]# consul acl bootstrap
AccessorID:       6036d229-b123-5a0f-ef9f-df2b7efcd410
SecretID:         727d2766-ac98-26c5-0f30-47b4f6a5632d
Description:      Bootstrap Token (Global Management)
Local:            false
Create Time:      2022-09-19 05:21:26.374769398 +0800 CST
Policies:
   00000000-0000-0000-0000-000000000001 - global-management

把token添加到配置文件

vim /etc/consul/server.json

{
"data_dir": "/app/consul/data",
"log_file": "/app/consul/log/consul.log",
"log_level": "INFO",
"log_rotate_duration": "24h",
"node_name": "node2",
"server": true,
"bootstrap_expect": 1,
"client_addr": "0.0.0.0",
"advertise_addr": "192.168.100.40",
"acl": {
    "enabled": true,
    "default_policy": "deny",
    "down_policy": "extend-cache",
    "enable_token_persistence": true,
    "tokens":{
      "master": "727d2766-ac98-26c5-0f30-47b4f6a5632d"
  }
 }
}

重启consul

github 地址: https://github.com/starsliao/ConsulManager

准备工作

添加镜像仓库

yum-``config``-manager--add-repo**https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo

使用docker-compose来部署ConsulManager

consul_token:consul的登录token(上文获取的,SecretID)

consul_url:consul的URL(http开头,/v1要保留)

admin_passwd:登录ConsulManager Web的admin密码

添加主机监控

安装完成后,在平台新增监控主机的信息

图片图片

添加完成后,查看consul;

图片图片

配置prometheus读取consul信息;

图片图片

将之前配置好的内容删除,添加生成的配置信息;

图片图片

查看query, grafana,显示注册完成;

图片图片

图片图片

在本文中,我们详细探讨了Thanos监控系统的部署过程,包括系统架构介绍、各个组件的配置和完整的部署案例。Thanos为Prometheus提供了强大的监控解决方案,具备全局查询、高可用性、动态扩展和长期存储等特性。借助Thanos,我们能够高效管理大规模监控数据,并通过丰富的组件和集成功能,构建一个强大而可靠的监控生态系统。我们希望本文能为那些寻求提升监控系统性能和扩展性的用户提供有价值的指导。随着技术的不断进步,Thanos将持续发展,我们期待它在未来带来更多创新与可能性。

来源:新钛云服内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯