自从上了 Prometheus 监控，睡觉真香！

2024-08-06 20:02:09

大家好，我是磊哥。

对很多人来说，未知、不确定、不在掌控的东西，会有潜意识的逃避。

Prometheus 是由 SoundCloud 开源监控告警解决方案。

当我第一次接触 Prometheus 的时候也有类似的感觉。对初学者来说， Prometheus 包含的概念太多了，门槛也太高了。

注意

文末放有：7701页最新面试题

概念：Instance、Job、Metric、Metric Name、Metric Label、Metric Value、Metric Type（Counter、Gauge、Histogram、Summary）、DataType（Instant Vector、Range Vector、Scalar、String）、Operator、Function

马云说：“虽然阿里巴巴是全球最大的零售平台，但阿里不是零售公司，是一家数据公司”。

Prometheus 也是一样，本质来说是一个基于数据的监控系统。

日常监控

假设需要监控 WebServerA 每个API的请求量为例，需要监控的维度包括：服务名（job）、实例IP（instance）、API名（handler）、方法（method）、返回码(code)、请求量（value）。

如果以SQL为例，演示常见的查询操作：

查询 method=put 且 code=200 的请求量(红框)

SELECT * from http_requests_total WHERE code=”200” AND method=”put” AND created_at BETWEEN 1495435700 AND 1495435710;

查询 handler=prometheus 且 method=post 的请求量(绿框)

SELECT * from http_requests_total WHERE handler=”prometheus” AND method=”post” AND created_at BETWEEN 1495435700 AND 1495435710;

查询 instance=10.59.8.110 且 handler 以 query 开头的请求量(绿框)

SELECT * from http_requests_total WHERE handler=”query” AND instance=”10.59.8.110” AND created_at BETWEEN 1495435700 AND 1495435710;

通过以上示例可以看出，在常用查询和统计方面，日常监控多用于根据监控的维度进行查询与时间进行组合查询。

如果监控100个服务，平均每个服务部署10个实例，每个服务有20个API，4个方法，30秒收集一次数据，保留60天。那么总数据条数为：100(服务) 10（实例） 20（API） 4（方法） 86400（1天秒数）* 60(天) / 30（秒）= 138.24 亿条数据，写入、存储、查询如此量级的数据是不可能在Mysql类的关系数据库上完成的。

因此 Prometheus 使用 TSDB 作为存储引擎。

存储引擎

TSDB 作为 Prometheus 的存储引擎完美契合了监控数据的应用场景：

存储的数据量级十分庞大
大部分时间都是写入操作
写入操作几乎是顺序添加，大多数时候数据到达后都以时间排序
写操作很少写入很久之前的数据，也很少更新数据。大多数情况在数据被采集到数秒或者数分钟后就会被写入数据库
删除操作一般为区块删除，选定开始的历史时间并指定后续的区块。很少单独删除某个时间或者分开的随机时间的数据
基本数据大，一般超过内存大小。一般选取的只是其一小部分且没有规律，缓存几乎不起任何作用
读操作是十分典型的升序或者降序的顺序读
高并发的读操作十分常见

那么 TSDB 是怎么实现以上功能的呢？

'labels': [{    'latency':        '500'}]'samples':[{    'timestamp': 1473305798,    'value': 0.9}]

原始数据分为两部分 label, samples。前者记录监控的维度（标签:标签值），指标名称和标签的可选键值对唯一确定一条时间序列（使用 series_id 代表）；后者包含包含了时间戳（timestamp）和指标值（value）。

series

^

│. . . . . . . . . . . .   server{latency='500'}

│. . . . . . . . . . . .   server{latency='300'}

│. . . . . . . . . .   .   server{}

│. . . . . . . . . . . . 

v

<-------- time ---------->

TSDB 使用 timeseries:doc:: 为 key 存储 value。为了加速常见查询查询操作：label 和时间范围结合。

TSDB 额外构建了三种索引：Series, Label Index 和 Time Index。

以标签 latency 为例：

Series

存储两部分数据。一部分是按照字典序的排列的所有标签键值对序列（series）；另外一部分是时间线到数据文件的索引，按照时间窗口切割存储数据块记录的具体位置信息，因此在查询时可以快速跳过大量非查询窗口的记录数据

Label Index

每对 label 为会以 index:label: 为 key，存储该标签所有值的列表，并通过引用指向 Series 该值的起始位置。

Time Index

数据会以 index:timeseries:: 为 key，指向对应时间段的数据文件

数据计算

强大的存储引擎为数据计算提供了完美的助力，使得 Prometheus 与其他监控服务完全不同。

Prometheus 可以查询出不同的数据序列，然后再加上基础的运算符，以及强大的函数，就可以执行 metric series 的矩阵运算（见下图）。

如此，Promtheus体系的能力不弱于监控界的“数据仓库” “计算平台”。因此，在大数据的开始在业界得到应用，就能明白，这就是监控未来的方向。

一次计算，处处查询

当然，如此强大的计算能力，消耗的资源也是挺恐怖的。

因此，查询预计算结果通常比每次需要原始表达式都要快得多，尤其是在仪表盘和告警规则的适用场景中，仪表盘每次刷新都需要重复查询相同的表达式，告警规则每次运算也是如此。

因此，Prometheus提供了 Recoding rules，可以预先计算经常需要或者计算量大的表达式，并将其结果保存为一组新的时间序列，达到一次计算，多次查询的目的。

来源：https://www.cyningsun.com/02-22-2020/hidden-secret-to-understanding-prometheus.html

时间序列数据库分析

什么是时间序列数据什么是时间序列(Time Series,以下简称时序)数据?从定义上来说,就是一串按时间维度索引的数据.用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的 ...
c#中Mschart的series中的label的值

MSChart的Label的值的转义符,如下: #VALX 显示当前图例的X轴的对应文本(或数据) #VAL, #VALY, 显示当前图例的Y轴的对应文本(或数据) #VALY2, #VALY3, 显 ...
云生态下的开源应用程序监控工具

Linux容器已经被业界广泛用于开发甚至生产系统.Docker和Kubernetes已经被开发运营人员广泛了解和熟悉.但是容器云架构下系统监控确实一个常常被忽略的问题.尽管容器部署主要涉及在每个容器内 ...
这5种常用运维监控工具都不会用，还算什么运维人？

运维监控工具千千万,仅开源的解决方案就有流量监控(MRTG.Cacti.SmokePing.Graphite 等)和性能告警(Nagios.Zabbix.Zenoss Core.Ganglia.Ope ...
Prometheus 介绍详解

Prometheus 介绍 Prometheus(普罗米修斯)是一个最初在SoundCloud上构建的监控系统.自2012年成为社区开源项目,拥有非常活跃的开发人员和用户社区.为强调开源及独立维护,P ...
服务器用什么监控软件好？

曾经做过几次大规模服务器监控,下面推荐几款监控软件和辅助软件. 1. zabbix 一款老牌经典的监控软件. 是一个企业级的分布式开源监控方案.能够实时监控从成千上万台服务器.虚拟机和网络设备中收集到 ...
未来会是时序数据库的天下吗？

时序数据简介时序数据库最近正在爆发,各搜索引擎的搜索指数也都是呈上升趋势的. DB-Engine 上的排名: 这份排行榜,都是时序数据库. 时序数据库的兴起是有原因的.就拿无人驾驶来说,无人车在运行 ...
试驾全新雅阁：五星轮毂+流水灯，跟上潮流的“本田大法”真香？

虽说目前广汽本田深陷"芯片荒"的影响,但在9月份依旧砍下72053台的销量,相比于8月有了明显提升,其中雅阁销量达到了19907台,前三季度累计销量133591辆,有机会再次冲击年 ...
上过国宴的一碗面，“挑起如旗、放下如花”，吃着真香

展开
家里养上3种花，蚊子闻着“香味”绕道飞，不进你家门，家人睡觉更香！

一到夏天很多人都担心家里有蚊子,确实是这样,若是家里有上一两个蚊子,它们就会到处"嗡嗡飞",咬得人身上一个一个的包,又痒又难受,若是挠得多了,还有可能发炎溃烂,真的很烦人,那么如何 ...
【e汽车】逆势而上威兰达能否延续TNGA家族的"真香定律"？

2020年庚子年新春佳节之际,一场突如其来的新冠肺炎疫情笼罩楚鄂大地,并蔓延到全国,给国家和人民带来了极大的危害,也给各行各业造成了巨大损失. 车展延期.工厂复工难.供应商断货,本已处在低谷的汽车行业 ...
12万买1.5T+9AT合资B级大车！还用上豪车材质这车真香！

能够虚心听取和接受他人意见并作出相应的改变才是真正明智的人能够做到这样的车才是真正被市场需要的一款车点击查看迈锐宝XL详细资料 15万想买省油省心的SUV,除了XR-V,老司机还推荐这些车! ...
刚播章子怡被嘲不少女，眼看名场面撒狗粮备齐，上阳赋真香了吗？

章子怡的第一部电视剧上阳赋年初开播,声势班底看都是开年第一古装剧.这部剧初始口碑只在及格线附近,还有两极分化的趋势,优缺点都很明显. 缺点方面视觉上看很直接,直白点说是"显老".了 ...
720买个黄牛头，做成“牛头宴”，叫上几个哥们直接上手啃，真香

720买个黄牛头，做成“牛头宴”，叫上几个哥们直接上手啃，真香
烙家常饼，记住不要直接上锅烙，诀窍告诉你，松软多层还不硬真香

烙家常饼,记住不要直接上锅烙,诀窍告诉你,松软多层还不硬真香烙家常饼,记住不要直接上锅烙,诀窍告诉你,松软多层还不硬真香展开
炖羊肉，只放这3味料就行，专克羊膻味，买上5斤炖一大锅，真香

春天,碰到这肉别手软,比猪肉好吃,比牛肉营养,炖上一锅真馋人! 作为一个肉食动物,真是到了一种无肉不欢的地步,我的原则就是:是肉就比菜香,有肉就不吃菜.不知道有没有和我一样的呢? 不管是鸡鸭鱼鹅,还是 ...