数据中心智能运维监控管理产品

时间：2023年02月06日来源：

Argus运维监控系统基于ZABBIX的预处理及自动发现功能，有效整合PROMETHEUS。

环境复杂：在现有的架构环境中，既有虚拟主机，又有 Kubernets 集群

监控工具多：在现有的环境中的监控工具既有zabbix，又有 prometheus § Zabbix的监控项及Prometheus的配置仍为大量的手工操作 § 每套工具有单独的技术栈，维护成本高

无统一化告警人管理：zabbix及grafana中都有告警人配置

数据采集： Prometheus 负责Exporter及 Kubernets集群的监控项采集，并单独于Kubernets集群外部署 § Zabbix负责虚拟主机监控项的采集

事件处理： Zabbix 通过HTTP agent 方式查询不同的 prometheus 采集节点，并通过监控项模板中监控项的预处理及自动发现功能自动创建不同应用名称的监控项及监控项阈值 § Zabbix 通过不同监控项的当前数据判断阈值并触发不同阈值级别下相应的动作 § 各阈值动作通过应用名关联不同的用户组，触发钉钉通知到对应的研发团队运维小白如何做好运维监控？数据中心智能运维监控管理产品

对于网络设备的监控，也一般从设备性能、质量、状态等维度入手。对于每台网络设备来说运维同学一般会关注如下等高频场景：

网络设备的运行状态syslog(设备运行日志)的监控与告警；设备堆叠状态下的(例如交换机堆叠)的监控与告警；网络设备上每个物理端口的、流量、包量、错包与端口状态的监控与告警；网络设备上逻辑端口(物理端口组合)的性能与状态。

对于网络设备的syslog告警来说，同样也会面临诸如：不同的厂商、设备类型与设备型号日志标准不统一等问题。

所以对于网络设备syslog监控告警来说，首先是将众多的网络设备进行逻辑分组，以便于在一个分组内的设备均可以响应同一个告警关键字，并且这个分组粒度建议较细，这样才能保障告警关键字的有效性与独一性。在这里根据多年的运维经验，建议syslog告警的分组模型由四个维度组成:厂商+类型+型号+用途例如:CISCO+交换机+EX43000-24T+内网接入层交换机，通过这个公式就描述出一个设备的逻辑分组。智慧运维监控案例运维监控中收到了故障报警，我们怎么处理呢？有什么更高效的处理流程吗？

Argus运维监控系统拥有灵活的策略告警和多种通知方式，告警丰富是为了后续告警事件分析做准备，需要辅助信息去判断该怎么处理、分析和通知。设定指标产生告警的条件定义告警规则策略，条件包含指标阈值的上限或下限。Argus的告警通知方式包括系统内、移动APP、邮件、短信、企业微信等，并提供扩展开发接口增加其他的通知方式。对告警发生、处置（确认、忽略）、恢复的全生命周期跟踪快照，统计告警处置的用户、处理响应时长、故障恢复用时，为信息运维管理提供行为效能数据支撑。

运维监控的流程包括：

发现问题:当系统发生故障报警，我们会收到故障报警的信息定位问题:故障邮件一般都会写某某主机故障、具体故障的内容，我们需要对报警内容进行分析，比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接，又或者某开发触发了防火墙禁止的相关策略等等，我们就需要去分析故障具体原因。解决问题:当然我们了解到故障的原因后，就需要通过故障解决的优先级去解决该故障。总结问题:当我们解决完重大故障后，需要对故障原因以及防范进行总结归纳，避免以后重复出现。 5个运维必须知道的运维监控系统，功能真心强大！

十四五规划和十九届五中全会提出：

1、加强关键数字技术创新应用用聚焦芯片、操作系统、人工智能关键算法、传感器等关键领域，加快推进基础理论、基础算法、装备材料等研发突破与迭代应用。加强通用处理器、云计算系统和软件技术一体化研发。

2、加快推动数字产业化培育壮大人工智能、大数据、区块链、云计算、网络安全等新兴数字产业，提升通信设备、关键电子元器件、关键软件等产业水平。

3、科技自强，科技自立坚持创新在我国现代化建设全局中的重要地位，把科技自立自强作为国家发展的战略支撑。

Argus运维监控系统在信息技术创新应用的大背景下应运而生。基于Zabbix二开的开源监控和报警系统Argus入门之旅！国内运维监控平台排名

Argus运维监控全自动拓扑生成，准确率高达90%以上。数据中心智能运维监控管理产品

大集群场景特点数据规模大：监控对象targets多，数千万时序数据time-series，单Prometheus负载非常高。

当series数据超过300万时，Prometheus内存增长较为明显，需要使用较大内存的机器来运行。压测过程中，我们使用了工具去生成预期数目的series，工具生成的series每个label的长度及值的长度都较小，固定为10个字符左右。我们的目的是观察相对负载变化，实际生产中由于label长度不同，服务发现机制（比如Pod频繁重启）的消耗不同，相同的series数目所消耗的负载会比压测中高不少。目前Argus有好几个集群的采集端Prometheus消耗内存在30G以上，这会导致查询效率下降，严重的会导致OOM，有的大集群内存消耗达几百G。数据中心智能运维监控管理产品

上海观纵科技有限公司致力于传媒、广电，是一家服务型公司。公司自成立以来，以质量为发展，让匠心弥散在每个细节，公司旗下webfunny前端监控，webfunny前端埋点，全链路应用性能监控，Argus-IT运维监控深受客户的喜爱。公司从事传媒、广电多年，有着创新的设计、强大的技术，还有一批专业化的队伍，确保为客户提供良好的产品及服务。观纵科技立足于全国市场，依托强大的研发实力，融合前沿的技术理念，及时响应客户的需求。

上一篇：网站智能运维监控管理软件

下一篇：系统智慧运维监控管理方案