数据中心智能运维监控管理产品

时间:2023年02月06日 来源:

Argus运维监控系统基于ZABBIX的预处理及自动发现功能,有效整合PROMETHEUS。

环境复杂 :在现有的架构环境中,既有虚拟主机,又有 Kubernets 集群 

监控工具多 : 在现有的环境中的监控工具既有zabbix,又有 prometheus § Zabbix的监控项及Prometheus的配置仍为大量的 手工操作 § 每套工具有单独的技术栈,维护成本高 

无统一化告警人管理 :zabbix及grafana中都有告警人配置

数据采集 : Prometheus 负责Exporter及 Kubernets集群的 监控项采集,并单独于Kubernets集群外部署 § Zabbix负责虚拟主机监控项的采集 

事件处理 : Zabbix 通过HTTP agent 方式查询不同的 prometheus 采集节点,并通过监控项模板中监控项 的预处理及自动发现功能自动创建不同应用名称的监 控项及监控项阈值 § Zabbix 通过不同监控项的当前数据判断阈值并触 发不同阈值级别下相应的动作 § 各阈值动作通过应用名关联不同的用户组,触发 钉钉通知到对应的研发团队 运维小白如何做好运维监控?数据中心智能运维监控管理产品

对于网络设备的监控,也一般从设备性能、质量、状态等维度入手。对于每台网络设备来说运维同学一般会关注如下等高频场景:

网络设备的运行状态syslog(设备运行日志)的监控与告警;设备堆叠状态下的(例如交换机堆叠)的监控与告警;网络设备上每个物理端口的、流量、包量、错包与端口状态的监控与告警;网络设备上逻辑端口(物理端口组合)的性能与状态。

对于网络设备的syslog告警来说,同样也会面临诸如:不同的厂商、设备类型与设备型号日志标准不统一等问题。

所以对于网络设备syslog监控告警来说,首先是将众多的网络设备进行逻辑分组,以便于在一个分组内的设备均可以响应同一个告警关键字,并且这个分组粒度建议较细,这样才能保障告警关键字的有效性与独一性。在这里根据多年的运维经验,建议syslog告警的分组模型由四个维度组成:厂商+类型+型号+用途例如:CISCO+交换机+EX43000-24T+内网接入层交换机,通过这个公式就描述出一个设备的逻辑分组。 智慧运维监控案例运维监控中收到了故障报警,我们怎么处理呢?有什么更高效的处理流程吗?

Argus运维监控系统拥有灵活的策略告警和多种通知方式,告警丰富是为了后续告警事件分析做准备,需要辅助信息去判断该怎么处理、分析和通知。设定指标产生告警的条件定义告警规则策略,条件包含指标阈值的上限或下限。Argus的告警通知方式包括系统内、移动APP、邮件、短信、企业微信等,并提供扩展开发接口增加其他的通知方式。对告警发生、处置(确认、忽略)、恢复的全生命周期跟踪快照,统计告警处置的用户、处理响应时长、故障恢复用时,为信息运维管理提供行为效能数据支撑。

运维监控的流程包括:

发现问题:当系统发生故障报警,我们会收到故障报警的信息定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析,比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者某开发触发了防火墙禁止的相关策略等等,我们就需要去分析故障具体原因。解决问题:当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。 5个运维必须知道的运维监控系统,功能真心强大!

十四五规划和十九届五中全会提出:

1、加强关键数字技术创新应用 用聚焦芯片、操作系统、人工智能关键算法、传感 器等关键领域,加快推进基础理论、基础算法、装备 材料等研发突破与迭代应用。加强通用处理器、 云计算系统和软件技术一体化研发。

2、加快推动数字产业化 培育壮大人工智能、大数据、区块链、云计算、网络 安全等新兴数字产业,提升通信设备、关键电 子元器件、关键软件等产业水平。

3、科技自强 ,科技自立 坚持创新在我国现代化建设全局中的重要地位,把 科技自立自强作为国家发展的战略支撑。

Argus运维监控系统在信息技术创新应用的大背景下应运而生。 基于Zabbix二开的开源监控和报警系统Argus入门之旅!国内运维监控平台排名

Argus运维监控全自动拓扑生成,准确率高达90%以上。数据中心智能运维监控管理产品

大集群场景特点数据规模大:监控对象targets多,数千万时序数据time-series,单Prometheus负载非常高。

当series数据超过300万时,Prometheus内存增长较为明显,需要使用较大内存的机器来运行。压测过程中,我们使用了工具去生成预期数目的series,工具生成的series每个label的长度及值的长度都较小,固定为10个字符左右。我们的目的是观察相对负载变化,实际生产中由于label长度不同,服务发现机制(比如Pod频繁重启)的消耗不同,相同的series数目所消耗的负载会比压测中高不少。目前Argus有好几个集群的采集端Prometheus消耗内存在30G以上,这会导致查询效率下降,严重的会导致OOM,有的大集群内存消耗达几百G。 数据中心智能运维监控管理产品

上海观纵科技有限公司致力于传媒、广电,是一家服务型公司。公司自成立以来,以质量为发展,让匠心弥散在每个细节,公司旗下webfunny前端监控,webfunny前端埋点,全链路应用性能监控,Argus-IT运维监控深受客户的喜爱。公司从事传媒、广电多年,有着创新的设计、强大的技术,还有一批专业化的队伍,确保为客户提供良好的产品及服务。观纵科技立足于全国市场,依托强大的研发实力,融合前沿的技术理念,及时响应客户的需求。

信息来源于互联网 本站不为信息真实性负责