网站统一运维监控管理解决方案

时间:2023年05月05日 来源:

运维监控从原有的被动式处理故障变为接收预警信息,提前发现潜在风险、提前解决问题,在IT故障波及业务运行之前的告警处置。及时发现业务系统各个单元故障,深度定位系统的故障根源,通过CMDB建立IT资源关联关系并在故障发生时迅速发现潜在可能影响的业务。7*24小时不间断、无遗漏监控,相对于人工巡检而言,发现问题更及时完备。支持对不同硬件厂商/系列/型号、不同软件类型/版本的全类指标监控和故障分析,内置告警处置知识库,降低了运维工作对人的依赖程度。方便IT组织部门对人与硬件资源、虚拟资源之间的维护关系管理,助力IT报障责任划分体系建设,为IT运维人员的工作绩效提供依据。使业务部门感知到的运行故障频次大量降低,提升对信息保障部门的信任度。Argus运维监控系统拨测分析模块,从端口可用性等多个指标、维度进行拨测分析。网站统一运维监控管理解决方案

整个饿了么监控系统在演进过程中主要分为如下3个阶段:

第一阶段:主要由Statsd/Graphite/Grafana负责业务层的监控,ETrace负责全链路监控,Zabbix负责服务器层面的监控,ELog负责分布式日志搜索;

第二阶段:整个饿了么也从单IDC演进成异地多活架构,所以对监控也提出了更高的要求,基于这个我们也自研LinDB,以支持多活架构下的监控,Zabbix慢慢被ESM/InfluxDB/Grafana所替换,使用ELK替换原来的日志方案;

第三阶段:主要做一个减法,即把原来StatsD/Graphite/ETrace/ESM/InfluxDB统一到了EMonitor+LinDB这样的平台,以提供给用户一套统一的监控平台,日志开始使用阿里云的SLS。 数据中心智能运维监控系统运维监控中收到了故障报警,我们怎么处理呢?有什么更高效的处理流程吗?

上海观纵科技有限公司是Zabbix中国认证合作伙伴,以天下没有难做的运维为愿景,致力于帮助用户使用更简单、保障更完备的运维监控,成为业务运行的坚实后盾。本着为用户创造价值的宗旨,观纵做到释放人力、集约资源的同时,提升事件处理效率、减少运维隐患。通过不断积累行业经验的匠维模型研发,实现运维自动化、智能化。从而实现故障有归因、处理有留痕,自动预测运维态势,让企业把握运维动态,降低潜在风险,解放人力、节约时间成本。

Argus运维监控系统基于ZABBIX的预处理及自动发现功能,有效整合PROMETHEUS。

环境复杂 :在现有的架构环境中,既有虚拟主机,又有 Kubernets 集群 

监控工具多 : 在现有的环境中的监控工具既有zabbix,又有 prometheus § Zabbix的监控项及Prometheus的配置仍为大量的 手工操作 § 每套工具有单独的技术栈,维护成本高 

无统一化告警人管理 :zabbix及grafana中都有告警人配置

数据采集 : Prometheus 负责Exporter及 Kubernets集群的 监控项采集,并单独于Kubernets集群外部署 § Zabbix负责虚拟主机监控项的采集 

事件处理 : Zabbix 通过HTTP agent 方式查询不同的 prometheus 采集节点,并通过监控项模板中监控项 的预处理及自动发现功能自动创建不同应用名称的监 控项及监控项阈值 § Zabbix 通过不同监控项的当前数据判断阈值并触 发不同阈值级别下相应的动作 § 各阈值动作通过应用名关联不同的用户组,触发 钉钉通知到对应的研发团队 Argus运维监控系统从展现、指标模型构建、数据采集等维度对Zabbix进行增强。

运维监控系统一般采用分层的方式划分监控对象。在我们的监控系统中,主要关注以下几种类型的监控对象:1、主机监控,主要指主机节点软、硬件资源的一些监控数据。2、容器环境监控,主要指服务所处运行环境的一些监控数据。3、应用服务监控,主要指服务本身的基础数据指标,提现服务自身的运行状况。4、第三方接口监控,主要指调用其他外部服务接口的情况。对于应用服务和第三方接口监控,我们常用的指标包括:响应时间、请求量QPS、成功率。Argus运维监控系统通过事件压缩机制, 构建了事件集的聚合业务。应用智能运维监控系统

企业级运维监控系统体系化建设指南。网站统一运维监控管理解决方案

对于服务器的监控同样也是从状态、性能与容量这几个维度入手。虽然SNMP也可以用于服务器监控,但相对于agent主动上报指标与数据会少很多。

服务器的状态监控主要包含服务器是否ping的通、agent上报是否超时与电源运行状态等等。对于性能与容量这两类维度,主要依赖当前OS的数据捕获,一般来说对于服务器监控来说在通用场景下主要关注CPU、内存、流量与包量这四个指标即可,但是别的指标也建议尽量捕获。

单个监控对象的数据丰富了会有如下好处:避免对象的监控盲点不同的监控数据点可以部分对应出该服务器所承载的业务特性指标,例如存储类业务也会关注disk_total_read、svctm_time_max、await_time_max等等系统指标生产的数据足够丰富能够催生出更加丰富的运维数据消费场景。服务器监控相对是很标准的监控模型,针对于物理服务器与虚拟机都有共性指标。这部分主要做到采集的数据丰富与上报的准确性(算法准确)。 网站统一运维监控管理解决方案

上海观纵科技有限公司是一家集研发、生产、咨询、规划、销售、服务于一体的服务型企业。公司成立于2022-11-14,多年来在webfunny前端监控,webfunny前端埋点,全链路应用性能监控,Argus-IT运维监控行业形成了成熟、可靠的研发、生产体系。在孜孜不倦的奋斗下,公司产品业务越来越广。目前主要经营有webfunny前端监控,webfunny前端埋点,全链路应用性能监控,Argus-IT运维监控等产品,并多次以传媒、广电行业标准、客户需求定制多款多元化的产品。上海观纵科技有限公司每年将部分收入投入到webfunny前端监控,webfunny前端埋点,全链路应用性能监控,Argus-IT运维监控产品开发工作中,也为公司的技术创新和人材培养起到了很好的推动作用。公司在长期的生产运营中形成了一套完善的科技激励政策,以激励在技术研发、产品改进等。上海观纵科技有限公司严格规范webfunny前端监控,webfunny前端埋点,全链路应用性能监控,Argus-IT运维监控产品管理流程,确保公司产品质量的可控可靠。公司拥有销售/售后服务团队,分工明细,服务贴心,为广大用户提供满意的服务。

信息来源于互联网 本站不为信息真实性负责