企业级监控系统-监控设备企业-监控级企业级
云计算和互联网高速发展,大量应用需横跨不同网络终端,还需广泛接入第三方服务,如支付、登录、导航等,这使得 IT 系统架构愈发复杂。快速迭代的产品需求以及良好的用户体验,要求 IT 运维管理者时刻保障核心业务稳定可用,同时企业运维中的痛点和难点亟待解决。面向业务的运维,既关心单点 IT 资源的运行状态,又关心整个业务系统的健康状态。它不仅仅关注单点 IT 资源的运行情况,还对整个业务系统的健康状况予以重视。
如果企业运用了众多的 API 以及模块化应用,那么就要留意每个接口的性能变化状况以及各项指标。
3、对于运维主管及企业管理层来说,特别需要上墙的监控大屏
运维需要每周查看报告趋势分析,也需要每月查看报告趋势分析。然而,传统运维工具在数据导出方面存在困难。
需要在第一时间进行转换,并且要快速地发现故障节点,以此来减少因业务中断而带来的损失。
云智慧对比了业内主流的开源运维监控系统和商业运维监控系统,分析了各种产品的定位,分析了各种产品的目标用户,分析了各种产品的功能特点,希望能帮助广大运维找到最适合自己的运维工具,希望能帮助广大开发找到最适合自己的运维工具,希望能帮助广大创业者找到最适合自己的运维工具。
1、开源运维监控产品篇
它是一个基于 WEB 界面的企业级开源运维平台,具备分布式系统监控和网络监控功能。它在国内互联网用户中使用广泛,目前超过 85%的云智慧用户都在使用它来作为监控解决方案。
云智慧对其的最直观评价是入门容易、上手简单且功能强大,同时开源免费。它易于管理与配置,还能生成较为漂亮的数据图。其自动发现功能能大大减轻日常管理的工作量。丰富的数据采集方式和 API 接口可让用户灵活进行数据采集。分布式系统架构能够支持监控更多的设备。理论上,凭借提供的插件式架构,能够满足企业的任何需求。
用户群:85%以上的泛互联网企业。
优点:
1.支持多平台的企业级分布式开源监控软件
2.安装部署简单,多种数据采集插件灵活集成
3.功能强大,可实现复杂多条件告警
4.自带画图功能,得到的数据可以绘成图形
5.提供多种API接口,支持调用脚本
当出现问题时,能够自动进行远程命令的执行(前提是要对 agent 设置执行权限)。
缺点:
1.项目批量修改不方便
2.社区虽然成熟,但是中文资料相对较少,服务支持有限;
入门较为容易,能够实现基础的监控。然而,对于深层次的需求,需要非常熟悉相关内容,并且要进行大量的二次定制开发,其难度是比较大的。
系统级别报警设置较多。若不进行筛选,报警邮件会数量众多。同时,自定义的项目报警需要自行设置,此过程较为繁琐。
缺少数据汇总的功能,例如不能够直接查看一组服务器的平均值,这就需要进行二次开发。
6.数据报表需要特殊二次开发定义;
推荐星级:
它是一款开源的企业级监控系统。此系统能够对系统的 CPU、磁盘、网络等方面的参数进行基本的系统监控。同时,还能对 SMTP、POP3、HTTP、NNTP 等各种基本的服务类型进行监控。另外,通过安装插件和编写监控脚本,用户可以实现应用监控。并且,能够针对大量的监控主机和多个对象部署层次化监控架构。
它最大的特点在于有一个强大的管理中心。这个管理中心的功能是监控服务和主机,但它自身并不包含这部分功能的代码。所有的监控和告警功能都是由相关插件来完成的。
用户群:适合复杂IT环境的企业
优点:
1.出错的服务器、应用和设备会自动重启,自动日志滚动
2.配置灵活,可以自定义shell脚本,通过分布式监控模式
3.支持以冗余方式进行主机监控,报警设置多样
4.命令重新加载配置文件无需打扰的运行
缺点:
1.事件控制台功能很弱,插件易用性差
2.对性能、流量等指标的处理不给力
3.看不到历史数据,只能看到报警事件,很难追查故障原因
4.配置复杂,初学者投入的时间、精力和成本比较大
推荐星级:
基本原理在于通过 HTTP 协议来周期性地抓取被监控组件的状态。这样做的益处是,只要任意组件能够提供 HTTP 接口,就能够接入监控系统,而无需任何 SDK 或者其他的集成过程。这种方式非常适合虚拟化环境,例如 VM 或者……
它是为数不多的适合 Mesos 环境的监控系统之一。近几年,随着 k8s 的流行,它逐渐成为了一个越来越流行的监控工具。
用户群:、Mesos、等大型互联网企业
优点:
数据的自动发现以服务为主体,通过前端 SLB 方式引入集群,将 SLB 作为数据的注册及取用点,这样就能很好地处理大批量节点的高注册(注销)请求,实现了服务负载化的自动发现。
主机探针能够对系统层面的负载进行参数化处理。通过这种方式,可以及时察觉到系统运行中出现的异常情况。并且能够在系统层面消除潜在的隐患。同时配合消息推送机制,一旦有问题就能及时进行处理。
容器探针可实现容器层面的负载参数化,有助于了解容器运行的负载情况,能够探知运行异常,并且可以配合消息机制进行告警。
服务探针:将 Mesos 的运行情况参数化,例如调用、负载、登录等;将 MySQL 的运行情况参数化,例如调用、负载、登录等;将 Redis 的运行情况参数化,例如调用、负载、登录等。
定制专属服务探针,通过应用探针来获取服务存活信息,获取端口存活信息,获取 Api 调用情况等等
https://img1.baidu.com/it/u=3875028589,491713474&fm=253&fmt=JPEG&app=120&f=JPEG?w=889&h=500
ICMP 探针:要检测远端服务器是否存活,可以通过定期进行 ping 检测来实现,以此确保服务器的存活。
URL 探针能够对定制的 URL 地址群进行监测。通过这种监测,可以有效发现 404、502 等错误码。并且,还可以检测到 HTTPS 加密证书的到期日期。
告警通知采用邮件作为工作时的有效通知及事件记录手段,同时辅以短信和微信告警,以此实现 24 小时最便捷的消息告知方式。
缺点:
由于收集的数据或许不够细致且完整,而要进行百分之百精准的统计(例如:每次账单请求的信息),这种情况是不适用的。
推荐星级:
加州大学伯克利分校发起了一个开源集群监控项目,此项目在设计之初是用来监控数以千计的网络节点的。它是一个跨平台且可扩展的分布式监控系统,适用于高性能计算系统。并且它已被广泛地移植到各种不同的操作系统和处理器架构上。
用户群:适用于大型服务器集群用户。
优点:
1.适合监控系统性能,通过曲线很容易见到每个节点的工作状态
2.可以自定义监控项,监控展示有表格和图像两种,支持手机版
部署较为便捷,能够借助不同的分层管理方式来管理上万台机器,无需对每一台机器都逐个进行添加配置。
缺点:
1.没有内置的消息通知系统
2.没有报警机制,出现问题不能够及时报警
推荐星级:
Core 是开源版本,它的商用版本是[具体商用版本名称]。作为企业级智能监控软件,Core 能够让 IT 管理员借助单一的 WEB 控制台来监控网络架构的状态和健康度。Core 的强大能力源于深入的列表与配置管理数据库,通过此数据库可以发现和管理公司 IT 环境中的各类资产。提供与 CMDB 相关联的事件管理系统,同时也提供与 CMDB 相关联的错误管理系统,以此来协助提升各类事件以及提醒的管理效率。
优点:
1.比较出色的地方在于它的,可以配置很多
2.每个用户的界面都是分开管理的,自定义不会影响其他用户
强大的监控功能具备对服务器进行监控的能力,也能够对路由交换进行监控,还可以对防火墙进行监控,同时支持对存储进行监控,以及对数据库进行监控,并且能够对中间件进行监控。
4.采用基于HBASE的存储任意时间段的数据
将状态进行监控,将性能进行监控,对资源进行管理,建立良好的报告机制,然后把它们有机地整合起来。
缺点:
管理少数几台设备也需要消耗大量硬件及内存等附加资源,因为对资源要求较高。
针对系统而言,开源版仅提供 SNMP 。通过 WMI 来检测 CPU、Disk 以及软硬件和性能的功能,只在收费版中提供。
Open-
推荐星级:
小米运维团队从互联网公司的需求开始进行研发,凭借多年的运维经验,同时结合 SRE、SA、DEVS 的使用经验和反馈,开发出了一套面向互联网的企业级开源监控产品,这个产品名为 Open-。
Open-架构
用户群:目前有几十家企业用户不同程度使用。
优点:
自动进行发现,支持-agent 方式,支持 snmp 方式,支持用户主动进行 push 操作,同时也支持用户自定义插件。
支持每个周期进行上亿次的数据采集工作,支持进行上亿次的告警判定,支持进行上亿次的历史数据存储,支持进行上亿次的历史数据查询。
高效的,它支持策略模板,支持模板继承和覆盖,还支持多种告警方式,并且支持调用。
4.单机支撑200万的上报、归档、存储
5.采用的数据归档策略,秒级返回上百个一年的历史数据
6.多维度的数据展示,用户自定义
目前通过各种插件支持 Linux 系统的监控,支持 Mysql 数据库的监控,支持 Redis 缓存的监控,还支持交换机的监控。
3. 缺少专门的支持,即便有开放社区,解决问题的效率也相对较低。
2、商用运维监控系统篇监控宝
推荐星级:
监控宝是云智慧为用户提供的一种 SaaS 产品,用于 IT 性能监控。它包含多种监控功能,如网站监控、服务器监控、中间件监控、数据库监控、应用监控、API 监控和页面性能监控等。该产品有免费版、畅享版和企业版。目前,用户数量约为 40 万。监控宝 app 是国内唯一能提供移动监控服务的产品。
用户群覆盖了多个行业的几十万用户,其中包括电子商务、移动互联网、广告传媒、在线游戏、教育医疗等行业。小米、陌陌、高德、用友、金山、途牛、聚美优品、陆金所、中国平安、建行信用卡中心、春雨医生、畅游、国家电网、中国电信、滴滴打车、春秋航空、凤凰网等各行业领先企业和中国互联网百强企业中,超过 30%的企业在使用监控宝。
优点:
国内最早提供基于 SaaS 服务的网络监控平台是监控宝。它为初级用户提供免费的标准服务。企业用户可以按需购买所需的监控、告警资源,这样能最大限度地节省企业运维成本。
监控宝凭借其遍布全球的 300 多个分布式监测节点,对网络展开稳定性与可用性的主动监控工作,同时进行实时分析。它支持多种协议,如 http(https)、ftp、ping、udp、tcp、smtp 等。并且能够测量 CDN 效果以及 DNS 状态,还可进行全网全地域的性能趋势分析。
实时捕捉服务器的深层性能指标,它既支持 Linux 系统,也支持 Unix 系统以及各类云平台。同时,能对 CPU 使用率、CPU 平均负载、内存使用比例、磁盘 IO、磁盘空间使用率、网络流量和系统进程数等物理指标进行统计,还能对 30 多种应用服务进行监控。并且,云主机监控端只需一键即可开启,无需进行复杂的配置。监控宝对于应用服务的监控,已经支持常见的应用类型,如 Nginx、IIS 和 Redis。在存储层监控方面,支持 MySQL 以及其他相关的健康状态和性能监控。
https://img1.baidu.com/it/u=1458264338,4056930626&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=667
监控宝是国内目前仅有的支持 API 监控的网络监控产品。它可以通过 API 接口调用,模拟用户的使用过程。此产品支持对 get、post、put、head 这六种请求方式进行实时监控,同时也支持 JSON、XML、Text 验证以及脚本导入。
监控宝的独家功能包括监控,它可以实时监控容器的 CPU、内存、网络流量及 Swap 状态,这样开发者和运维人员在使用时就能清晰地掌握资源消耗状况。
监控宝能够提供页面性能管理服务。它依据国际标准制定了页面性能指数。可以识别加载元素的状态以及其正确性。能够对全网全用户的加载响应时间进行分析。并且还能够准确定位问题元素以及给出优化建议。
及时有效的告警通知对于运维极为重要。监控宝能够依据 SLA 设置告警阈值,并且会在第一时间发送告警通知。监控宝涵盖了最为全面的告警通知方式,其中包括电子邮件、短信、电话语音、URL 回调通知以及 App Push 等。此外,监控宝还提供分级告警通知,它可以根据告警事件的不同等级,将不同的告警推送给不同的人员,从而支持企业进行分层管理。
监控宝目前将其 Smart Agent 进行了开源。用户能够依据业务需求来对 Agent 进行定制化开发。并且,用户的数据安全能够得到保障。
监控宝能够提供私有化部署的解决方案,此方案可以满足政企以及金融行业在专有网络监控方面的需求。
来自 CA 和 IBM 等企业的 IT 服务资深专家,他们拥有超过 5 年的本土化企业级 SaaS 服务经验。同时,还有超过百人的技术服务团队,这些都为用户提供了最佳的服务保障。
360网站服务监控
推荐星级:
360 网站服务监控是一款产品,面向广大站长。它可对网站进行监控,也能对服务器进行监控,且这些监控是免费的。
用户群:个人站长
优点:
服务是免费的,它支持多种监控方式,包括网站的 HTTP 监控、PING 监控、域名的 DNS 监控以及服务器监控。
2.提供网站访问全景数据和简单配置信息。
缺点:
仅能支持简单的网站与服务器监控,其历史数据可保留 15 天,同时免费监控点的数量只有四个。
最后一次进行产品更新是在 2014 年 9 月。当下,该产品已经停止了更新以及运营方面的支持。
阿里云监控
推荐星级:
阿里云监控是一款免费的产品,用于监控网站和服务器。它提供了多种告警方式,包括短信、旺旺和邮件。
用户群:阿里云用户
优点:
1.与阿里云服务捆绑紧密,允许用户自定义数据监控;
2.阿里云多IDC间内网数据传输,不占用客户公网资源;
支持对业务数据进行通用统计,能够从不同的角度来反映服务的运行状况。
缺点:
1.所有服务基于阿里云,功能单一,扩展性差;
2.功能不够强大,只能满足基础监控需求。
百度云观测
推荐星级:
百度云观测是百度推出的云服务产品。它类似于 360 云监控和阿里云监控。主要作用是为站长提供免费的一站式服务,包括网站监测、预警等。其功能覆盖了网站运行状况、安全以及访问速度等多个方面。
用户群:个人站长
优点:
1.对于用户每日访问的站点进行安全检测;
国内各大城市都有云节点覆盖,这些云节点能够支持 CDN 相关的功能,也能够支持 DNS 状态的监测,还能够支持主机的监控。
缺点:
1.需要进行网站认证;
监控点数量较少,其功能较为简单,仅仅能够监测网站的状态,而对于服务器以及应用的监控是不支持的。
小蜜蜂网站监测
推荐星级:
小蜜蜂网站监测是一款线上工具,它是针对中小企业的需求而开发的,用于综合测量网站的运营情况。它能够定时监控网站或服务器的可用率。一旦网站无法连接,或者服务器出现错误,就可以发送告警通知。
优点:
小蜜蜂监测网站可用性有两种模式,一是探测节点模式,二是 Last Mile 模式。它支持多种站点监控类型,也支持不同的网络访问传输协议。
提供多种监控告警设置,并且能够支持站内的实时告警消息,同时还支持 RSS。
缺点:
1.只支持基本的网站监控,监控点不可选,监控服务不稳定;
2.网站性能历史数据不够详细,且无法导出。
总结
新技术不断发展,云服务已成为互联网企业的必备。然而,长期以来,存在传统物理主机与云主机、私有云和公有云并存的状况。同时,互联网企业发展速度极快,像小米、滴滴出行等众多企业在短短几年内就发展起来了。所以,选择一款合适的云监控产品,伴随企业一同成长,是很有必要的。
页:
[1]