Sampler:Shell命令执行可视化和告警工具,


Sampler是一个用于shell命令执行,可视化和告警的工具。其配置使用的是一个简单的YAML文件。

为什么我需要它?

你可以直接从终端对任意动态进程进行采样 – 观察数据库中的更改,监控MQ动态消息(in-flight messages),触发部署脚本并在完成后获取通知。

如果有一种方法可以使用shell命令获取指标(metric),那么可以使用Sampler立即对其进行可视化。

安装

macOS

  1. brew cask install sampler 

  1. sudo curl -Lo /usr/local/bin/sampler https://github.com/sqshq/sampler/releases/download/v1.0.3/sampler-1.0.3-darwin-amd64  
  2. sudo chmod +x /usr/local/bin/sampler 

Linux

  1. sudo wget https://github.com/sqshq/sampler/releases/download/v1.0.3/sampler-1.0.3-linux-amd64 -O /usr/local/bin/sampler  
  2. sudo chmod +x /usr/local/bin/sampler 

注意:需要为Sampler安装libasound2-dev系统库用以播放触发器声音。通常库已安装在相应位置,但如果没有 – 你可以使用你习惯的包管理器进行安装,例如apt install libasound2-dev

Windows(实验)

建议在高级控制台模拟器下使用,如Cmder

Download .exe

使用

指定shell命令,Sampler会相应的速率执行这些命令。输出用于可视化。

使用Sampler基本上的三步过程:

在YAML配置文件中定义shell命令

运行sampler -c config.yml

在UI上调整组件大小和位置

市面早已有许多监控系统

Sampler绝不是监控系统的替代品,而是易于设置的开发工具。

如果spinning up和使用Grafana配置Prometheus是完全多余的任务,那么Sampler可能是正确的解决方案。没有服务器,没有数据库,不需要部署 – 你指定了shell命令,它就可以工作了。

我监控的每台服务器上都需要安装吗?

不,你可以在本地运行Sampler,但仍然可以从多台远程计算机上收集遥测数据。任何可视化都可能具有init命令,你可以在其中ssh到远程服务器。请参阅SSH example

组件

以下是每种组件类型的配置示例列表,其中包含与macOS兼容的采样脚本。

Runchart

  1. runcharts:  
  2.   - title: Search engine response time  
  3.     rate-ms: 500        # sampling rate, default = 1000  
  4.     scale: 2            # number of digits after sample decimal point, default = 1  
  5.     legend:  
  6.       enabled: true     # enables item labels, default = true  
  7.       details: false    # enables item statistics: cur/min/max/dlt values, default = true  
  8.     items:  
  9.       - label: GOOGLE  
  10.         sample: curl -o /dev/null -s -w '%{time_total}'  https://www.google.com  
  11.         color: 178      # 8-bit color number, default one is chosen from a pre-defined palette  
  12.       - label: YAHOO  
  13.         sample: curl -o /dev/null -s -w '%{time_total}'  https://search.yahoo.com  
  14.       - label: BING  
  15.         sample: curl -o /dev/null -s -w '%{time_total}'  https://www.bing.com 

Sparkline

  1. sparklines:  
  2.   - title: CPU usage  
  3.     rate-ms: 200 
  4.      scale: 0  
  5.     sample: ps -A -o %cpu | awk '{s+=$1} END {print s}'  
  6.   - title: Free memory pages  
  7.     rate-ms: 200  
  8.     scale: 0  
  9.     sample: memory_pressure | grep 'Pages free' | awk '{print $3}' 

Barchart

  1. barcharts:  
  2.   - title: Local network activity  
  3.     rate-ms: 500        # sampling rate, default = 1000  
  4.     scale: 0            # number of digits after sample decimal point, default = 1  
  5.     items:  
  6.       - label: UDP bytes in  
  7.         sample: nettop -J bytes_in -l 1 -m udp | awk '{sum += $4} END {print sum}'  
  8.       - label: UDP bytes out  
  9.         sample: nettop -J bytes_out -l 1 -m udp | awk '{sum += $4} END {print sum}'  
  10.       - label: TCP bytes in  
  11.         sample: nettop -J bytes_in -l 1 -m tcp | awk '{sum += $4} END {print sum}'  
  12.       - label: TCP bytes out  
  13.         sample: nettop -J bytes_out -l 1 -m tcp | awk '{sum += $4} END {print sum}' 

Gauge

  1. gauges:  
  2.   - title: Minute progress  
  3.     rate-ms: 500        # sampling rate, default = 1000  
  4.     scale: 2            # number of digits after sample decimal point, default = 1  
  5.     percent-only: false # toggle display of the current value, default = false  
  6.     color: 178          # 8-bit color number, default one is chosen from a pre-defined palette  
  7.     cur:  
  8.       sample: date +%S  # sample script for current value  
  9.     max:  
  10.       sample: echo 60   # sample script for max value  
  11.     min:  
  12.       sample: echo 0    # sample script for min value  
  13.   - title: Year progress  
  14.     cur:  
  15.       sample: date +%j  
  16.     max:  
  17.       sample: echo 365  
  18.     min:  
  19.       sample: echo 0 

Textbox

  1. textboxes:  
  2.   - title: Local weather  
  3.     rate-ms: 10000      # sampling rate, default = 1000  
  4.     sample: curl wttr.in?0ATQF  
  5.     border: false       # border around the item, default = true  
  6.     color: 178          # 8-bit color number, default is white  
  7.   - title: Docker containers stats  
  8.     rate-ms: 500  
  9.     sample: docker stats --no-stream --format "table {{.Name}}\t{{.CPUPerc}}\t{{.MemUsage}}\t{{.PIDs}}" 

Asciibox

  1. asciiboxes:  
  2.   - title: UTC time  
  3.     rate-ms: 500        # sampling rate, default = 1000  
  4.     font: 3d            # font type, default = 2d 
  5.     border: false       # border around the item, default = true    
  6.     color: 43           # 8-bit color number, default is white 
  7.      sample: env TZ=UTC date +%r 

额外功能

Triggers

触发器允许执行条件操作,如视觉/声音告警或任意shell命令。以下示例说明了此概念。

Clock gauge,从开始的每分钟显示时间进度和当前时间

  1. gauges:  
  2.   - title: MINUTE PROGRESS  
  3.     position: [[0, 18], [80, 0]]    
  4.     cur:  
  5.       sample: date +%S  
  6.     max:  
  7.       sample: echo 60  
  8.     min:  
  9.       sample: echo 0  
  10.     triggers:  
  11.       - title: CLOCK BELL EVERY MINUTE  
  12.         condition: '[ $label == "cur" ] && [ $cur -eq 0 ] && echo 1 || echo 0'  # expects "1" as TRUE indicator  
  13.         actions:  
  14.           terminal-bell: true  # standard terminal bell, default = false  
  15.           sound: true    # NASA quindar tone, default = false 
  16.            visual: false  # notification with current value on top of the component area, default = false  
  17.           script: say -v samantha `date +%I:%M%p`  # an arbitrary script, which can use $cur, $prev and $label variables 

搜索引擎延迟图表,在延迟超过阈值时向用户发出告警

  1. runcharts:  
  2.   - title: SEARCH ENGINE RESPONSE TIME (sec)  
  3.     rate-ms: 200  
  4.     items:  
  5.       - label: GOOGLE  
  6.         sample: curl -o /dev/null -s -w '%{time_total}'  https://www.google.com  
  7.       - label: YAHOO  
  8.         sample: curl -o /dev/null -s -w '%{time_total}'  https://search.yahoo.com    
  9.      triggers:  
  10.       - title: Latency threshold exceeded  
  11.         condition: echo "$prev < 0.3 && $cur > 0.3" |bc -l  # expects "1" as TRUE indicator  
  12.         actions:  
  13.           terminal-bell: true  # standard terminal bell, default = false  
  14.           sound: true   # NASA quindar tone, default = false  
  15.           visual: true  # visual notification on top of the component area, default = false  
  16.           script: 'say alert: ${label} latency exceeded ${cur} second' # an arbitrary script, which can use $cur, $prev and $label variables 

交互式 shell 支持

除了sample命令之外,还可以指定init命令(在采样前仅执行一次)和transform命令(后处理采样命令输出)。这包括交互式shell用例,例如仅建立与数据库的连接一次,然后在交互式shell会话中执行轮询。

Basic mode

  1. textboxes:  
  2.   - title: MongoDB polling 
  3.     rate-ms: 500  
  4.     init: mongo --quiet --host=localhost test # executes only once to start the interactive session  
  5.     sample: Date.now();                       # executes with a required rate, in scope of the interactive session  
  6.     transform: echo result = $sample          # executes in scope of local session, $sample variable is available for transformation 

PTY mode

在某些情况下,交互式shell将无法工作,因为它的stdin不是终端。这种情况下我们可以使用PTY模式:

  1. textboxes:  
  2.   - title: Neo4j polling  
  3.     pty: true  # enables pseudo-terminal mode, default = false  
  4.     init: cypher-shell -u neo4j -p pwd --format plain  
  5.     sample: RETURN rand();  
  6.     transform: echo "$sample" | tail -n 1  
  7.   - title: Top on a remote server  
  8.     pty: true  # enables pseudo-terminal mode, default = false  
  9.     init: ssh -i ~/user.pem ec2-user@1.2.3.4  
  10.     sample: top 

init 命令逐步执行

在开始采样之前,还可以逐个执行多个init命令。

  1. textboxes:  
  2.   - title: Java application uptime  
  3.     multistep-init: 
  4.        - java -jar jmxterm-1.0.0-uber.jar  
  5.       - open host:port # or local PID  
  6.       - bean java.lang:type=Runtime  
  7.     sample: get Uptime 

变量

如果配置文件包含重复的模式,则可以将它们提取到变量部分。此外,还可以在启动时使用-v/–variable标志指定变量,并且任意的系统环境变量也可以在脚本中使用。

  1. variables:  
  2.     mongoconnection: mongo --quiet --host=localhost test  
  3. barcharts:  
  4.   - title: MongoDB documents by status  
  5.     items:  
  6.       - label: IN_PROGRESS  
  7.         init: $mongoconnection  
  8.         sample: db.getCollection('events').find({status:'IN_PROGRESS'}).count()  
  9.       - label: SUCCESS  
  10.         init: $mongoconnection  
  11.         sample: db.getCollection('events').find({status:'SUCCESS'}).count()  
  12.       - label: FAIL  
  13.         init: $mongoconnection  
  14.         sample: db.getCollection('events').find({status:'FAIL'}).count() 

颜色主题

  1. theme: light # default = dark  
  2. sparklines:  
  3.   - title: CPU usage  
  4.     sample: ps -A -o %cpu | awk '{s+=$1} END {print s}' 

真实场景

数据库

以下是不同的数据库连接示例。建议使用交互式shell(init脚本)仅建立一次连接,然后在采样期间重用即可。

MySQL

  1. # prerequisite: installed mysql shell  
  2. variables:  
  3.   mysql_connection: mysql -u root -s --database mysql --skip-column-names  
  4. sparklines:    
  5.   - title: MySQL (random number example)  
  6.     pty: true  
  7.     init: $mysql_connection  
  8.     sample: select rand(); 

PostgreSQL

  1. # prerequisite: installed psql shell  
  2. variables:  
  3.   PGPASSWORD: pwd  
  4.   postgres_connection: psql -h localhost -U postgres --no-align --tuples-only  
  5. sparklines:  
  6.   - title: PostgreSQL (random number example)  
  7.     init: $postgres_connection  
  8.     sample: select random(); 

MongoDB

  1. # prerequisite: installed mongo shell  
  2. variables:  
  3.   mongo_connection: mongo --quiet --host=localhost test  
  4. sparklines:  
  5.   - title: MongoDB (random number example)  
  6.     init: $mongo_connection 
  7.      sample: Math.random(); 

Neo4j

  1. # prerequisite: installed cypher shell  
  2. variables:  
  3.   neo4j_connection: cypher-shell -u neo4j -p pwd --format plain  
  4. sparklines:  
  5.   - title: Neo4j (random number example)  
  6.     pty: true  
  7.     init: $neo4j_connection  
  8.     sample: RETURN rand();  
  9.     transform: echo "$sample" | tail -n 1 

Kafka

检查kafka lag值,计算每个队列lag值的和,高于阈值报警,多consumergroup,多topic。

  1. variables:  
  2.   kafka_connection: $KAFKA_HOME/bin/kafka-consumer-groups --bootstrap-server localhost:9092  
  3. runcharts:  
  4.   - title: Kafka lag per consumer group  
  5.     rate-ms: 5000  
  6.     scale: 0  
  7.     items:  
  8.       - label: A->B  
  9.         sample: $kafka_connection --group group_a --describe | awk 'NR>1 {sum += $5} END {print sum}'  
  10.       - label: B->C  
  11.         sample: $kafka_connection --group group_b --describe | awk 'NR>1 {sum += $5} END {print sum}'  
  12.       - label: C->D  
  13.         sample: $kafka_connection --group group_c --describe | awk 'NR>1 {sum += $5} END {print sum}' 

Docker

Docker容器统计信息(CPU,MEM,O/I)

  1. textboxes:  
  2.   - title: Docker containers stats  
  3.     sample: docker stats --no-stream --format "table {{.Name}}\t{{.CPUPerc}}\t{{.MemPerc}}\t{{.MemUsage}}\t{{.NetIO}}\t{{.BlockIO}}\t{{.PIDs}}" 

SSH

远程服务器上的TOP命令

  1. variables:  
  2.   sshconnection: ssh -i ~/my-key-pair.pem ec2-user@1.2.3.4  
  3. textboxes:  
  4.   - title: SSH  
  5.     pty: true  
  6.     init: $sshconnection  
  7.     sample: top 

JMX

Java应用程序的正常运行示例

  1. # prerequisite: download [jmxterm jar file](https://docs.cyclopsgroup.org/jmxterm)  
  2. textboxes:  
  3.   - title: Java application uptime  
  4.     multistep-init:  
  5.       - java -jar jmxterm-1.0.0-uber.jar  
  6.       - open host:port # or local PID  
  7.       - bean java.lang:type=Runtime  
  8.     sample: get Uptime  
  9.     transform: echo $sample | tr -dc '0-9' | awk '{printf "%.1f min", $1/1000/60}'  

相关内容