一、概述

Logstash是一个开源数据收集引擎，在大数据日志的处理与分析中受到了广泛的使用。而Grok是一种基于文本模式匹配的流行处理方法，可以解析和标准化日志数据并将其转换为可读的格式。 LogstashGrok是将两者结合起来使用的插件，它使用Grok的规则管理系统，自定义模式匹配字段（field）的值，进而提高数据的可视化与分析工作的效率。

二、常用变量设置

在LogstashGrok中，可以通过变量自定义匹配模式，下面是一些常用变量的设置方法。

Match模块中使用变量进行正则匹配

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }
}

其中message是匹配的字段（field）名，COMBINEDAPACHELOG是预定义的匹配规则，将匹配Apache日志文件中的格式（如IP地址、用户代理、状态码等）。 2. 自定义字段名称

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
    overwrite => [ "message" ]
  }
  mutate {
    rename => { "message" => "apache_message" }
  }
}

其中overwrite将会覆盖原有的message字段名。 mutate中的rename将apache_message字段重新定义为message。 3. 基于条件的判断

filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }
  if [apache_response_code] == "404" {
    drop { }
  }
}

该配置意为，如果匹配到的响应码（apache_response_code）为404，则删除该日志记录。

三、常用模式匹配语法

根据常规字符串进行匹配

filter {
  grok {
    match => { "message" => "Hello %{WORD}" }
  }
}

该配置意为，在匹配字段（message）中寻找“Hello”关键词，并把找到的WORD（字母、数字、下划线）定义为新的字段（field）。 2. 多行文本匹配

filter {
  grok {
    match => { "message" => "\$$%{WORD}\$$ \$$%{DATA}\$$ \$$%{WORD}\$$ %{GREEDYDATA:message}" }
    break_on_match => false   
  }
}

该模式将匹配多行文本格式中的message字段。 3. 匹配数字类型

filter {
  grok {
    match => { "message" => "%{NUMBER:num:int}" }
  }
}

该配置意为，匹配数字类型，将数字类型存储在名为num且类型为整型的新字段（field）中。

四、常见问题及应对方法

Grok匹配失败如果Grok匹配失败，可以通过日志中的错误信息来进行排查。例如，可以检查 Grok模式的正确性，或检查匹配字段（field）是否存在错误。
Grok性能问题如果Grok匹配处理时间太长，可以进行一些性能优化。例如，可以使用更具体的模式（pattern）来提高匹配效率，也可以通过使用正则表达式引擎来提高匹配速度。
多行日志的处理在匹配多行文本字符时，可以使用multiline选项进行处理，以分隔多行文本字符。

input {
  file {
    path => "/var/logs/application.log"
    start_position => "beginning"
    type => "multiline"
    codec => multiline {
      pattern => "^%{TIMESTAMP_ISO8601} "
      negate => true
      what => "previous"
    }
  }
}

五、总结

LogstashGrok是一个常用的日志处理模块，将Grok与Logstash结合，使得日志处理的效率更高、更准确，同时提供了丰富的模式匹配语法及变量设置选项，方便了从压缩数据中提取信息。

LogstashGrok的使用

一、概述

二、常用变量设置

三、常用模式匹配语法

四、常见问题及应对方法

五、总结