使用Fluentd+MongoDB采集Apache日志 / 开普饭

我们之前介绍了EFK日志采集分析套件，今天再介绍一个组合：Fluentd+MongoDB，用以实时收集半结构化数据。

背景知识

日志接入Fluentd后，会以json的格式在Fluentd内部进行路由。这就决定了Fluentd处理日志的方式是非常灵活的，它将日志视为半结构化数据，可以方便地修改其结构。

相应地，日志的最终存储数据库也应该擅长处理这样的半结构或者非结构化数据。这样整个系统搭配起来才更协调和高效。

而MongoDB恰好也是以类json的方式来处理内部数据的，非常适合作为Fluentd的目标存储。

实现机制
我们通常以下列架构来组合Fluentd+MongoDB这对CP。
在这个组合中，Fluentd的职责为：

持续“tail”Apache访问日志
将Apache日志文本解析为有意义的字段（如ip、path等），并缓存之
定期将缓存的日志写入MongoDB

安装部署

安装Apache、MongoDB
安装Fluentd
在Fluentd中安装MongoDB插件（最新版Fluentd已内置）
fluent-gem install fluent-plugin-mongo

接下来就是配置的事了。

配置说明

首先配置输入端
<source> @type tail path /var/log/apache2/access_log pos_file /var/log/td-agent/apache2.access_log.pos <parse> @type apache2 </parse> tag mongo.apache.access</source>
使用tail来追踪Apache的日志文件access_log，使用Fluentd内置的Apache日志解析器apache2来解析日志。日志事件tag为mongo.apache.access。
再配置输出端
<match mongo.**> # plugin type @type mongo # mongodb db + collection database apache collection access # mongodb host + port host localhost port 27017 # interval <buffer> flush_interval 10s </buffer> # make sure to include the time key <inject> time_key time </inject></match>
<match>匹配所有mongo开头的tag，使用out_mongo作为输出插件。依次配置日志存储在MongoDB中的数据库和集合、MongoDB地址和端口。设置flush间隔为10秒，每10秒将缓存的日志写入MongoDB。

测试验证
确保各服务正常运行。
我们通过ping Apache来制造一些测试数据。
$ ab -n 100 -c 10 http://localhost/

然后，在MongoDB中就可以看到这些日志了。

$ mongo> use apache> db["access"].findOne();

{ "_id" : ObjectId("4ed1ed3a340765ce73000001"), "host" : "127.0.0.1", "user" : "-", "method" : "GET", "path" : "/", "code" : "200", "size" : "44", "time" : ISODate("2011-11-27T07:56:27Z") }

{ "_id" : ObjectId("4ed1ed3a340765ce73000002"), "host" : "127.0.0.1", "user" : "-", "method" : "GET", "path" : "/", "code" : "200", "size" : "44", "time" : ISODate("2011-11-27T07:56:34Z") }

{ "_id" : ObjectId("4ed1ed3a340765ce73000003"), "host" : "127.0.0.1", "user" : "-", "method" : "GET", "path" : "/", "code" : "200", "size" : "44", "time" : ISODate("2011-11-27T07:56:34Z") }

简单，易用，且高效。

使用Fluentd+MongoDB采集Apache日志

相关推荐