Flask + echarts 轻松搞定 nginx 日志可视化

2024-08-02 20:59:43

来源：Python 技术「ID: pythonall」

最近，线上的业务系统不太稳定，需要分析下访问情况，能拿到的数据只有 nginx 服务器的访问日志，不过难不倒我，用合适的工具，分分钟做出图形化展示，看看怎么做的吧

思路

nginx 访问日志，记录了每次客户端请求，其中包括 ip、时间、使用的客户端等信息

通过解析每行数据，提取这些信息，然后对信息进行整理，并做一些必要的统计

最后将统计数据展示出来，可以直观地感知数据中蕴含的问题

基本思路就是这样，不过知道和做到之间地距离还有很远，为了达到目标，需要一些工具做支持

由于数据是 nginx 访问日志，所有不需要爬取，从服务器上下载就好

整理处理过程，除了 python 本身一些功能外，还离不开 pandas 的支持

最后数据展示部分，用的是 Flask + echarts，从头写，确实很有挑战，不过今天我们利用 TurboWay 同学的框架 bigdata_practice，就能轻松搞定

闲话少叙，开始吧

数据处理

下载到 nginx 访问日志，从 nginx 配置文件中可以查看日志存放地址，另外，本文源码中有附带示例日志文件，可下载使用

日志文件为文本文件，每行记录一条访问情况，例如：

124.64.19.27 - - [04/Sep/2020:03:21:12 +0800] "POST /api/hb.asp HTTP/1.1" 200 132 "http://erp.example.com/mainframe/main.html" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36" "-"

读取文本文件的行，实现比较简单，这里只对提取字段和通过 ip 确定省份做下说明

提取

提取字段的方法如下：

import re


obj = re.compile(r'(?P<ip>.*?)- - \[(?P<time>.*?)\] "(?P<request>.*?)" (?P<status>.*?) (?P<bytes>.*?) "(?P<referer>.*?)" "(?P<ua>.*?)"')
result = obj.match(line)

# print(result.group("time"))

# ip处理

ip = result.group("ip").split(",")[0].strip() # 如果有两个ip，取第一个ip
# 状态码处理

status = result.group("status")  # 状态码
# 时间处理

time = result.group("time").replace(" +0800", "") # 提取时间，并去掉时区信息

t = datetime.datetime.strptime(time, "%d/%b/%Y:%H:%M:%S")  # 格式化

# request处理

request = result.group("request")

a = request.split()[1].split("?")[0]  # 提取请求 url，去掉查询参数
# user_agent处理

ua = result.group("ua")

if "Windows NT" in ua:

    u = "windows"

elif "iPad" in ua:

    u = "ipad"

elif "Android" in ua:

    u = "android"

elif "Macintosh" in ua:

    u = "mac"

elif "iPhone" in ua:

    u = "iphone"

else:

    u = "其他设备"

# refer处理 referer = result.group("referer")

代码看着长，其实逻辑很简单，核心是提取信息的正则表达式，利用了命名分组的方式，匹配后，可以通过命名来提取数据

对提取出的数据，需要处理一下，比如请求时间，采用的是类似 UTC 时间格式，需要去掉时区，并转换为 datatime 类型

另外就是的客户端的处理，根据关键字，判断客户端类型

将提取的信息，存入一个 词典 对象中，即每行对于一个 词典 对象，最后将一个个对象追加到一个 列表 对象中，带进一步处理

获取用户省份

为了后面对访问者所在区域进行分析，需要对一些字段做处理，例如将 ip 转换为省份信息

转换主要利用的是百度的 ip 定位服务

百度的 ip 定位服务，通过认证，可以获得每日 3 万次的免费配额

通过提供的 api 可以获取 ip 地址所在的省名称

考虑到查询效率和配额限制问题，最好对 ip 定位的结果做个缓存:

import requests import os


ak = "444ddf895 ... a5ad334ee" # 百度 ak 需申请
# ip 定位方法

def ip2province(ip):

    province = ipCache.get(ip, None)

    if province is None:

        url = f"https://api.map.baidu.com/location/ip?ak={ak}&ip={ip}&coor=bd09ll"

        try:

            province = json.loads(requests.get(url).text)['address'].split('|')[1]

            ipCache[ip] = province

            # 这里就需要写入

            with open("ip_cache.txt","a") as f:

                f.write(ip + "\t" + province + "\n")

            return province

        except Exception as e:

            return "未知"

    else:

        return province

# 初始化缓存 ipCache = {} if os.path.exists("ip_cache.txt"): with open("ip_cache.txt", "r") as f: data = f.readline() while data: ip, province = data.strip().split("\t") ipCache[ip] = province data = f.readline()

首先需要申请一个百度 app key
合成请求，通过 requests get，得到响应，从中提取到 ip 对应的省份信息
对应地址缓存，将没有缓存的结果存入 ipCache 词典对象，并写入 ip_cache.txt 文件，下次启动时，用缓存文件中的内容初始化 ipCache 词典对象
在每次需要获取 ip 对应地址时，先检查缓存，如果没有才通过 api 获取

数据分析

数据分析，就是对提取到的特征数据做统计加工，利用的是强大的 pandas

通过数据处理过程，我们可以得到处理好的 列表 对象，列表对象很容易创建为 pandas 的 DataFrame

接着，利用 pandas 的统计功能，将原始数据转换为可以展示用的分析数据

最后将数据存入 Excel 文件

def analyse(lst): df = pd.DataFrame(lst) # 创建 DataFrame


# 统计省份

    province_count_df = pd.value_counts(df['province']).reset_index().rename(columns={"index": "province", "province": "count"})
# 统计时段

    hour_count_df = pd.value_counts(df['hour']).reset_index().rename(columns={"index": "hour", "hour": "count"}).sort_values(by='hour')
# 统计客户端

    ua_count_df = pd.value_counts(df['ua']).reset_index().rename(columns={"index": "ua", "ua": "count"})
# 数据存储

    to_excel(province_count_df, 'data.xlsx', sheet_name='省份')

    to_excel(hour_count_df, 'data.xlsx', sheet_name='按时')

    to_excel(ua_count_df, 'data.xlsx', sheet_name='客户端')

def to_excel(dataframe, filepath, sheet_name): if os.path.exists(filepath):j excelWriter = pd.ExcelWriter(filepath, engine='openpyxl') book = load_workbook(excelWriter.path) excelWriter.book = book dataframe.to_excel(excel_writer=excelWriter,sheet_name=sheet_name,index=None, header=None) excelWriter.close() else: dataframe.to_excel(filepath, sheet_name=sheet_name, index=None, header=None)

analyse 方法，接受一个 列表 对象，即在数据整理部分得到的数据
将数据创建为 DataFrame，利用 pandas 的 value_counts 方法对对应字段数据进行统计，注意，value_counts 会做去重处理，从而统计出每个值出现的个数
因为 value_counts 处理的结果，是一个 Series 对象，索引为不重复的值，所以在用 reset_index 方法处理一下，将索引转换为一个正常列，并对列名做了替换，以便后续处理更方便
由于 value_counts 后的结果是按统计数量从多到少排列的，对应按时间的统计有些奇怪，所以利用 sort_values 方法，按时间列做了重新排序
to_excel 方法是为了将数据导出为 excel，可以支持导入不同 sheet，以便做数据展示

数据分析部分，可以从不同的角度对数据进行统计分析，最终将需要展示的数据存入 Excel，当然根据需要也可以存入其他数据库

数据展示

从头利用 Flask 和 echarts 做数据展示是可以的，不过需要处理更多的细节

如果利用一些框架，快速做展示，然后再做局部的个性化调整

这里用到的框架是 TurboWay 的 bigdata_practice，虽然功能比较单一，结构不太灵活，不过用来搭建一个可用的数据展示系统还是没问题的，重要的是可以通过源码学习构建思路的方法

bigdata_practice git 地址为：https://github.com/TurboWay/bigdata_practice.git

将其 clone 到本地

git clone https://github.com/TurboWay/bigdata_practice.git

然后按照依赖模块，在 bigdata_practice 文件夹中，有个 requirements.txt，里面列了项目所依赖的库和组件

关于如何构建 requirements.txt 文件，可参考《部署 Flask 应用》

进入 bigdata_practice 文件夹，用 pip 安装依赖:

pip install -r requirements.txt

注意：最好使用虚拟环境安装，如何创建虚拟环境,可参考这篇文章

安装依赖之后，就可以启动 Flask 服务了

python app.py

* Serving Flask app "app" (lazy loading) * Environment: production WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead. * Debug mode: on * Restarting with stat * Debugger is active! * Debugger PIN: 137-055-644 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

如果一切正常，可以访问 localhost:5000，查看数据展示效果

这里对项目中的需要定制的部分做下说明

在 ironman 目录下，app.py 为 Flask 服务主代码，其中定义了系统的访问路径，比如首页、线图、饼图等，这里可以根据自己的需求添加或删改

每个访问路径对应一个页面模板，模板文件存放在，templates 文件夹下，如果需要调整菜单，需要对每个模板页面中的菜单部分进行修改，以调整菜单项目以及被激活的菜单

data.py 定义了展示数据的读取接口，相当于一个数据层，依赖于 nginx_log_data.py，将数据设置为，方便展示的结构，如果需要展示更多的图形，需要根据展示效果，修改或添加新的数据接口

nginx_log_data.py 从 Excel 文件中读取需要展示的数据，Excel 中的数据，就是 数据分析 部分得到的结果，这里利用 pandas 读取 Excel 的功能，如果需要展示更多的分析数据，可以在这里添加数据读取结果，另外通过调整 data.py 以及相应的页面模板文件，将数据得以展示

这里，我们就 24小时访问趋势、客户端占比以及用户分布做了展示，效果如下：

24小时访问趋势

客户端占比

用户分布

实践

下载源码后，先安装项目依赖

pip install -r requirements.txt

示例用的 nginx 访问日志，在 nginx_access.zip 压缩包里，先解压到当前目录

然后申请百度API，获取到 ak，修改到 analyse\baidu_api.py 的 13 行

将命令行切换到代码目录下，否则可能出现文件找不到的错误

执行数据分析脚本：

python .\analyse\main.py

最后启动 Flask 服务：

python .\ironman\app.py

总结

今天利用 pandas、Flask、echarts 对 nginx 服务器的访问日志做了简单分析和展示，完成任务的同时，学习和实践了如何通过一些简单的工具和方法构造一个数据展示平台的过程

文章主要说明了构建思路和需要注意的部分，具体细节，请下载示例代码，运行，同时欢迎交流探讨

参考

https://www.cnblogs.com/ssgeek/p/12119657.html
https://blog.csdn.net/whaoxysh/article/details/22295317
http://lbsyun.baidu.com/index.php?title=webapi/ip-api
http://lbsyun.baidu.com/apiconsole/key
https://blog.csdn.net/unsterbliche/article/details/80578606
https://github.com/TurboWay/bigdata_practice

App分发加速是如何实现的app分发有什么重要作用？cdn资源分配方式是如何分配的？

最后一个模块是一个实际的分发系统,可以将其想象为快递员和分拣员.如果数据不是本地缓存的,Deployment Services系统可以从上层检索请求的数据并将其发送给请求者.如果发生恶意攻击,则必须采 ...
将excel中某一列拆分为多个列

昨天有学员学 python文本分析:从入门到精通这门课时遇到jupyter配置问题,交流快结束的时候聊到excel数据拆分,说如果咱们后续提供excel数据分析的课程,比如excel数据拆分我还会购 ...
网站日志和js标记所获取的数据具备那些信息、记录的方式有何不同？

大家都知道js页面标记方式因为其使用灵活性,可获取数据的丰富度和统计得到指标的相对准确性已经成为目前最为常用的一种数据获取方式,下面深圳市博纳网络信息技术有限公司(https://www.198bon ...
批量获取IP地址来源，做分类汇总！

我们做用户分析时离不开用户来源分析,在很多网站/交易平台,我们的用户在没有注册或产生消费时,是没有用户自行上传的来源信息的. 所以我们程序猿或者数据分析师,都会根据用户访问的IP地址,来做进一步划分判 ...
南方人过冬有多难？用Python带你分析全网取暖器销量数据

CDA数据分析师出品作者:Mika 数据:真达 [导读] 今天用Python分析一下取暖器的全网销售数据. 公众号后台,回复关键字"取暖器"获取完整数据. 点击下方视频,先睹为 ...
宝塔面板nginx防火墙非浏览器拦截真的有用吗?

更新8.7.3版nginx防火墙后,小白发现多了一个"非浏览器拦截".宝塔官网对此功能只说明了建议开启此功能,拦截非浏览器请求,此开关将应用所有网站(建议开).但是小白实测开启后会 ...
【保姆级】Python项目(Flask网页)部署到Docker的完整过程（文末送书）

大家好,我是辰哥~~~(文末包邮送三本数据类书籍) 前提:相信看到这篇文章的读者应该已经学会了Docker的安装以及Docker的基本使用,如果还不会的可以参考我之前的文章进行详细学习! 1.安装版: ...
Fluentd插件：解析插件概述

" 解析插件用于适配各种源数据" 我们知道,Fluentd是一个通用的日志采集框架,一个很重要的原因就在于它可以处理各种各样的源数据. 处理数据的第一步就是要识别这些数据的格式. ...
一个Excel函数公式轻松搞定五星级评定数据可视化

点击下方 ↓ 关注,每天免费看Excel专业教程置顶公众号或设为星标 ↑ 才能每天及时收到推送个人微信号 | (ID:LiRuiExcel520) 微信服务号 | 跟李锐学Excel(ID:LiR ...
一文玩转PowerBI默认图表，轻松搞定数据可视化

不同的图表可以从不同的角度来展现数据,换个角度可能就会有不同的发现,但对于特定的数据或场景,并不是什么图表都适合,这也是初学者比较困惑的地方,面对一大堆令人惊叹的可视化效果,却感到无所适从,不知道该用 ...
OpenAI新宠CLIP有可视化了，CMU小哥开源新玩法，轻松搞定多类型图文联合检索

作者丨王浩帆编辑丨极市平台极市导读本文作者基于CLIP进行多类型图文联合检索,并实现了CLIP注意力机制的可视化,便于对CLIP检索结果进行分析,附有项目地址. >>加入极市CV技术 ...
看似复杂炫酷的数据可视化设计，用这波神器轻松搞定

数据大屏与数据可视化数据可视化是目前对数据展示最常用的方式.数据的可视化设计有助于将复杂的数据,用最易理解的方式展示在用户的面前. 数据可视化在中后台的设计中很常见,通常主要用于分析和决策,对实时性 ...
一个Excel函数公式轻松搞定星级评定数据可视化

个人微信号 | (ID:LiRuiExcel520) 微信服务号 | 跟李锐学Excel(ID:LiRuiExcel) 微信公众号 | Excel函数与公式(ID:ExcelLiRui) 职场的评定工 ...
Excel太烦、python太难，我用它就能轻松搞定数据可视化

小李在一家连锁超市企业的IT部门,经常要帮业务部分做数据分析,公司信息化建设发展比较落后,IT部门也只有两个人,各种各样的数据表经常让小李加班加到头疼,每次辛辛苦苦做好的分析报告,老板还总嫌丑. 众所 ...
如何去除照片背景中的人群？堆栈摄影轻松搞定。摄影必备拍摄技巧

如何去除照片背景中的人群？堆栈摄影轻松搞定。摄影必备拍摄技巧
无花果树太高，摘不到果怎么办？一招矮化大树轻松搞定

无花果树太高，摘不到果怎么办？一招矮化大树轻松搞定
孩子做事总爱拖延，一再催促无动于衷？掌握几招轻松搞定

生活中有很多孩子都是"小磨蹭",做事情拖拖拉拉,父母要不停地在旁边催促.写作业更是让人无比头疼,10分钟能写完的作业,非要拖到一个小时,更有甚者会跟父母对着干,越是催就越是拖延,父 ...

Flask + echarts 轻松搞定 nginx 日志可视化

思路

数据处理

提取

获取用户省份

数据分析

数据展示

实践

总结

参考

相关推荐