爬虫时，如何快速从深层嵌套 JSON 中找到特定的 Key

2024-07-29 12:01:24

在爬虫开发的过程中，我们经常遇到一些 Ajax 加载的接口会返回 JSON 数据

如下图所示，是 Twitter 的用户时间线接口，返回了一段 3000 多行的深层嵌套 JSON：

其中的cursor这个字段，是请求下一页的必要字段，我必须把它的 value 值读取出来，拼接到请求 URL 中，才能请求下一页的内容

现在问题来了，cursor字段在这个 JSON 里面的哪个位置？

从最外层开始，我应该怎么样才能读取到最里面的这个cursor中的value字段的值？

我知道已经有一些第三方库可以直接根据字段名读取 JSON 内部任意深度的值，不过用别人的东西总没有自己写一个轮子来得过瘾

所以今天我们自己来手写一个模块，我把他叫做JsonPathFinder，传入一个 JSON 字符串和需要读取的字段名，返回从最外层开始直到这个字段的路径

效果演示

我们用 Python 之父龟叔的 Twitter 时间线来作为演示，运行以后，效果如下图所示：

可以看到，从最外层开始一路读到cursor字段，需要经过非常多的字段名，对应到 JSON 中，如下图所示：

由于 entries 字段列表中一共有 20 个元素，所以这里的 18、19 实际上对应了倒数第二条和倒数第一条数据

其中，倒数第二条的 cursor 对应的是本页第一条推文，而倒数第一条对应的是本页最后一条推文，所以当我们要往后翻页的时候，应该用的是倒数第一条的 cursor

我们试着来读取一下结果：

非常轻松地获取到了数据，不需要再肉眼在 JSON 中寻找字段了

原理分析

JsonPathFinder 的原理并不复杂，全部代码加上空行，一共只有 32 行，如下图所示：

因为一个字段在 JSON 中可能出现很多次，所以find_one方法返回从外层到目标字段的第一条路径；而find_all方法返回从外层到目标字段的所有路径

而核心算法，就是iter_node方法。在把 JSON 字符串转成 Python 的字典或者列表以后，这个方法使用深度优先遍历整个数据，记录它走过的每一个字段，如果遇到列表就把列表的索引作为 Key；直到遍历到目标字段，或者某个字段的值不是列表也不是字典时结束本条路径，继续遍历下个节点

代码第 10-15 行，分别对列表和字典进行处理，对于字典来说，我们分离 key 和 value

for key, value in xxx.items():

   ...

对于列表，我们分离索引和元素

for index, element in enumerate(xxx):   ...

所以，在第 11 和第 13 行，使用生成器推导式分别处理字典和列表，这样得到的key_value_iter生成器对象，就可以在第 16 行被相同的 for 循环迭代

我们知道，在 Python 里面可以迭代的对象除了字典和列表以外，还有很多其他的对象，不过我这里只处理了字典和列表。大家也可以试一试修改 10-15 行的条件判断，增加对其他可迭代对象的处理逻辑

代码第 16-22 行，对处理以后的 key-value 进行迭代

首先，记录到当前字段为止的迭代路径到current_path列表中

然后，判断当前字段是不是目标字段。如果是，那么把当前的路径通过 yield 抛出来

如果当前路径的值是列表或者字典，那么把这个值递归传入 iter_node 方法，进一步检查内部还有没有目标字段

需要注意的是，无论当前字段是不是目标字段，只要它的值是列表或者字典，都需要继续迭代；因为即使当前字段的名字是目标字段，但也许它内部还有某个子孙字段的字段名也是目标字段名

对于普通函数来说，要递归调用，直接return 当前函数(参数)就可以了，但是对于生成器来说，要递归调用，就需要使用yield from 当前函数名(参数)

由于iter_node方法返回的是一个生成器对象，在 find_one和find_all方法中，for 循环每一次迭代，都能拿到一条从 20 行抛出来的到目标字段的路径；而在find_one方法中，当我们拿到第一条路径时，不再继续迭代，那么就可以节省大量的时间，减少迭代次数

正确使用

有了这个工具以后，我们可以直接用它来解析数据，也可以用来辅助分析数据

例如，Twitter 时间线的正文是在full_text中，我可以直接用 JsonPathFinder 获取所有的正文：

但有时候，我们除了获取正文外，还需要每一条推文的其他信息

如下图所示：

可以看到，这种情况下，我们可以先获取从外层到full_text的路径列表

然后再人工对列表进行一些加工，辅助开发：

从打印出来的路径列表里面可以看到，我们只需要获取globalObjects->tweets就可以了

它的值是 20 个字典，每个字典的 Key 是推文的 ID，Value 是推文的详情

这个时候，我们再人工去修改一下代码，也能方便地提取一条推文的全部字段

Python实战案例：flask结合elasticsearch实现全文搜索

ElasticSearch简称ES,其中Elastic一词通过词典查询获得. 从名字里我们可以知道,ES的特点就在于灵活的搜索,其实ES本身就是一个全文搜索引擎. 一.全文搜索原理如何实现全文搜索? ...
第70天： Python Scrapy 爬虫框架及搭建

Scrapy 框架实现爬虫的基本原理 Scrapy 就是封装好的框架,你可以专心编写爬虫的核心逻辑,无需自己编写与爬虫逻辑无关的代码,套用这个框架就可以实现以上功能--爬取到想要的数据.如果暂时理解不 ...
批量随机键值的查询优化

一. 问题描述键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 O(log2N), 10 亿行 ...
Go 终极指南：编写一个 Go 工具

https://arslan.io/2017/09/14/the-ultimate-guide-to-writing-a-go-tool/ 作者:Fatih Arslan 译者:oopsguy.com ...
Python科学运算之结构数组

三体智子 http://www.bizhi88.com/bizhi/320045.html 聊起结构体,其实应该说说C语言的结构体~ 首先接触的C 数组允许定义可存储相同类型数据项的变量,而结构是 C ...
Python Scrapy中文教程，Scrapy框架快速入门！

谈起爬虫必然要提起 Scrapy 框架,因为它能够帮助提升爬虫的效率,从而更好地实现爬虫. Scrapy 是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含 request ...
用Python快速从深层嵌套 JSON 中找到特定的 Key

在爬虫开发的过程中,我们经常遇到一些 Ajax 加载的接口会返回 JSON 数据.如下图所示,是 Twitter 的用户时间线接口,返回了一段3000多行的深层嵌套 JSON: 其中的cursor这个 ...
心梗时，快速判断梗死部位和范围

心电图可以提供急性心肌梗死的早期诊断(数分钟即可出现变化).梗死部位和范围的诊断,能提供更多的预后信息. 急性心肌梗死在心电图的主要表现为ST段变化,主要是抬高,其次是T波的高尖和倒置,最后是病理性Q ...
如何在第一次见面时，快速地推进你与她的关系？

Hello,大家好,我是情圣老司机. 和陌生人第一次见面后,存在两种情况,一种是,从此相忘于江湖,日后再见面,甚至连名字都记不起.一种是一见如故,给对方留下了强烈的印象,下次相遇,百米之内能一眼认出. ...
痛风发作时如何快速缓解疼痛感？这7大秘诀超有用！

[免责声明]本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意! 痛风经常发 ...
word打印时如何快速缩短表格长度？

word打印时如何快速缩短表格长度？
痛风发作时怎么快速缓解疼痛呢？

通常在过量饮酒.吃肉后,造成血尿酸升高,出现的单关节的肿胀和疼痛就是痛风:通常是下肢的关节为主,有的也会累及多个关节,症状多于夜间突然起病,出现关节红.肿.皮温升高以及关节表面皮肤红紫.紧张.发亮等. ...
「科普」痛风发作时如何快速止痛？柴海彦山西省中西医结合医院内分泌二科

作者:柴海彦痛风发作时如何快速止痛? 痛风急性发作时的治疗目标只有一个:那就是快速止痛. 痛风随时都有可能发作,发作当下不一定刚好是医院的门诊时间. 若在深夜或假日突然感到剧痛袭来,可以按照下列的紧 ...
499.PPT技巧：如何用PPT快速绘制多层嵌套环形图表达？？

PPT技巧:如何用PPT快速绘制多层嵌套环形图表达? 看看小伙伴们提出的问题,Excel可不可以做?当然可以,但做起来麻烦啊!所以牛闪闪的思路是还不如用PPT绘制,因为速度快啊牛闪闪赶紧教教大家绘制 ...
做合并报表时，快速链接单户报表的Excel实用技巧

做合并报表,少不了的一个步骤是做链接,链接单户试算平衡表的审定数. 相信做过合并报表的人都很熟悉下面的表格,一般有多少家子公司,就要链多少家单户试算平衡表,如果下面有很多家子公司,而做合并的人又不能够 ...

爬虫时，如何快速从深层嵌套 JSON 中找到特定的 Key

效果演示

原理分析

正确使用

相关推荐