爬虫时,如何快速从深层嵌套 JSON 中找到特定的 Key

在爬虫开发的过程中,我们经常遇到一些 Ajax 加载的接口会返回 JSON 数据
如下图所示,是 Twitter 的用户时间线接口,返回了一段 3000 多行的深层嵌套 JSON:

其中的cursor这个字段,是请求下一页的必要字段,我必须把它的 value 值读取出来,拼接到请求 URL 中,才能请求下一页的内容

现在问题来了,cursor字段在这个 JSON 里面的哪个位置?

从最外层开始,我应该怎么样才能读取到最里面的这个cursor中的value字段的值?

我知道已经有一些第三方库可以直接根据字段名读取 JSON 内部任意深度的值,不过用别人的东西总没有自己写一个轮子来得过瘾

所以今天我们自己来手写一个模块,我把他叫做JsonPathFinder,传入一个 JSON 字符串和需要读取的字段名,返回从最外层开始直到这个字段的路径

效果演示

我们用 Python 之父龟叔的 Twitter 时间线来作为演示,运行以后,效果如下图所示:

可以看到,从最外层开始一路读到cursor字段,需要经过非常多的字段名,对应到 JSON 中,如下图所示:

由于 entries 字段列表中一共有 20 个元素,所以这里的 18、19 实际上对应了倒数第二条和倒数第一条数据

其中,倒数第二条的 cursor 对应的是本页第一条推文,而倒数第一条对应的是本页最后一条推文,所以当我们要往后翻页的时候,应该用的是倒数第一条的 cursor

我们试着来读取一下结果:

非常轻松地获取到了数据,不需要再肉眼在 JSON 中寻找字段了

原理分析

JsonPathFinder 的原理并不复杂,全部代码加上空行,一共只有 32 行,如下图所示:

因为一个字段在 JSON 中可能出现很多次,所以find_one方法返回从外层到目标字段的第一条路径;而find_all方法返回从外层到目标字段的所有路径

而核心算法,就是iter_node方法。在把 JSON 字符串转成 Python 的字典或者列表以后,这个方法使用深度优先遍历整个数据,记录它走过的每一个字段,如果遇到列表就把列表的索引作为 Key;直到遍历到目标字段,或者某个字段的值不是列表也不是字典时结束本条路径,继续遍历下个节点

代码第 10-15 行,分别对列表和字典进行处理,对于字典来说,我们分离 key 和 value

for key, value in xxx.items():
   ...

对于列表,我们分离索引和元素

for index, element in enumerate(xxx):   ...

所以,在第 11 和第 13 行,使用生成器推导式分别处理字典和列表,这样得到的key_value_iter生成器对象,就可以在第 16 行被相同的 for 循环迭代

我们知道,在 Python 里面可以迭代的对象除了字典和列表以外,还有很多其他的对象,不过我这里只处理了字典和列表。大家也可以试一试修改 10-15 行的条件判断,增加对其他可迭代对象的处理逻辑

代码第 16-22 行,对处理以后的 key-value 进行迭代

首先,记录到当前字段为止的迭代路径到current_path列表中

然后,判断当前字段是不是目标字段。如果是,那么把当前的路径通过 yield 抛出来

如果当前路径的值是列表或者字典,那么把这个值递归传入 iter_node 方法,进一步检查内部还有没有目标字段

需要注意的是,无论当前字段是不是目标字段,只要它的值是列表或者字典,都需要继续迭代;因为即使当前字段的名字是目标字段,但也许它内部还有某个子孙字段的字段名也是目标字段名

对于普通函数来说,要递归调用,直接return 当前函数(参数)就可以了,但是对于生成器来说,要递归调用,就需要使用yield from 当前函数名(参数)

由于iter_node方法返回的是一个生成器对象,在 find_onefind_all方法中,for 循环每一次迭代,都能拿到一条从 20 行抛出来的到目标字段的路径;而在find_one方法中,当我们拿到第一条路径时,不再继续迭代,那么就可以节省大量的时间,减少迭代次数

正确使用

有了这个工具以后,我们可以直接用它来解析数据,也可以用来辅助分析数据

例如,Twitter 时间线的正文是在full_text中,我可以直接用 JsonPathFinder 获取所有的正文:

但有时候,我们除了获取正文外,还需要每一条推文的其他信息

如下图所示:

可以看到, 这种情况下,我们可以先获取从外层到full_text的路径列表

然后再人工对列表进行一些加工,辅助开发:

从打印出来的路径列表里面可以看到,我们只需要获取globalObjects->tweets就可以了

它的值是 20 个字典,每个字典的 Key 是推文的 ID,Value 是推文的详情

这个时候,我们再人工去修改一下代码,也能方便地提取一条推文的全部字段

(0)

相关推荐

  • Python实战案例:flask结合elasticsearch实现全文搜索

    ElasticSearch简称ES,其中Elastic一词通过词典查询获得. 从名字里我们可以知道,ES的特点就在于灵活的搜索,其实ES本身就是一个全文搜索引擎. 一.全文搜索原理 如何实现全文搜索? ...

  • 第70天: Python Scrapy 爬虫框架及搭建

    Scrapy 框架实现爬虫的基本原理 Scrapy 就是封装好的框架,你可以专心编写爬虫的核心逻辑,无需自己编写与爬虫逻辑无关的代码,套用这个框架就可以实现以上功能--爬取到想要的数据.如果暂时理解不 ...

  • 批量随机键值的查询优化

    一.   问题描述键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 O(log2N), 10 亿行 ...

  • Go 终极指南:编写一个 Go 工具

    https://arslan.io/2017/09/14/the-ultimate-guide-to-writing-a-go-tool/ 作者:Fatih Arslan 译者:oopsguy.com ...

  • Python科学运算之结构数组

    三体智子 http://www.bizhi88.com/bizhi/320045.html 聊起结构体,其实应该说说C语言的结构体~ 首先接触的C 数组允许定义可存储相同类型数据项的变量,而结构是 C ...

  • Python Scrapy中文教程,Scrapy框架快速入门!

    谈起爬虫必然要提起 Scrapy 框架,因为它能够帮助提升爬虫的效率,从而更好地实现爬虫. Scrapy 是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含 request ...

  • 用Python快速从深层嵌套 JSON 中找到特定的 Key

    在爬虫开发的过程中,我们经常遇到一些 Ajax 加载的接口会返回 JSON 数据.如下图所示,是 Twitter 的用户时间线接口,返回了一段3000多行的深层嵌套 JSON: 其中的cursor这个 ...

  • 心梗时,快速判断梗死部位和范围

    心电图可以提供急性心肌梗死的早期诊断(数分钟即可出现变化).梗死部位和范围的诊断,能提供更多的预后信息. 急性心肌梗死在心电图的主要表现为ST段变化,主要是抬高,其次是T波的高尖和倒置,最后是病理性Q ...

  • 如何在第一次见面时,快速地推进你与她的关系?

    Hello,大家好,我是情圣老司机. 和陌生人第一次见面后,存在两种情况,一种是,从此相忘于江湖,日后再见面,甚至连名字都记不起.一种是一见如故,给对方留下了强烈的印象,下次相遇,百米之内能一眼认出. ...

  • 痛风发作时如何快速缓解疼痛感?这7大秘诀超有用!

    [免责声明]本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意! 痛风经常发 ...

  • word打印时如何快速缩短表格长度?

    word打印时如何快速缩短表格长度?

  • 痛风发作时怎么快速缓解疼痛呢?

    通常在过量饮酒.吃肉后,造成血尿酸升高,出现的单关节的肿胀和疼痛就是痛风:通常是下肢的关节为主,有的也会累及多个关节,症状多于夜间突然起病,出现关节红.肿.皮温升高以及关节表面皮肤红紫.紧张.发亮等. ...

  • 「科普」痛风发作时如何快速止痛? 柴海彦 山西省中西医结合医院内分泌二科

    作者:柴海彦 痛风发作时如何快速止痛? 痛风急性发作时的治疗目标只有一个:那就是快速止痛. 痛风随时都有可能发作,发作当下不一定刚好是医院的门诊时间. 若在深夜或假日突然感到剧痛袭来,可以按照下列的紧 ...

  • 499.PPT技巧:如何用PPT快速绘制多层嵌套环形图表达??

    PPT技巧:如何用PPT快速绘制多层嵌套环形图表达? 看看小伙伴们提出的问题,Excel可不可以做?当然可以,但做起来麻烦啊!所以牛闪闪的思路是还不如用PPT绘制,因为速度快啊 牛闪闪赶紧教教大家绘制 ...

  • 做合并报表时,快速链接单户报表的Excel实用技巧

    做合并报表,少不了的一个步骤是做链接,链接单户试算平衡表的审定数. 相信做过合并报表的人都很熟悉下面的表格,一般有多少家子公司,就要链多少家单户试算平衡表,如果下面有很多家子公司,而做合并的人又不能够 ...