02技能之谷歌Chrome爬虫 |数据爬取及可视化系列

上期我们研究了01基于位置的用户画像初探

今天更新一篇《数据爬取及可视化系列》的技能相关的文章:爬虫技能

前阵子研究了nodejs爬虫相关的内容,发现最好用的还是casperjs,一个基于Phantom JS的库。

Phantom JS是一个服务器端的 JavaScript API 的 WebKit。就是提供一个浏览器环境的命令行接口,你可以把它看作一个“虚拟浏览器”,除了不能浏览,其他与正常浏览器一样。它的内核是V8引擎,不提供图形界面,只能在命令行下使用,我们可以用它完成一些特殊的用途。

用casperjs做爬虫要编程呢。有点麻烦。

有没有更简单的方式呢???其实有的。

对于单页面的数据抓取,我建议直接采用谷歌浏览器的控制台来获取数据就行啦~简单又好用,今天分享下这一技巧。

基本步骤


通过谷歌浏览器访问目标网页

获取想要截取的数据的标签

得到标签的id或者class

谷歌浏览器控制台输入javascript代码

实例1

目标:获取百度搜索的标题内容


1. 打开www.baidu.com,

搜索:自在园freeGarden,结果如下图

2.我想把这些标题的本文内容都截取下来,可以右击标题,然后选择“审查元素”,在弹出的窗体中,查看标题是属于哪个html标签的。

附一张动图的教程:

3.发现原来是class为t的h3标签包含了这一标题内容

4.那么,我们可以通过innerText获取标签内的文本内容。

在console中输入:

$('.t').each(function(i,e){

console.log(e.innerText)

});

这一页的标题都获取出来啦,下图,然后拷贝出来就行了~

如果,想获取其他信息,可以通过修改类名t和innerText为其他的命令,获取诸如评价数量、链接地址等。

比如把.t改成.f3

$('.f13').each(function(i,e){

console.log(e.innerText)

})

把链接跟评价都获取出来了。

实例2

目标:获取搜狗搜索出来的微信公众号id


比如我搜索了一下大数据

想把这一页的微信号给保存下来,通过审查元素,找到微信号所在的html标签,控制台输入以下代码:

$('.txt-box').each(function(){

console.log($(this).children().first().next().text())

})

结果,如下:

实例3

目标:获取中国知网的搜索结果


写论文的时候,用知网搜索出来的结果,以前我是一个个去复制黏贴保存下来的。现在利用谷歌浏览器,可以把标题、作者等信息保存下来,方便整理。

通过审查元素,知道搜索的结果是保存在iframe里的。

于是,编写了以下的代码

var articles=[]; $(window.frames["iframeResult"].document).find('.fz14').each(function(){   $(this).children().first().remove();   var zz=$(this).parent().next();   var title=$(this).text();   var ly=zz.next();   var date=ly.next();   var sj=date.next();   articles.push({    "作者":    zz.text().replace(/\s{1,}|\n/g,''),    "标题":    title,    "来源":    ly.text().replace(/\s{1,}|\n/g,''),    "发表日期":    date.text().replace(/\s{1,}|\n/g,''),    "数据库":    sj.text().replace(/\s{1,}|\n/g,'')   });});console.log(JSON.stringify(articles))

这边不一一解释代码啦,有兴趣可以google一下,深入学习。

结果,如下图

没有缩进不够美观,不要紧,拷贝出来,

打开http://www.bejson.com/

粘贴,点击校验,结果如下图

拷贝出来,存到文本里就行啦~

关于,谷歌浏览器爬取数据的其他应用方式,大家可以发挥脑洞~

有问题可以留言哈


设计+科技=

自在园O设计Mix科技实验室。

(0)

相关推荐

  • 手把手教你爬取优酷电影信息-2

    上一章节中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用HtmlAgilityPack库,对爬虫的爬取一共分为三步 爬虫步骤 加载页面 解析数据 保存数据 继第一篇文档后的爬虫进阶,本文章主要是 ...

  • contentEditable

    function getDivContent(wrapper){ var textareaText = ''; for (var i = 0; i < wrapper.childNodes.le ...

  • 数据分析

    SQL数据库的基本操作,会基本的数据管理 会用Excel/SQL做基本的数据分析和展示 会用脚本语言进行数据分析,Python or R 有获取外部数据的能力,如爬虫 会基本的数据可视化技能,能撰写数 ...

  • 我所理解的互联网BI数据分析师

    数据分析师虽然是很多互联网公司都设立的一个职位,但不同公司对这一职位的定位不同.即使是统一公司,在不同的团队,数据分析师的职责,作用和地位也可能不一样. 本文从笔者自己的实际经历出发,总结一下数据分析 ...

  • 1.前端网络全部笔记

      # 向浏览器的地址栏中输入一个url按回车之后,网络中都会发生什么?   答: 1.看浏览器的缓存   2.看本机的host C:/windows/system32/drivers/etc/hos ...

  • js中的DOM操作

    一.前言 DOM 是 W3C(World Wide Web Consortium)标准.同时也 定义了访问诸如 XML 和 HTML 文档的标准: DOM是一个使程序和脚本有能力动态地访问和更新文档的 ...

  • 微信公众号文章爬取 | 数据爬取及可视化系列

    这是<数据爬取及可视化系列>的第7篇文章. 前5篇文章,可以点击查阅: 01基于位置的用户画像初探 02技能之谷歌Chrome爬虫 03 使用Echarts制作可视化图表 04就叫Spyf ...

  • &#128161;关于知乎Live的一些数据 | 数据爬取及可视化系列

    这是<数据爬取及可视化系列>的第5篇文章. 前4篇文章,可以点击查阅: 01基于位置的用户画像初探 02技能之谷歌Chrome爬虫 03 使用Echarts制作可视化图表 04就叫Spyf ...

  • 就叫Spyfari吧!|数据爬取及可视化系列

    这是<数据爬取及可视化系列>的第四篇文章. 前3篇文章,可以点击查阅: 01基于位置的用户画像初探 02技能之谷歌Chrome爬虫 03 使用Echarts制作可视化图表 玩了一个月的el ...

  • 03 使用Echarts制作可视化图表 |数据爬取及可视化系列

    这是<数据爬取及可视化系列>的第三篇文章. 前2篇文章,可以点击查阅: 01基于位置的用户画像初探 02技能之谷歌Chrome爬虫 最近在结合新学的爬虫在做一些可视化的东西了,今天讲讲可视 ...

  • 01基于位置的用户画像初探|数据爬取及可视化系列

    研究了1个月的nodejs爬虫,数据提取,mongodb数据库,数据可视化等等内容,我终于写了第一篇关于数据的文章,哈- 这个系列的文章会从: 技能 数据来源 数据可视化的套路 交互设计 等方面进行更 ...

  • 全网最简单的数据爬虫教程,只需6分钟轻松使用Excel完成数据爬取

    全网最简单的数据爬虫教程,只需6分钟轻松使用Excel完成数据爬取

  • python爬虫25 | 爬取下来的数据怎么保存? CSV 了解一下

    大家好 我是小帅b 是一个练习时长两年半的练习生 喜欢 唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思 我又走错片场了 接下来的几篇文章 小帅b将告诉你 如何将你爬取到的数据保存下来 有文本 ...

  • python爬虫26 | 把数据爬取下来之后就存储到你的MySQL数据库。

    小帅b说过 在这几篇中会着重说说将爬取下来的数据进行存储 上次我们说了一种 csv 的存储方式 这次主要来说说怎么将爬取下来的数据保存到 MySQL 数据库 接下来就是 学习python的正确姿势 真 ...

  • 基于golang的爬虫,爬取QQ邮箱号、链接、手机号、身份证号

    爬虫基础方案,基本的接口封装和使用,并为使用并发的处理 代码篇 package mainimport ( "fmt" "io/ioutil" "log ...