我与谷歌握过手

如今,计算机应用无处不在,各式计算机应用软件层出不穷。计算机应用软件的开发离不开码农。所谓码农,就是设计、编写、测试和维护计算机代码的计算机程序员。当年我也是码农,一不小心还与大名鼎鼎的谷歌握过手。

二十多年前,我参与研制一款高精度无线电测向仪。其中的设备控制软件是用Visual Basic(简称VB)语言开发的。从此,我与VB一直很有感情,采用VB开发过一系列计算机应用软件和科学计算程序。

VB是Microsoft公司开发的一种通用的计算机语言,其中“Visual”意指方便的图形用户界面 (GUI)开发方法;“Basic”是指 BASI语言,是一种在计算技术发展历史上应用得最为广泛的语言。VB从1991年的1.0版发展到1998年的6.0版后就不再升级。也许大家会认为VB只是初学者进阶计算机语言学习的入门工具,其实,全世界还没有哪款程序设计语言使用的广泛程度超越VB。

2002年微软公司采用新的核心,VB6.0变成了VB.NET,所以早期的很多VB程序需要改写才能运行。2008年,有位VB世界级大侠说: VB6.0死了。当时听了这话,我觉得很难过,虽然我94年就开始用C语言(另一种程序设计语言),从TurboC 2.0追到BlandC 3.1,但还是真心还是喜欢VB6.0,因为好用,而且觉得VB6.0还有活头,于是想用VB6.0写点啥,琢磨着在网络上做个爬虫软件,试试能爬点什么。

谷歌是搜索引擎大腕,在简洁的谷歌搜索框里,只要你输入一个词,比如“狗”,谷歌会将他知道的有关和“狗”相关的网站链接,用排序的方式呈现出来,你可以依次点击每个网站链接,进入访问相关网站并获取有关“狗”的内容。

我最初开发的DownWebPicsDownWebVideos软件,只要在软件弹出的对话框里输入关键词,比如“京巴狗”,软件便开始访问谷歌引擎,获取谷歌引擎提供的有关“京巴狗”的几百个网站链接,然后软件依次进入这些网站,批量下载这些网站里包含的符合一定格式要求的图片和视频,所谓一定格式要求,包括图片或视频类型(如BMP,JPG,MKV等),图片分辨率(比如1000X800),图片文件大小(比如100Kb)要求等。这些图片和视频,通常就是“京巴狗”的图片和视频,适合“京巴狗”图片或视频爱好者的收藏需要,而这类软件就俗称网络爬虫。

我的软件具有安装程序及英文帮助。在购买了域名www.redcamel.com和加拿大公司的服务器空间后,又写了一个简单的英文网站,挂上paypal购买链接,坐等买家购买,就像钓鱼一般,等着鱼儿上钩。

DownWebPics界面

2008年刚开发时,调用谷歌引擎不频繁,谷歌也懒得搭理我,等开发结束后正式测试,瞬间大量谷歌关键词搜索请求激怒了他,十几秒后谷歌开始了封杀,即使正常手动网页搜索也被阻止。怎么办,水平不够啊!但花了很多业余时间,无论如何不能对不住失去的光阴,还得想招。

我硬着头皮反复看谷歌引擎回传的网页。因为我的软件只下载文字链接,对网页里包含的图片等媒体文件是忽略的。谷歌巧妙地在回传网页里嵌入了一个只占一字节的图片文件,只要我的网页解析只接收文字内容而不下载该图片文件,谷歌就判定遭遇了网络爬虫,马上举起封杀大棒。当我明白了这点以后,就改进了爬虫软件,搜索请求会叠加上对这一个字节文件的下载。如此改动后的爬虫软件,再也没有被谷歌封杀过。因为我和谷歌有了一个一字节的握手协议。

谷歌肯定还会有封杀我这样的搜索请求的办法,但为什么没有后续动作?我猜测,再复杂一点的检测,会拖累谷歌搜索引擎本身的搜索体验,况且我的DownWebPics和DownWebVideos最后只有二十几个注册用户,根本不会对谷歌搜索体验造成影响。

因为用户太少,我于是在网页上加了一些自己旅游拍的风景照片,参与了谷歌广告计划,一年后,谷歌寄来了一张广告收入支票,只有区区100美元,连购买服务器空间的钱都不够。

2009年,我开发了WiseEmailAdressExtractor,这也是一款网络爬虫。比如你是养狗专业户,你需要找个合适的狗粮供货商,该软件就会为你找来几百甚至上千的供货商网站链接,并提取这些供货商公布在网站上的邮箱地址供你选择,软件甚至能甄别只提取你所在国家的供货商邮箱,这款软件的国外注册用户达到了几百个,英美澳印加拿大都有,可惜2010年谷歌正式退出中国,我的这些和谷歌结缘的小工具统统香消玉殒。网站注销了,域名不续费后被别人占了。网上虽然还能找到国内网站收录的某些版本,但却被注入了恶意代码。

谷歌还会回来吗?很多人问过,但即使他再回来,共享软件的江湖早已没有了个人发展的地盘,但我和谷歌握过手这件事,却是千真万确的。

(0)

相关推荐