科普纵横 | 地理学与生活—啤酒和尿布背后的地理学思维
有一个流传已久,主题为“啤酒和尿布”的故事,它既充满了生活的温馨和乐趣,又体现了营销的智慧。但就是这样一个故事,却可以引出计算机数据挖掘领域一类方法论的创新,同时又有助于理解由此扩展出的地理信息科学中一种重要的数据挖掘方法。本文将跳出晦涩的信息科学和地理学术语,阐释啤酒和尿布背后的地理学思维,感受地理学在生活中的应用及其科学属性。
1.货架空间中的啤酒和尿布
Beer and diapers in shelf space
我们去一些超市会发现一个很有趣的现象:货架上啤酒与尿布竟然放在一起售卖,这看似两者毫不相关的东西,为什么会放在一起售卖呢?原来,在美国,妇女们经常会嘱咐她们的丈夫下班以后给孩子买一些尿布回来,而丈夫在买完尿布后,大都会顺手买回几瓶自己爱喝的啤酒。商家通过对一年多的原始交易记录进行详细的分析,发现了这对神奇的组合。于是就毫不犹豫地将尿布与啤酒摆放在一起售卖,通过它们的关联性,互相促进销售。“啤酒与尿布”的故事一度成为营销界的神话。
图1 货架上的啤酒与尿布
这个有趣的故事背后,引出一个问题——如何从类型丰富、交易量巨大的超市物品中找出所有存在这种因摆放在一起而被同一个人同时购买的商品组合?看似简单,但如果把商品组合数从2类扩展为3类、4类甚至更多,问题可能就不再那么简单。更需要注意的是,如果仅仅是一家超市的销售数据中出现这种组合并不能说明这种规律的存在,只有所有样本超市中的绝大部分出现这种高销售量的组合时才有效。在计算机数据挖掘领域,将寻找物品中这类组合模式的方法论称为——频繁项集。如果在物品销售语境下阐释频繁项集的内涵,则可以表述为:货架上相互邻近摆放的物品项目在大多数超市中都会被同一个人同时购买。
当然,啤酒和尿布背后的频繁项集应用,远不会停留在现实中的货架上。随着近十年在线购物的普及,啤酒尿布式的数据分析也已经从实体货架走向了虚拟货架,商品的个性化推荐就是这一技术在互联网时代的变体应用。当很多人的在线购物车里同时出现遮阳帽和防晒霜时,即使你的购物车里只有遮阳帽,你所浏览的网页里也会出现系统自动推荐给你的防晒霜,这就是个性化推荐的基本形式。实际上,类似的应用早已不仅仅是商品,还包括网页的推荐,知识的推荐等。这类技术的应用已经遍及你每天所浏览网页和App的各个角落,并悄无声息地影响着每个人的选择行为。
2.
从货架空间到地理空间
From shelf space to geographic space
类似的现象还出现在地理空间中。例如,我们会发现有肯德基的地方,附近一般会有麦当劳;有兰州拉面馆的地方,大概率也会出现沙县小吃。类比啤酒和尿布,不难发现肯德基和麦当劳、兰州拉面和沙县小吃也具有类似的组合现象。只不过前者因有很多人同时买啤酒和尿布而使这一现象变得既具有科学价值,又具有现实意义;而后者则是因为具有相同的区位条件(如人流量、区域类型等)而频繁同时出现,同样变得兼具科学与现实意义。
店铺的选址过程是一个商业行为,需要考虑经济效益。研究哪些类型的店铺总是频繁地在一起出现,其现实意义在于从中可以发现这些店铺尽管类别不同,但对周围的区位环境却有着共同的需求。或许是需要满足周围常住人口密度要大、人流量要大、交通要便捷、要有商圈等这些基本要求,也或许是这些频繁出现在一起的不同类别的店铺具有“共生”关系。而这类组合模式的发现,就是为了能够挖掘出其背后的原因。
相比于货架空间中“啤酒-尿布”的组合模式,地理空间中“兰州拉面-沙县小吃”和“肯德基-麦当劳”式的组合更具特殊性。原因在于货架空间中放置货物的空间单元是固定的小格子,而地理空间中地理要素的存在位置是没有条条框框约束的,也就是说货架空间的结构是相对规则的(规则性强),地理空间的结构是相对不规则的(规则性弱)。货架空间的维度通过转化最终都可以用一个一维数轴量化表示,而地理空间的维度至少需要两个轴表示。在货架上,啤酒的左侧、右侧、上侧和下侧,都可以认为是其邻近区域,并可用于摆放尿布;但在城市空间中,肯德基店铺的邻近区域是哪个范围?哪些其他类型的店铺能算为肯德基店铺的邻居,这是一个具有多种规则和多项答案的地理学量化计算问题。在肯德基和麦当劳的例子中,假设我们的分析区域是南京,只有当南京的大多数肯德基旁边都有麦当劳时,才说明这两种店铺具有类似于啤酒尿布的组合模式,反之则不存在这种组合模式。在地理学中,将这种组合模式称之为——同位模式。同位模式即为货架空间中频繁项集在地理空间中的扩展。
图3 左:货架空间;右:地理空间
在与日常生活紧密相关的地理学问题中,类似的同位模式问题无处不在。例如,城市中那些频繁发生某类盗窃或抢劫案的热点区域,是否具有类似的地理环境?可能正是这种地理环境,极大地便利了犯罪分子的作案时机,这属于公共安全与犯罪地理学中的问题。再比如,存在相同文化特质的大多数区域,都具有相似的某种社会环境和自然环境,可能正是这类地理环境(自然与社会环境),孕育了此文化特质,这属于文化地理学研究的议题。类似的例子还有很多。
总
结
科学问题往往源于生活,但却又高于生活。啤酒和尿布的故事,引发了人们对一系列与日常生活息息相关的科学问题的思考,我们的信息科学家们也早已提出各种算法并将这些技术应用到生活和科学研究中。敏锐的地理学家们,凭借他们独特的地理思维,更是将这种有趣的方法引入到地理学的问题当中,并形成了地理信息科学中的空间分析方法论,指导着地理学者们去探索和解决各类地理学问题。
诚然,也有很多科学家质疑啤酒和尿布故事的真实性,但正如Tom Fawcett在《啤酒和尿布的起源》一文中所阐释的那样:“这仍然是一个很好的例子,正如人们所说的那样,永远不要让真相妨碍一个好故事”。
无论是啤酒和尿布的货架排列还是肯德基和麦当劳的地理区位选择,频繁项集和同位模式都在我们身边,无处不在,并无时无刻影响着人们的日常生活。让我们一起来设想一个情景:忙碌了一天的爸爸带小孩子去买东西,在正好需要的尿布货架旁边,买到了喜欢牌子的啤酒,他问小朋友一会儿想吃点什么,说他们稍后会开车去餐馆,这时小朋友的脑子里就在思考到底是选择肯德基还是麦当劳呢?最后随着地面车辙等所代表的时间线走完了又回到现实生活,爸爸和小朋友慢慢走出视野,现实生活当中,这可能只是一瞬的时间,但却可以拥有这么多奇妙有趣的地理故事等待我们去发现,所以说,这就是地理与生活。
【新地理学人】
撰文 | 文里
排版 | yooXIN
绘图 | 茜瓜西 第六页 maple
欢迎讨论:neogeographer@163.com