如何使用计算机视觉和人工智能玩转逻辑游戏

2024-06-04 08:31:36

我喜欢逻辑游戏，同时也喜欢计算机视觉和人工智能算法。为了把这两样结合起来，开发了一个软件来检测、分析和解决一些逻辑难题，比如数独和摩天大楼。

本文主要解释“LogicGamesSolver”项目，你可以在这个github存储库中找到源代码以及运行它的说明。

https://github.com/fabridigua/LogicGamesSolver

该项目结合了三个研究领域：

计算机视觉在图像问题检测中的应用
深度学习对问题中的数字进行分类
人工智能玩游戏

该软件使用Python编写，使用opencv4.01和Tensoflow 2.3.0库。

它能解决三种游戏：数独、星际大战和摩天大楼。

第一步：检测

第一步是检测输入图像中的谜题。

其思想是找到最大的轮廓，即图像中最大的多边形。如果场景是干净的，有尽可能少的噪音和物体，则此步骤对于软件来说更容易。

使用参数cv2.RETR_EXTERNAL的findContours方法找到轮廓¹，仅考虑极端的外部轮廓；然后，我们根据轮廓的面积对轮廓进行排序，并取第一个元素。

一旦发现了这个谜题，我们就取四个顶点进行透视变换，并使用warpeperspective对多边形的图像进行变换。

在继续之前，我们必须从网格中提取单元格的图像来分析已经写入的数字。

请注意，网格长度由用户给定。方法*get_digit()*分析单元格图像以检查其是否包含数字（否则返回None），并对其进行预处理，使其成为数字分类器的合适输入图像。

第二步：谜题分析

一旦我们有了谜题的平面图像，是时候对其进行分析，以获得已经提供的信息来解决游戏了。

数独和摩天大楼的谜题需要考虑数字；相反，对于星战游戏，我们需要了解内部结构，以定位模式中定位的区域。

数字分类器

为了了解图中有哪些数字，该软件利用卷积神经网络对手写体数字进行分类，并用著名的MNIST数据集²：60000个元素，28×28像素的0-9之间的手写体单个数字灰度图像进行训练。

我不想深入讨论细节，因为它是一个非常基本的CNN，而且数据集几乎在每一本深度学习书籍中都有使用。本文我只向你展示神经网络的体系结构，但是你可以在项目源代码的DigitClassifier.py类中看到实现。

DigitClassifier.py：https://github.com/fabridigua/LogicGamesSolver/blob/main/DigitClassifier.py

软件只在第一次执行时训练模型，然后使用保存在文件中的权重来预测数字。

可以使用我的权重：https://github.com/fabridigua/LogicGamesSolver/blob/main/model_weights.h5

Tensorflow提供了一种将图像转换成适合CNN的阵列的方法，同时提供一个exclude_classes数组，即不考虑该游戏的类（例如Sudoku的“ 0”，其数字在[1,9]范围内）。使用*preds.argmax(axis = 1)[0]时，*我们以最大概率将值取为正确的数字。

MNIST数据集是由手写数字组成的，模型训练结束后，CNN给出了99%的准确率。但是，由于字体的原因，我在使用时遇到了一些错误：书写的数字可能与手写的数字有很大的不同，例如，“4”通常被预测为“9”，而“3”则被预测为“8”。为了解决这个问题，我决定不仅考虑图像，还要考虑最后7个数字，并考虑同一单元格的7位预测中最频繁出现的数字预测。

连接成分分析

对于星际大战，没有数字可以识别，但是网格区域可以定位，为此，我们需要首先删除内部网格线，然后提取连接的组件。

在前4行中，我们应用腐蚀过滤器去除较浅的行，然后应用阈值仅高亮显示区域的边缘，最后我们寻找连接的组件，用不同的颜色给区域着色。

这是一个实时过程，以便用户可以确认（按空格键）何时区域定位良好，一旦用户确认，网格中的单元格将按其中心像素的颜色分组，从而定义问题区域。

第三步：解谜

现在我们已经有了解决游戏的所有要素。

和其他许多逻辑益智游戏一样，数独、星战和摩天大楼都可以描述为约束满足问题。

CSP包含三个元素：

一组我们想要找到正确值的变量
每个变量可能值的域
定义问题的一组约束

例如我们的数独游戏：

变量：网格的81个单元格
域：范围{1,9}（不包括已填充的单元格）
约束：游戏规则

类似的表示法可以用于许多问题和游戏，也可以用于摩天大楼和星战，但其中有一个特点：单元的域是{0,1}，表示星体的存在（1）或不存在（0）。

一个解决方案是一个特定的变量分配，使每个约束都得到满足。

源代码有点长，但我想向你解释用于在软件中解决csp的递归回溯搜索的思想，显示算法的核心部分。

请参阅项目的Solver类：https://github.com/fabridigua/LogicGamesSolver/blob/main/Solver.py

我知道，这很复杂，但它背后的思想非常简单：算法通过单变量赋值（技术上是深度优先搜索）来搜索解，直到找到一个完整的赋值（由is_complete方法控制）。

在每一步中，算法获取一个没有赋值的变量（select_unassigned_variablee），选择其域中一个未经验证的值，并查看发生了什么。如果对于赋值，当前状态尊重所有约束（is_consistent方法），我们再次调用算法来检查赋值是否完成，否则我们删除当前变量并返回到前一状态以尝试使用不同的值。

如果你阅读了全部代码，你会发现使用了一些启发式方法来加速求解过程。一种是简单推理，我尝试通过检查是否可以执行一些简单的推理来分配一些变量：例如，对于数独来说，如果一行、一列或一个正方形包含8个明显的值，则很明显这是缺失值；另一种启发式方法用于给定变量的值选择。在启发式方法中，如果选择某个变量的值违反了某些游戏规则，则从该变量的域中删除该值。

从计算的角度来看，该算法将搜索空间从O（d ^ n！）减少到O（d ^ n），但值得注意的是，如果没有启发式算法，算法可能会非常慢。

最后考虑

我们生活在一个不再让我们感到惊讶的时代：人工智能对我们生活的社会影响如此之大，以至于我们对新技术变得冷漠，也许有时候我们应该停下来反思一下，生活在这个革命时代，我们是多么幸运。

让我们以这个简单的项目为例，该软件（约50KB的内存，分布在4个文件上）使用计算机视觉算法进行图像分析和透视变换，使用卷积神经网络进行数字分类，并且该算法在几秒钟内解决了一个逻辑问题，这至少需要我们几分钟的时间。

每一种算法都是世界各地几十年来研究和实验的成果，它是整整一代科学家的遗产。

参考文献

[1] What are contours? OpenCV Docs. https://docs.opencv.org/4.0.1/d4/d73/tutorial_py_contours_begin.html

[2] THE MNIST DATABASE of handwritten digits by Yann LeCun, Corinna Cortes and Chris Burges The official website http://yann.lecun.com/exdb/mnist/

[3] M. Sahu, A. V. Singh and S. K. Khatri, “A Classical Constraint Satisfaction Problem and its Solution using Artificial Intelligence,” 2019 Amity International Conference on Artificial Intelligence (AICAI), Dubai, United Arab Emirates, 2019, pp. 429–433, doi: 10.1109/AICAI.2019.8701325.

☆ END ☆

足够智慧，一场关于城市未来的“战斗”

来源:解放日报作者:王一日期:2021-08-21 . 由"智慧"点亮的城市善感知.会呼吸.有温度. (1/2) ■本报记者王一许多人认为,智慧城市能利用技术解决所有问题 ...
科学or艺术？——如何优化PID回路以实现最优性能

尽管大部分应用中都将PID算法作为闭环过程控制的事实标准,但对于如何优化PID回路以达到最优性能的方法,人们仍然没有达成共识. 在工业自动化行业,尽管大部分人将比例- 积分- 微分 (PID) 算法 ...
用于数字成像的双三次插值技术

重磅干货,第一时间送达双三次插值是使用三次或其他多项式技术的2D系统,通常用于锐化和放大数字图像.在图像放大.重新采样时,或是在软件中润饰和编辑图像时也会使到用它.当我们对图像进行插值时,实际上是在 ...
动态规划之状态转移方程-NOIP提高组历年高频考点(4)

通过分析NOIP2011-2018年提高组的试题我们就会发现,考察最多的考点前三名就是模拟,动态规划和贪心算法.今天我们来介绍一下动态规划常用的状态转移方程. 动态规划之状态压缩DP-NOIP提高组历 ...
启发式

启发式函数h(n)告诉 A*从任何顶点到目标的最小成本的估计n.选择一个好的启发式函数很重要. A* 对启发式算法的使用# 启发式可用于控制 A* 的行为. 一个极端,如果h(n)是0,那么只g(n) ...
R语言使用自组织映射神经网络（SOM）进行客户细分

原文链接:http://tecdat.cn/?p=18726 自组织映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)表示形式的高维数据集.在本文中,我们研究了如何使用 ...
图像处理，计算机视觉和人工智能之间的差异

作者:Pallawi 链接:https://medium.com/@pallawi.ds/difference-between-image-processing-computer-vision-and ...
人人可玩的简单游戏：拉丁字母拼写英法德意西语单词的基本逻辑

英希拉法德意西俄梵等众多印欧语系语言的共同祖先原始印欧语(PIE)中有一个非常好玩的词根*amma-,*ama- ("mother"). 这里的*ama-和汉语中的"阿妈 ...
感动 | 5分钟可以做什么？浏览几条手机新闻，看一本杂志或玩一个小游戏......

多等5分钟 (做人与处世201921期) 这个故事像一个美好的童话,发生在湖南怀化,故事的主人公就是公交车司机杨骐铭. 每天晚上22点10分,杨骐铭驾驶15路公交车准时驶离三中站台,这趟车是15路车经 ...
经典女孩美女笑话，地铁上几乎每个人，都低头玩手机或游戏！

经典女孩美女笑话，地铁上几乎每个人，都低头玩手机或游戏！
交易者都要玩的“概率游戏”｜如何解决执行交易系统中的瓶颈

交易者都要玩的“概率游戏”｜如何解决执行交易系统中的瓶颈
适合女生玩的单机游戏有哪些

在大家的印象中好像一般都是男孩子玩游戏比较多,其实女孩子也很多人会打游戏的,下面小编来给大家推荐一些女生玩的单机游戏. 最佳答案: 愤怒的小鸟为了报复偷走鸟蛋的肥猪们,鸟儿以自己的身体为武器,仿佛炮 ...
推荐 | 适合跟孩子一起玩的棋类游戏，你知道吗？

最近,家里孩子开始对各种棋类游戏很感兴趣.市场上棋类游戏那么多,细数起来各有各的特点. 今天,我们就给大家列举一些适合不同年龄段的棋类游戏吧! 1 飞行棋飞行棋基本没有任何的难度,适合幼儿园的小朋友 ...
康语教育：在假期带娃无聊怎么办？和孩子一起玩感统游戏

感统游戏进入国内的时间并不长,但随着近年来早教机构的宣传,感统游戏开始走入到家长们的眼中.作为国内专业从事儿童言语及智能发展的机构,主要为2-7周岁的言语发育迟缓.感统失调.自闭症(也称"孤 ...
新概念、NFC技术打造DNF潮玩手办引领游戏IP运营新业态

2011年,腾讯公司的程武先生在业界首次提出了"泛娱乐"这个概念,指的是基于互联网的多领域共生,以IP为核心打造明星IP的粉丝经济.经过十年的发展,泛娱乐推动的互联网+文化创意产业 ...

​如何使用计算机视觉和人工智能玩转逻辑游戏