基于计算机视觉的棋盘图像识别

2024-07-31 01:28:20

重磅干货，第一时间送达

本期我们将一起学习如何使用计算机视觉技术识别棋子及其在棋盘上的位置

我们利用计算机视觉技术和卷积神经网络（CNN）为这个项目创建分类算法，并确定棋子在棋盘上的位置。最终的应用程序会保存整个图像并可视化的表现出来，同时输出棋盘的2D图像以查看结果。

（左）实时摄像机进给的帧和棋盘的（右）二维图像

01. 数据

我们对该项目的数据集有很高的要求，因为它最终会影响我们的实验结果。我们在网上能找到的国际象棋数据集是使用不同的国际象棋集、不同的摄影机拍摄得到的，这导致我们创建了自己的数据集。我使用国际象棋和摄像机（GoPro Hero6 Black以“第一人称视角”角度）生成了自定义数据集，这使我的模型更加精确。该数据集包含2406张图像，分为13类（请参阅下文）。总结：这花费了我们很多时间，但是这使得训练图像尽可能地接近在应用程序中使用时所看到的图像。

自定义数据集的细分

为了构建该数据集，我首先创建了capture_data.py，当单击S键时，该视频从视频流中获取一帧并将其保存。这个程序使我能够无缝地更改棋盘上的棋子并一遍又一遍地捕获棋盘的图像，直到我建立了大量不同的棋盘配置为止。接下来，我创建了create_data.py，以使用下一部分中讨论的检测技术将其裁剪为单独小块。最后，我通过将裁剪后的图像分成带标签的文件夹来对它们进行分类。

02. 棋盘检测

对于棋盘检测，我想做的事情比使用OpenCV函数findChessboardCorners复杂的多，但又不像CNN那样高级。使用低级和中级计算机视觉技术来查找棋盘的特征，然后将这些特征转换为外边界和64个独立正方形的坐标。该过程以Canny边缘检测和Hough变换生成的相交水平线、垂直线的交点为中心。层次聚类用于按距离对交叉点进行分组，并对各组取平均值以创建最终坐标（请参见下文）。

完整的棋盘检测过程

03. 棋盘分类

项目伊始，我们想使用Keras / TensorFlow创建CNN模型并对棋子进行分类。但是，在创建数据集之后，仅考虑CNN的大小，单靠CNN就无法获得想要的结果。为了克服这一障碍，我利用了ImageDataGenerator和transfer learning，它增加了我的数据并使用了其他预训练的模型作为基础。

创建CNN模型

为了使用GPU，我在云中创建并训练了CNN模型，从而大大减少了训练时间。快速提示：Google Colab是使用GPU快速入门的简便方法。为了提高数据的有效性，我使用了ImageDataGenerator来扩展原始图像并将模型暴露给不同版本的数据。ImageDataGenerator函数针对每个时期随机旋转，重新缩放和翻转（水平）训练数据，从本质上创建了更多数据。尽管还有更多的转换选项，但这些转换选项对该项目最有效。

from keras.preprocessing.image import ImageDataGeneratordatagen = ImageDataGenerator( rotation_range=5, rescale=1./255, horizontal_flip=True, fill_mode='nearest')test_datagen = ImageDataGenerator(rescale=1./255)train_gen = datagen.flow_from_directory( folder + '/train', target_size = image_size, batch_size = batch_size, class_mode = 'categorical', color_mode = 'rgb', shuffle=True)test_gen = test_datagen.flow_from_directory( folder + '/test', target_size = image_size, batch_size = batch_size, class_mode = 'categorical', color_mode = 'rgb', shuffle=False)

我们没有从头开始训练模型，而是通过利用预先训练的模型并添加了使用我的自定义数据集训练的顶层模型来实现转移学习。我遵循了典型的转移学习工作流程：

1.从先前训练的模型（VGG16）中获取图层。

from keras.applications.vgg16 import VGG16model = VGG16(weights='imagenet')model.summary()

2.冻结他们，以避免破坏他们在训练回合中包含的任何信息。

3.在冻结层的顶部添加了新的可训练层。

from keras.models import Sequentialfrom keras.layers import Dense, Conv2D, MaxPooling2D, Flattenfrom keras.models import Modelbase_model = VGG16(weights='imagenet', include_top=False, input_shape=(224,224,3)) # Freeze convolutional layers from VGG16for layer in base_model.layers: layer.trainable = False# Establish new fully connected blockx = base_model.outputx = Flatten()(x) x = Dense(500, activation='relu')(x) x = Dense(500, activation='relu')(x)predictions = Dense(13, activation='softmax')(x)# This is the model we will trainmodel = Model(inputs=base_model.input, outputs=predictions)model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['categorical_accuracy'])

4.在自定义数据集上训练新层。

epochs = 10history = model.fit( train_gen, epochs=epochs, verbose = 1, validation_data=test_gen)model.save_weights('model_VGG16.h5')

当我们使用VGG16或VGG19作为预训练模型创建模型时，由于验证精度更高，因此选择了使用VGG16的模型。另外，最佳epochs 是10。任何大于10的数均不会使验证准确性的提高，也不会增加训练与验证准确性之间的差异。总结：转移学习使我们可以充分利用深度学习在图像分类中的优势，而无需大型数据集。

04. 结果

为了更好地可视化验证准确性，我创建了模型预测的混淆矩阵。通过此图表，可以轻松评估模型的优缺点。优点：空-准确率为99％，召回率为100％；白棋和黑棋（WP和BP）-F1得分约为95％。劣势：白骑士（WN）-召回率高（98％），但准确性却很低（65％）；白主教（WB）-召回率最低，为74％。

测试数据的混淆矩阵

05. 应用

该应用程序的目标是使用CNN模型并可视化每个步骤的性能。我们创建了cv_chess.py，它清楚地显示了步骤，并创建了cv_chess_functions.py，它显示了每个步骤的详细信息。此应用程序保存实时视频流中的原始帧，每个正方形的64个裁剪图像以及棋盘的最终2D图像。

print('Working...') # Save the frame to be analyzed cv2.imwrite('frame.jpeg', frame) # Low-level CV techniques (grayscale & blur) img, gray_blur = read_img('frame.jpeg') # Canny algorithm edges = canny_edge(gray_blur) # Hough Transform lines = hough_line(edges) # Separate the lines into vertical and horizontal lines h_lines, v_lines = h_v_lines(lines) # Find and cluster the intersecting intersection_points = line_intersections(h_lines, v_lines) points = cluster_points(intersection_points) # Final coordinates of the board points = augment_points(points) # Crop the squares of the board a organize into a sorted list x_list = write_crop_images(img, points, 0) img_filename_list = grab_cell_files() img_filename_list.sort(key=natural_keys) # Classify each square and output the board in Forsyth-Edwards Notation (FEN) fen = classify_cells(model, img_filename_list) # Create and save the board image from the FEN board = fen_to_image(fen) # Display the board in ASCII print(board)# Display and save the chessboard image board_image = cv2.imread('current_board.png') cv2.imshow('current board', board_image) print('Completed!')

代码链接：https://github.com/andrewleeunderwood/project_MYM

下载1：OpenCV-Contrib扩展模块中文版教程

R语言深度学习Keras循环神经网络(RNN)模型预测多输出变量时间序列

原文链接:http://tecdat.cn/?p=23902 递归神经网络被用来分析序列数据.它在隐藏单元之间建立递归连接,并在学习序列后预测输出. 在本教程中,我们将简要地学习如何用R中的Keras ...
如何训练和测试AI语言翻译系统

在本系列文章中,我们将向您展示如何使用深度学习来创建自动翻译系统.本系列可以视为分步教程,可以帮助您了解和构建神经元机器翻译. 本系列假定您熟悉机器学习的概念:模型训练,监督学习,神经网络以及人工神经 ...
R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

原文链接:http://tecdat.cn/?p=22336 Boosting算法是一种把若干个分类器整合为一个分类器的方法,也就是一种集成分类方法(Ensemble Method). 计量经济学的视 ...
全球10米分辨率的土地覆盖数据免费下载

之前我国制作了一份GlobeLand30:全球地理信息公共产品,是中国向联合国提供的首个全球地理信息公共产品,被国际同行专家誉为"对地观测与地理信息开放共享的里程碑".但很遗憾,对 ...
HALCON 20.11：深度学习笔记(5)

HALCON 20.11.0.0中,实现了深度学习方法.关于超参数的有关设置内容如下: 不同的DL方法被设计用于不同的任务,它们的构建方式也会有所不同.它们都有一个共同点,即在模型的训练过程中都面临着 ...
如何避免机器学习中的「7」种数据偏差

机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和或表示.有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误. 通常,用于机器学习项目的训练数 ...
基于转移学习的图像识别

重磅干货,第一时间送达 01.前言我们希望编写一个简单的算法用来识别狗狗的品种,假设我们想知道这只狗是什么品种. 算法该如何分辨这只狗可能属于哪个品种?当然小伙伴们可以训练自己的卷积神经网络来对这张 ...
圆之翰公司研究开发的“基于计算机视觉的煤中杂物智能分拣系统”获得中国煤炭工业科学技术二等奖

在中国煤炭工业协会.中国煤炭学会组织开展的2020年度"中国煤炭工业协会科学技术奖"评审活动中,由北京圆之翰工程技术有限公司研究开发的"基于计算机视觉的煤中杂物智能分拣系 ...
AI：基于计算机视觉和语音识别案例项目打包过程记录20181226-19

AI:基于计算机视觉和语音识别案例项目打包过程记录20181226-19 基于计算机视觉和语音识别案例项目打包过程 521 INFO: PyInstaller: 3.3.1 521 INFO: Pyt ...
揭秘腾讯微视人脸技术「黑科技」，基于GAN的人脸魔法特效 – 我爱计算机视觉

作者:微视团队随着小视频越来越流行,兼具趣味与人物个性的人脸特效成为小视频软件的标配,美颜自不必说,现在的人脸特效可谓"千变万化",人脸年轻化.变欧美范儿.发型改变.各种表情.胖 ...
计算机视觉|基于RGB颜色特征的火焰识别

提出问题及初步分析在计算机中图片一般用数组储存,以像素点为单位.import cv2 as cvimport numpy as npsrc=cv.imread("img/3.jpg&quo ...
【图像识别】基于卷积神经网络CNN实现车牌识别matlab源码

过去几年,深度学习(Deep learning)在解决诸如视觉识别(visual recognition).语音识别(speech recognition)和自然语言处理(natural langua ...
AI开发者大会之计算机视觉技术实践与应用：2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》

AI开发者大会之计算机视觉技术实践与应用:2020年7月3日<如何利用计算机视觉增加便利店连锁每日销售额>.<基于图像 / 视频的人脸和人体分析基础技术及其应用介绍>.< ...
基于深度学习的计算机视觉在制造中的质量检验

工业制造业的自动化: 当今制造自动化水平的提高,也要求材料质量检验自动化,几乎不需要人为干预.质量检测自动化的发展趋势是达到人的水平或更高的精度.为了保持竞争力,现代工业公司努力通过自动化实现数量和质 ...
准确率与放射科医生相当！新型AI系统可基于乳腺超声图像识别恶性病变，有效降低临床诊断假阳性率

乳腺癌是女性癌症死亡的第二大原因,早期发现.治疗可以有效提高治愈率.X光检查是应用最广泛的乳腺癌筛查和早期发现的成像技术,但对于组织致密的乳腺,在X光检查中很难发现癌症.乳腺超声检查已被证实能够检测到 ...

基于计算机视觉的棋盘图像识别

相关推荐