路面语义分割

2024-05-20 18:59:19

重磅干货，第一时间送达

检测坑洼，水坑，不同类型的地形等

本期是关于路面语义分割方法的。因此，这里的重点是路面模式，例如：车辆行驶在哪种路面上或道路上是否有损坏，还有道路标记和减速带等等。

0.1 简介

有时我们需要确定路面是青沥路面、鹅卵石路面亦或是未铺砌的路面？出于对驾驶员的安全以及车内人员的舒适性的考虑我们需要提前知道路面情况。为了实现这些目标，将使用卷积神经网络（CNN）进行路面的语义分割。CNN体系结构是U-NET [4]，该体系结构旨在执行医学图像中的语义分割任务，但已成功应用于许多问题当中。另外，使用resnet34和resnet50完成此方法的实验。对于数据增强步骤，使用来自fastai库的标准选项，并进行了水平旋转和透视变形。

为了训练神经网络并测试和验证结果，使用来自RTK数据集中的701张图像创建了以下路况（GT）：

02. 实现步骤

第一步-初始设置

from fastai.vision import *from fastai.vision.interpret import *from fastai.callbacks.hooks import *from pathlib import Pathfrom fastai.utils.mem import *torch.backends.cudnn.benchmark=True

由于我们将使用Google驱动器中的数据集，因此需要对其进行挂载：

from google.colab import drivedrive.mount('/content/gdrive')

大家将看到类似下图的内容，单击链接，我们就获得授权码，因此只需将授权码复制并粘贴到期望的字段中即可。

现在，只需将我们的Google云端硬盘作为文件系统访问即可。接下来加载我们的数据。

第二步-准备数据

path = Path('gdrive/My Drive/Colab Notebooks/data/')path.ls()

其中“ image ”是包含原始图像的文件夹。“ labels ”是一个文件夹，其中包含我们将用于训练和验证的图像，这些图像是8位灰度图。在“ colorLabels ”中，有原始的彩色图像，可以将其用于视觉比较。“ valid.txt ”文件包含随机选择用于验证的图像名称列表。最后，“ codes.txt ”文件包含带有类名称的列表。

codes = np.loadtxt(path/'codes.txt', dtype=str); code

现在，我们定义原始图像和GT图像的路径，从而可以访问文件夹中的所有图像。

path_lbl = path/'labels'path_img = path/'images'

fnames = get_image_files(path_img)fnames[:3]len(fnames)

lbl_names = get_image_files(path_lbl)lbl_names[:3]len(lbl_names)

img_f = fnames[139]img = open_image(img_f)img.show(figsize=(5,5))

我们可以看到一个示例，数据集中的图像139。

接下来，我们使用一个函数来从原始图像中推断文件名，该文件名负责每个像素的颜色编码。

get_y_fn = lambda x: path_lbl/f'{x.stem}{x.suffix}'

mask = open_mask(get_y_fn(img_f))mask.show(figsize=(5,5), alpha=1)

src_size = np.array(mask.shape[1:])src_size,mask.data

第三步 —无权重检测

现在我们进入第3步。让我们创建一个DataBunch，使用数据块API训练我们的第一个模型。定义图像来源，将用于验证的图像与原始图像建立对应关系。对于数据扩充，fastai库提供了很多选项，但是在这里，我们将仅使用带有的默认选项get_transforms()，该选项由随机的水平旋转和透视变形组成。在transform调用时我们要令tfm_y=True，以确保每个蒙版及其原始图像的数据集中数据扩充的转换都相同。想象一下，如果我们旋转原始图像，但是与该图像相对应的蒙版没有旋转，那将是多么混乱！

size = src_sizefree = gpu_mem_get_free_no_cache()# the max size of bs depends on the available GPU RAMif free > 8200: bs=8else: bs=4print(f"using bs={bs}, have {free}MB of GPU RAM free")src = (SegmentationItemList.from_folder(path_img) .split_by_fname_file('../valid.txt') .label_from_func(get_y_fn, classes=codes)) data = (src.transform(get_transforms(), size=size, tfm_y=True) .databunch(bs=bs) .normalize(imagenet_stats))

使用lesson3-camvid定义准确度度量和权衰减。我们使用resnet34模型，定义学习率lr_find(learn)为1e-4。

name2id = {v:k for k,v in enumerate(codes)}def acc_rtk(input, target): target = target.squeeze(1) mask = target != 0 return (input.argmax(dim=1)[mask]==target[mask]).float().mean() metrics=acc_rtkwd=1e-2learn = unet_learner(data, models.resnet34, metrics=metrics, wd=wd)lr_find(learn)learn.recorder.plot()

接下来，我们运行fit_one_cycle()10次以检查模型的运行情况。

lr=1e-4learn.fit_one_cycle(10, slice(lr), pct_start=0.9)

interp = SegmentationInterpretation.from_learner(learn)top_losses, top_idxs = interp.top_losses((288,352))mean_cm, single_img_cm = interp._generate_confusion()df = interp._plot_intersect_cm(mean_cm, "Mean of Ratio of Intersection given True Label")

别忘了保存我们到目前为止训练的模型。

learn.save('stage-1')

slice关键字用于获取起始值和终止值，在第一层以起始值开始训练，并且在到达终止值时结束。

learn.unfreeze()lrs = slice(lr/400,lr/4)learn.fit_one_cycle(100, lrs, pct_start=0.9)learn.save('stage-2')

这是我们的第一个没有权重的模型，该模型在路面上可以正常使用，但并不普适。

第四步-带有权重的模型

我们还要继续使用第一个模型。这部分与第3步几乎完全相同，因为数据绑定，我们只需要记住加载先前的模型即可。

learn.load('stage-2')

在我们开始培训过程之前，我们需要加权重。我定义了这些权重，以便尝试与每个类在数据集中出现的数量（像素数）成正比。

balanced_loss = CrossEntropyFlat(axis=1, weight=torch.tensor([1.0,5.0,6.0,7.0,75.0,1000.0,3100.0,3300.0,0.0,270.0,2200.0,1000.0,180.0]).cuda())

learn = unet_learner(data, models.resnet34, metrics=metrics, loss_func=balanced_loss, wd=wd)

其余部分与前面介绍的第三步完全一样。得到的结果有什么变化。

现在，对于所有类来说，我们似乎都有一个更合理的结果。记住要保存！

learn.save('stage-2-weights')

结果

最后，让我们看看我们的图像。首先，最好保存我们的结果或测试图像。

img_f = fnames[655]img = open_image(img_f)img.show(figsize=(5,5))

prediction = learn.predict(img)prediction[0].show(figsize=(5,5))

results_save = 'results'path_rst = path/results_savepath_rst.mkdir(exist_ok=True)

def save_preds(names): i=0 #names = dl.dataset.items for b in names: img_s = fnames[i] img_toSave = open_image(img_s) img_split = f'{img_s}' img_split = img_split[44:] predictionSave = learn.predict(img_toSave) predictionSave[0].save(path_rst/img_split) #Save Image i += 1 print(i) save_preds(fnames)

可是等等！图像全部看起来都是黑色的，我们的结果在哪里？？？冷静一下，这些就是结果，只是没有颜色图，如果在整个屏幕上以高亮度打开这些图像之一，则可以看到小的变化，即“十一色灰色”。因此，让我们对结果进行上色以使其更具表现力吗？现在，我们将使用OpenCV并创建一个新文件夹来保存彩色结果。

import osimport globimport base64import cv2 as cv

colored_results = 'results_color'path_crst = path/colored_resultspath_crst.mkdir(exist_ok=True)

因此，我们创建了一个函数来识别每个变化并为每个像素着色。

def colorfull(image): # grab the image dimensions #height = image.shape[0] #width = image.shape[1] width = 288 height = 352 # loop over the image, pixel by pixel for x in range(width): for y in range(height): b, g, r = frame[x, y] if (b, g, r) == (0,0,0): #background frame[x, y] = (0,0,0) elif (b, g, r) == (1,1,1): #roadAsphalt frame[x, y] = (85,85,255) elif (b, g, r) == (2,2,2): #roadPaved frame[x, y] = (85,170,127) elif (b, g, r) == (3,3,3): #roadUnpaved frame[x, y] = (255,170,127) elif (b, g, r) == (4,4,4): #roadMarking frame[x, y] = (255,255,255) elif (b, g, r) == (5,5,5): #speedBump frame[x, y] = (255,85,255) elif (b, g, r) == (6,6,6): #catsEye frame[x, y] = (255,255,127) elif (b, g, r) == (7,7,7): #stormDrain frame[x, y] = (170,0,127) elif (b, g, r) == (8,8,8): #manholeCover frame[x, y] = (0,255,255) elif (b, g, r) == (9,9,9): #patchs frame[x, y] = (0,0,127) elif (b, g, r) == (10,10,10): #waterPuddle frame[x, y] = (170,0,0) elif (b, g, r) == (11,11,11): #pothole frame[x, y] = (255,0,0) elif (b, g, r) == (12,12,12): #cracks frame[x, y] = (255,85,0) # return the colored image return image

接下来，我们读取每个图像，调用函数并保存最终结果。

fqtd = 0

filenames = [img for img in glob.glob(str(path_rst/"*.png"))]

filenames.sort()

for img in filenames: frame = cv.imread(img) frame = colorfull(frame) frame = cv.cvtColor(frame,cv.COLOR_BGR2RGB) name = "%09d.png"%fqtd cv.imwrite(os.path.join(path_crst, name), frame)

fqtd += 1 print(fqtd)

print("Done!")

使用以下过程，%timeit我们可以达到以下目的，因此此过程可能会花费不必要的时间：

03. 总结

在很多情况下，识别路面状况都很重要，基于此车辆或驾驶员可以做出调整，使驾驶变的更加安全，舒适和高效。这在可能存在更多道路维护问题或相当数量的未铺设道路的发展中国家中尤其重要。对于处理路面变化的环境，对于高速公路分析和养护部门也很有用，以便使他们在评估道路质量和确定需要维护的地方的工作自动化。

交流群

MySQL中JSON使用

文章目录前言 1.创建表和插入数据: 2.查询json中的使用字段: 3.json科普: 4.mysql中操作json的函数: 4.1 JSON_ARRAY:生成json数组. 4.2 JSON_O ...
Nilearn中的基本操作和查看

更多技术,第一时间送达 Nilearn是一个Python模块,用于对神经成像数据进行快速.简单的统计学习.它利用scikit-learn python工具箱进行多变量统计,应用程序包括预测建模.分类. ...
图像物体中心点

对于刚刚入门人工智能的小伙伴来说,常常需要阅读其他人员写的代码,更多的时候这些代码可能即没有文档也没有注释.大大超过了我们能够阅读理解的范围.其结果是我们每每下定决心阅读,投入巨大的精力,却收效甚微. ...
【Keras速成】Keras图像分类从模型自定义到测试

这是给大家准备的Keras速成例子杨照璐计算机视觉.深度学习方向从业者作者 | 杨照璐(微信号lwyzl0821) 编辑 | 言有三这一次我们讲讲keras这个简单.流行的深度学习框架,一个图 ...
Dataset之MNIST：自定义函数mnist.load_mnist根据网址下载mnist数据集(四个ubyte.gz格式数据集文件)

Dataset之MNIST:自定义函数mnist.load_mnist根据网址下载mnist数据集(四个ubyte.gz格式数据集文件) 下载结果运行代码 mnist.py文件 # coding: ...
如何将深度学习研究论文实现为代码

作者:Bipin Krishnan P 编译:ronghuaiyang 导读如果深度学习是一种超能力,那么将理论从论文转化为可用的代码就是一种超超能力. 为什么要去复现机器学习研究论文? 正如我所说 ...
OpenCV-Python图像的缩放、翻转和旋转

重磅干货,第一时间送达图像的缩放 opencv中对图像进行放缩[1]有两种方式可以实现,一种是使用指定尺寸放缩:一种是使用缩放比例放缩. 指定尺寸 cv2.resize(image, (1920, ...
简单的融合模型：基于keras 的少量样本集迁移学习 VGG16 MeanShift PAC降维混合模型的苹果识别

案例分析更多是是一种思想而不是具体实现 1 数据集样本总数为30个其中普通苹果和其他苹果各占一半其中有10个苹果已经标注其他均无标签 2 数据集扩容由于数据集中数据数量少无法满足模型训练 ...
基于自监督深度估计的领域自适应语义分割

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
Transformer在语义分割上的应用

作者:晟沚前言语义分割方法主要采用具有编码器-解码器体系结构的全卷积网络(FCN).编码器逐渐降低空间分辨率,并通过更大的感受野学习更多的抽象/语义视觉概念.由于上下文建模对于分割至关重要,因 ...
憨批的语义分割重制版6——Pytorch 搭建自己的Unet语义分割平台

注意事项学习前言什么是Unet模型代码下载 Unet实现思路 1.训练文件详解 2.LOSS解析 1.主干网络介绍 2.加强特征提取结构 3.利用特征获得预测结果一.预测部分二.训练部分训 ...
主动边界丢失语义分割

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
Toronto-3D：用于城市道路语义分割的大规模移动激光雷达数据集

文章:Toronto-3D: A Large-scale Mobile LiDAR Dataset for Semantic Segmentation of Urban Roadways 作者:Wei ...
Superevents：面向基于事件的摄像机的原生语义分割

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
用Transformer进行图像语义分割，性能超最先进的卷积方法！

重磅干货,第一时间送达丰色发自凹非寺报道 | 量子位正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割. 因此上下文建模对图像语义分割的 ...
交替增强的语义分割和图像去噪的协同作用

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
基于GAN的自动驾驶汽车语义分割

重磅干货,第一时间送达语义分割是计算机视觉中的关键概念之一,语义分割允许计算机通过按类型对图像中的对象进行颜色编码.GAN建立在基于真实内容的基础上复制和生成原始内容的概念上,这使它们适合于在街景图 ...

路面语义分割

相关推荐