原来冰冷的AI,还有如此温暖的一面

这是shadow老师《人工智能设计》课程学生的投稿

人工智能设计,一门自己生长的课

宋沫

@shadow 老师老师!想投稿一篇关于SpringVibe的文章在mixlab,这次保证不鸽辽!

已经拖稿2个多月的总结,终于完成了。。。这个项目是黑客松作品,为我们展现了AI、人文科技的无限可能

shadow

opus

听图团队的五位成员是今年夏天 X Academy 的学员(其中三位同学是shadow的亲学生),他们来自天南地北,从事不同的专业,甚至拥有不同的国籍。在一周的通力合作和爆肝下,他们的网站SpringVibe取得了hackathon(黑客马拉松)软件赛道第一名的好成绩

👆🏻戳视频快速浏览作品

"It's spring and I'm blind. Please help."
“今天是春天,但是我却看不到。”
看不见春天的盲人,是我们设计建造这个网站的灵感来源。我们的世界有万千光彩:春天盎然的绿意、秋天满目的金黄...,但视障群体的世界,却是色彩单一、模糊不清、或没有色彩的。
由此,在hackathon正式开始前的构思阶段,经过一阵头脑风暴,我们便迅速敲定出了一个hackathon项目的大方向:
针对摄影展的图片与声音匹配,让视障群体用听觉感受视觉。在调动大家更多感官感受艺术作品的同时,还能够给视觉障碍者提供感受图像的新方式。
网站的主要功能分为两个:首页的摄影展厅和“Try now”界面的在线图像与声音匹配。
“用听觉感受世界”,其实是目前有很多人在做的。例如说有声漫画或是广播剧,其实都是在从听觉的角度来描绘世界。在我们的前期调研阶段,我们也发现了蛮多的专注于声音的网站,例如说有一个网站就收集了世界各地的森林的声音,并把他们都标注在了地图上。

timberfestival.org.uk/soundsoftheforest-soundmap

但我们发现,主要针对于视障群体的“视觉与听觉的转换”,其实是很少的。中国大约有1700多万的视障人士,这便意味着:每90个人中就有一人处于灰暗的世界。他们除了基础的衣食住行需要被满足外,我们也应当升级互联网产品的无障碍设计来丰富他们的精神文化生活。
于是,在网站的UI设计中,我们参考了WCAG和Google的材料设计给出的视觉无障碍指南、万维网联盟(W3C) 的无障碍网页内容指引2.0,并使用了内置屏幕阅读器,来帮助视障群体更好的使用这个网站。
在想法逐渐落地的过程中,我们发现,由于训练CV(计算机视觉)模型来识别图像主体并进行分类是需要较长时间的,所以在hackathon期间实现所有类型的摄影展的图像识别、分类、并与声音库中的声音进行匹配是不现实的。于是我们将范围缩小到了“针对野生动物摄影展的图片与声音匹配”,因为野生动物的叫声与环境音都更加丰富与生动。
我们的匹配流程主要分为了三个阶段:
    - 识别动物
    - 推断动物的动态或静态
    - 匹配动物的声音与环境音
前两个阶段的技术要点都是CV,我们训练了Faster R-CNN和ResNet50这两个深度学习模型来识别动物。为了匹配一个更真实的声效,我们还开发了一套基于规则的(rule-based)可以将动物的动静态推断出来的模型。
动物的声音与环境音主要是从一个叫Animal Sound Archive的网站上下载。

www.gbif.org/zh/dataset/b7ec1bf8-819b-11e2-bad2-00145eb45e9a/metrics

这个网站上有超级多的动物的声音,并且将动物的种类划分的很细致。

如此一来,当用户上传一张动物的照片后,SpringVibe不但可以识别出该动物,还能推断出该动物当前的状态(如捕食中或者被捕食中,群体行动亦或单独行动),并给这张图片匹配上正确的、生动的声音。(支持多个相同动物,及两种不同的动物。)
这个就是我们的Try now界面,用户可以从本地上传图片,并得到与之匹配的音频输出。我们的上传和播放键都非常的大,视障群体使用起来会很方便。
我们的UI是治愈设计的风格,贴合野生动物摄影展这一主题,很有大自然的气息。并且很重要的一点是,我们没有使用任何的模版!所以前端的工作量真的有很大。
在首页,我们设置了一个“摄影展厅”的功能:用户可以戳图片来聆听声音。此外,我们给所有图片都添加了注释,视觉障碍者结合屏幕阅读器能够无障碍地使用我们的网站。
(0)

相关推荐