图像处理语义分割,图像 语义 分割 api
谷歌的语义图像分割模型DeepLab-v3已经开源,这项技术也被应用到谷歌Pixel 2和2XL手机上(包括后续机型)。该技术可以实现图像或视频的背景分割,给图像和视频处理APP带来了极大的便利。今天我们来说说什么是语义图像分割,以及它的实现原理。
视频抠像,了解谷歌DeepLab-v3+技术
说到抠图,很多朋友都会想到PhotoShop。的确,在PS的帮助下,我们可以准确地从复杂的背景图像中抠出人像。但是,如果要从视频中“挑选”人像,估计很多朋友都没听说过这项技术。
PS抠图是将静态照片的前后场景分开,而DeepLab-v3技术是对视频进行抠图,当然也可以对照片进行实时处理。比如之前某视频巨头网站测试的抠像技术(即时背景去除),以及谷歌Pixel 2和Pixel 2XL手机的人像功能,拍照后可以获得类似单反相机的景深效果。这些技术背后的工程是DeepLab-v3技术(图1)。
图1搭载DeepLab-v3技术的Pixel 2 XL手机
抠像技术的背后,认识谷歌DeepLab-v3+技术原理
如上所述,DeepLab-v3技术最大的特点就是可以键控。那么这个键控功能是如何实现的呢?
首先,我们来简单了解一下PS抠图技术。PS抠图是借助PS组件准确区分前景和背景,然后通过提取前景实现抠图(图2)。但是PS的精确抠图显然不是大多数人能胜任的,需要用户长期学习,精心操作。DeepLab-v3的键控原理类似,但学习过程是由人工智能技术完成的。作为最终用户,您可以一步一步地使用它。
图2 PS抠图需要很长时间去学习
那么DeepLab-v3是如何达到这种效果的呢?这主要得益于日益发展的人工智能技术。首先,谷歌将建立一个DeepLab模型,通过机器识别大量照片和视频,借助改进的卷积神经网络特征提取器、对象规模建模和同化前后内容的技术,加上先进的模型训练过程。通过如此大量的样本学习和训练,并借助人工智能自学习,DeepLab-v3技术可以准确识别图像或视频图像中的前景和背景物体,从而生成一套独特的算法。现在DeepLab-v3在Tensorflow上实现,使用部署在服务器端的卷积神经网络(CNN)的主干架构,可以让这项技术拥有更高效的处理速度和更准确的识别精度,可以快速准确地识别照片或视频中的各种元素(图3)。
图3深度实验室v3技术原理图
这里以像素2XL人像模式下的合成浅景深效果为例。Pixel 2XL手机开启人像模式后,集成的DeepLab-v3处理背景会自动分析照片的背景,如道路、天空、树木、人或狗等。并为每个像素分配语义标签。这样,算法就可以根据照片在实际环境中的显示效果,对指定的语义标签进行处理,比如模糊人物背后的场景,从而获得类似单反相机的景深效果(图4)。
图4 Pixel 2XL手机启用人像模式后的拍摄效果
与视频键控类似,DeepLab-v3也会分析视频中前景和背景的元素,并为每个像素分配语义标签。借助服务器端的卷积神经网络,可以实现对视频前景人物的准确识别,从而实现视频键控功能,提取的活动人物可以叠加在其他视频场景上,从而制作出类似绿屏MR特效的影片(图5)。
图5视频抠图
DeepLab-v3+,接地气的抠像技术
上面我们已经介绍了DeepLab-v3技术的原理,可以看到这项技术并不像技术本身的名字那么“高大上”,它在我们的生活中有很多应用。
比如,随着手机的普及和相机分辨率的提高,人们越来越希望手机能拍出更高质量的真实还原实际环境的照片。但是由于手机本身的超薄尺寸,仅仅通过手机摄像头本身是无法拍出和单反相机一样效果的照片的(因为手机没有足够的景深)。但是随着技术的发展,像DeepLab-v3这样的技术,利用人工智能、机器学习来分离主题,定制深度数据,让手机也能拍出类似单反效果的照片,显然会给我们的日常拍摄带来更多的便利(图6)。
图6用DeepLab-v3技术模糊照片背景,获得单反效果。
另一方面,短视频的流行使得越来越多的朋友喜欢在手机上欣赏和处理视频数据。DeepLab-v3支持的键控技术可以很好的满足手机上视频的处理。比如在DeepLab-v3的帮助下,你可以轻松地把自己挑选出来,叠加不同的视频背景,制作各种有趣的视频。当然,这种技术在电影特效上更有用,制片方可以做出更多的特效。