车镜厂家
免费服务热线

Free service

hotline

010-00000000
车镜厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

AI管理个人视频分享快乐是否更简单_[#第一枪]

发布时间:2021-06-07 18:22:05 阅读: 来源:车镜厂家

雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】

如今,人们可以通过录制视频的方式与朋友和爱人分享美好时光,这已经不再是什么新鲜事。然而,每个拥有大量视频素材的人都会告诉你这样一个事实:遍历所有原始视频素材,寻找值得重温,或者适合与家人朋友共享的完美视频片段,是一项十分耗时的工作。

由于谷歌图片会自动在视频中寻找具有纪念意义的画面,并创建动画,所以,像孩子吹灭蜡烛的瞬间,或者朋友跳进泳池的瞬间,诸如此类的画面都可以被快速捕捉。这样一来,与朋友和家人分享美妙瞬间就容易多了。

在反复研究了用于时序动作定位(TAL)的R-CNN架构之后,自动化方面的一些难题已解决。这些难题的棘手之处在于,从千万种不同排列的数据中完成辨认或分类。因此,我们建立了TALNet,它能在一定时间内识别大量的短暂性动作。目前来说,相比起其他方法,TALNet完成这个任务的用时最短。它还允许谷歌图片推荐视频的最佳画面,让你可以与朋友和家人分享。

雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】

想要识别视频中的美妙瞬间,第一步是将人们可能希望保留的动作瞬间集合起来,比如吹灭生日蜡烛,猫摇尾巴等。然后,我们将这些带有特定动作的视频片段进行注释,以创建一个大型培训数据库。之后,我们会要求评定员找出并标记所有时刻。最后,模型经过这个带注释的数据集训练,之后就可以在全新的视频中识别所需的瞬间。

识别这些动作属于计算机视觉领域,它与生活中常见的对象识别一样,属于视觉检测的范畴。然而,TAL的目的是,在一个冗长且未修剪的视频里,标识每个动作的开始和结束时间,并给不同的动作贴上标签(如“吹灭蜡烛”)。它更侧重在一维视频帧序列中捕捉包含动作的时间片段。

我们使用的TALNet方法是受到了R-CNN二维图像对象检测框架的启发。因此,要理解TALNet,首先要理解R-CNN。下图演示了如何使用R-CNN架构进行对象检测。

雷锋网(公众号:雷锋网)注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】

第一步是生成一组对象推荐,可以对图像中的对象进行分类。在此之前,要先通过卷积神经网络(CNN)将输入图像转换为二维特征图。然后,对象推荐网络围绕候选对象生成包围框。这些框是在多个尺度上生成的,以便应对自然图像中对象大小的不确定性。在对象确定之后,使用深度神经网络(DNN)将边界框中的对象分类为特定对象,比如“人”、“自行车”等。

时序动作定位是用一种类似于R-CNN的方式完成的。首先将视频输入帧序列转换为编码场景的一维特征映射序列。此映射被传递到一个视频段推荐网络,该网络生成候选段,每个候选段由开始和结束时间来定义。然后,DNN对视频片段中的动作进行分类,比如灌篮、传球。

雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】

虽然时序动作定位可以看作是对象检测的一维对应物,但是,处理动作定位有一些值得注意的问题。为了将R-CNN方法应用到动作定位领域,我们特意解决了三个问题,并重新设计了体系结构来专门解决这些问题。

1.动作在持续时间方面变量更大

动作执行的时间范围变化很大,可以从几秒钟到几分钟不等。对于长时间的动作,理解动作的每一个框架并不重要。相反,我们可以通过快速浏览视频,使用扩展的时间卷积来更好地处理这个动作。这种方法允许TALNet搜索视频中的动作,同时根据既定的膨胀率跳过交替帧。根据锚段的长度自动选择不同速率的视频进行分析,可以有效地识别大至整个视频或短至一秒的动作。

2.目标动作前后的内容很重要目标动作前后的内容包含了定位和分类的关键信息,这里说的是时间前后,而不是空间前后。因此,我们在时间内容上进行了编码,方法是在推荐生成和分类生成的阶段,将目标段在时间前后上按一定比例扩展。

3.目标动作需要多模式输入

目标动作由外观、运动轨迹,有时甚至是音频信息来定义。因此,为了获得最佳的结果,考虑特征的多种形式是很重要的。我们对推荐生成网络和分类网络都使用了一种后期融合方案,其中每种模式都有一个单独的推荐生成网络,这些网络的输出组合在一起才能得到最终的推荐集。

这些推荐使用单独的分类网络对每种模式进行分类,然后经过综合平均得到最终的预测。由于这些改进,在THUMOS的14检测基准上,TALNet在动作推荐和行动定位方面表现最佳,并在ActivityNet项目中展示了其竞争力。现在,每当人们将视频保存到谷歌图片中时,模型就会开始识别这些视频并创建动画来共享。

我们正在不断完善,使用更多的数据、特性和模型来提高动作定位的精度。时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平,同时为人们提供更多方式来追忆他们宝贵的记忆。

雷锋网注:本文编译自Google AI Blog

【封面图片来源:网站名Google AI Blog,所有者:Sudheendra Vijayanarasimhan and David Ross】

真空保鲜袋货源

陶瓷类义齿材料

擦地拖鞋

相关阅读