计算机视觉研究人员利用运动来发现视频中的物体-热讯机床网

计算机视觉研究人员利用运动来发现视频中的物体

来源：互联网 2023-07-31 17:59:22

卡内基梅隆大学机器人研究所的研究人员表明，计算机视觉系统比静止物体更容易检测运动中的物体，例如在街道上行驶的汽车或在人行横道上行走的人。

MartialHebert，卡耐基梅隆大学计算机学院院长、机器人研究所教授，机器人学博士。学生包志鹏与丰田研究院合作开展了该项目，丰田研究院赞助了这项工作。这项研究可以帮助计算机和机器人更好地自动检测视频中的物体。

物体识别是理解现实世界场景的基础，因此开发用于发现物体的运动引导方法可以改善自动驾驶。它还可能对零售机器人、机器人操作和家庭机器人有用。

(资料图)

卡耐基梅隆大学的研究人员与丰田、加州大学伯克利分校和诺伊大学厄巴纳-香槟分校的同事合作，开发了一个名为MoTok的框架，使计算机能够识别它看到的自行移动物体的特征。然后，MoTok使用这些特征来重建对象，使计算机能够以能够再次找到同一对象的方式发现该对象。

此后，研究人员扩展了这项工作，以便计算机能够以简化的虚拟化方式描绘这些特征。这一发展使计算机能够更好地识别高级特征，使计算机能够对对象进行分类，而不仅仅是识别特定对象。该论文目前可在arXiv预印本服务器上获取。

视觉化物体对人们来说是很自然的事——事实上，这种视觉是很自然的，很难反思。

“我们不知道如何做到这一点，”赫伯特说。

机器学习的进步有助于提高计算机识别物体的能力，尽管方式与人类有很大不同。然而，这些方法需要数万小时的包含标记对象的视频。它费力、昂贵，而且在实验室外容易出现故障。

“显然，这无法扩大规模，”赫伯特说。

我们需要的是一种通用方法，使计算机程序能够自行发现视频中的对象，而不需要标签或监督。正如MoTok所演示的，使用运动来引导对象发现是实现这一目标的一种方法。

“移动的物体很容易与静态背景区分开来，”鲍说，他在丰田研究所实习期间完成了这项研究。“运动还可以帮助定义具有多个运动部件的物体。车门可能会打开和关闭，车轮可能会旋转，但当汽车在街道上行驶时，所有部件一起移动可以帮助计算机程序更好地理解汽车的概念”。

该团队于6月在视觉与模式识别会议上发表了有关MoTok的论文。有关MoTok的更多信息请访问该项目的网站。

csgo第三方开箱网站安全吗五大真实可靠CS虚拟开箱网盘点

为你推荐