This is 爱范儿's Tencent Weibo homepage. Follow now!

爱范儿 收听

Beats of bits //发现创新价值的科技媒体。欢迎...

Google AI 「看」了几万部电影,只为能看穿你

2017-10-23

上周, AlphaGo 「终极版」 AlphaGo Zero 再次让世人惊讶,自学 3 天完胜李世乭,40 天登顶「世界围棋冠军」。
但这并不意味着人工智能有能力取代人类,套用机器人界的一句话:
五岁以上的人类能够做的事情,机器人都能轻松胜任,但学会走路,办不到。
简单来说,要 AI 识别人类的行为动作至今仍是一个难题,而四个月大的婴儿就能识别各种面部表情了。
Google 正在让自家的 AI 克服这个难题,最近 Google 发布了新的人类动作数据库集体 AVA(atomic visual actions),可以精准标注视频中的多人动作,而其学习的对象则是 YouTube 的海量视频。
图自:YouTube
据 Google Research Blog 介绍,AVA 的分析样本主要是 YouTube 中的影视类视频。Google 先从这些视频中收集大量不同的长序列内容,并从每个视频中截取 15 分钟,并将这些 15 分钟片段再平均分成 300 个不重叠的 3 秒片段,同时在采样时让动作顺序和时间顺序保持一致。

3 秒片段边界框标注示例,示例中只显示一个边界框

接下来则需要手动标记每个 3 秒片段中间帧边界框中的每个人,从 80 个原子动作(atomic action)中选择合适的标签(包括行走、握手、拥抱等)给这些人物行为进行标注。
sit
watch
kiss
Google 把这些行为分成了三组,分别是姿势/移动动作、人物交互和人际互动。目前 AVA 已经分析了 570000 个视频片段,标记了 96000 个人类动作,并生成了 21000 个动作标签。
AVA 的数据分析,会对每个视频片段的每个人物动作进行识别,也发现了人类的的行为往往不是单一的。
统计至少带有两个动作标签的人物数据,就可以分析人类不同动作一起出现的频率,在 AVA 的文档中称之为共现模式(co-occurrence pattern) 。
从 AVA 的数据可以看到,打架和武术、亲吻和拥抱、唱歌和弹奏乐器,这些都是比较常见的共现模式。
同时为了尽可能覆盖更大范围的人类行为, AVA 所分析的电影或剧集,采用了不同国家和类型的影片,这也可能是为了避免出现性别歧视和种族歧视。早在 2015 年,Google Photos 就曾因为误把两名黑人标注为「大猩猩」(Gorilla)而备受诟病。
图自: Twitter
Google 还将对外开放这一数据库,最终目的是提高 AI 系统的「社交视觉智能」,从而了解人类正在做什么,甚至预测人类下一步要做什么。
当然目前距离这个目标还很遥远,正如 Google 软件工程师 Chunhui Gu 和 David Ross 在介绍 AVA 的文章中写道:
教会机器去识别视频中的人类行为是发展计算机视觉的一大基本难题,但这对于个人视频搜索和发现、体育分析和手势界面等应用至关重要。
尽管过去几年在图像分类和查找物体方面取得了令人激动的突破,但识别人类行为仍然是一个巨大的挑战。
虽然柯洁称「对于 AlphaGo 的自我进步来说人类太多余了」,可人脑有 800 亿个神经元细胞、100 万亿个连接,AI 神经网络要想达到大脑的认知水平也绝非易事。
目前计算机视觉技术的发展也主要集中在静态图像领域。
Google 从 2006 年开始用深度学习算法代替人工识别,Google Photos 现在已经可以识别出猫狗的照片并自动分类。
从 a 到 b 分别是 Google Creatism 系统从街景图到最终作品的全过程
Google 的人工智能实验室 DeepMind 正在利用人工智能将 Google 街景图制作成专业的摄影作品,其水准甚至已经可以媲美专业摄影师。
http://mmbiz.qpic.cn/mmbiz_jpg/dyDu14T9ZVCCoK9HO37fiaUFKTMkXBDeWDMlLmXpKtIZ4FUXErIMA96OELpJicA9RjHdBUaPU2mvaEPp6zvuK9ZQ/0?wx_fmt=jp
正在加载...

扫描二维码关注爱范儿官方微信账号