设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

谷歌开源基于 ML 的手部跟踪算法:手机端实时检测,多个手势同时捕捉(2)

发布时间:2019-08-22 12:07 所属栏目:19 来源:杨鲤萍
导读:在预测的手部骨架之上,我们应用一种简单的算法来推导手势。首先,每个手指的状态,例如弯曲或竖直,是由关节的累积角度决定的。于是,我们将一组手指状态映射到一组预定义的手势上。这种简单但有效的技术可以使我

在预测的手部骨架之上,我们应用一种简单的算法来推导手势。首先,每个手指的状态,例如弯曲或竖直,是由关节的累积角度决定的。于是,我们将一组手指状态映射到一组预定义的手势上。这种简单但有效的技术可以使我们在保证检测质量的情况下来估计基本的静态手势。现有的架构支持多种文化的手势计数,如美国、欧洲和中国,以及各种手势标志,包括「拇指向上」、紧握拳头、「OK」、「摇滚」和「蜘蛛侠」。

谷歌开源基于 ML 的手部跟踪算法:手机端实时检测,多个手势同时捕捉

图 6 不同手势识别结果

通过 MediaPipe 实现

通过使用 MediaPipe,我们可以将该感知架构建模称模块化组件的有向图(https://en.wikipedia.org/wiki/Directed_graph),称为 Calculators(计算器)。Mediapipe 附带了一组可扩展的计算器,可用于解决各种设备和平台的模型推理、媒体处理算法以及数据转换等任务。而像裁剪、渲染和神经网络计算这样的单个计算器,可以独立在 GPU 上执行。例如,我们在大多数现代手机上采用 TFLite GPU 推理。

我们用于手部跟踪的 MediaPipe 架构图如下所示。该图由两个子图组成——一个用于手检测,另一个用于手部关键点(即标志性)计算。MediaPipe 提供的一个关键优化是只在必要时运行掌上检测器(因此该检测器的运行频率很低),从而节省了大量的计算时间。

我们通过从当前帧中计算所得的手部关键点来推断后续视频帧中的手部位置实现手部跟踪,从而无需在每个帧上运行掌上检测器。为了获得鲁棒性,手部跟踪器模型输出一个额外的标量,以获取一只手在输入裁剪中存在并合理对齐的置信度。只有当置信度低于一定的阈值时,才能将手部检测模型重新应用到整个帧中。

谷歌开源基于 ML 的手部跟踪算法:手机端实时检测,多个手势同时捕捉

图 7 手部标志模型的输出(REJECT_HAND_FLAG)控制何时触发手部检测模型。这种行为是通过 MediaPipe 强大的同步构建块实现的,从而实现机器学习架构的高性能和最佳吞吐量。

该高效的机器学习解决方案可以实时运行,并且跨越各种不同的平台和形式因素。它所包含的复杂性要比上面的简化描述要复杂得多。为此,我们将在 MediaPipe 框架中开源上述手部跟踪与手势识别方法,并附带相关的端到端使用场景和源代码(https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md),这为研究人员和开发人员提供了一个完整的堆栈,基于我们的模型可以对新思想进行实验和原型设计。

未来方向

我们计划通过更强大和稳定的跟踪来扩展这项技术,扩大我们能够可靠检测的手势数量,并支持动态手势的及时展开。我们相信,发布这项技术可以激发广大研究和开发人员的新创意和应用。我们很期待看到你的创新!

谷歌开源基于 ML 的手部跟踪算法:手机端实时检测,多个手势同时捕捉

*MediaPipe

MediaPipe 是一个跨平台框架,用于构建应用于机器学习流程中的多模态(例如,视频,音频,任何时间序列数据)框架。通过使用 MediaPipe,我们可以将感知流程构建为模块化组件的图形,包括:推理模型(例如,TensorFlow,TFLite)和媒体处理功能。

MediaPipe 开源地址:https://github.com/google/mediapipe/

原文链接:

https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html

手势识别开源地址:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读