MoveNet和MediaPipe都是Google的开源项目,用于人体姿态估计和媒体处理。

MoveNet是一个为实时人体姿态估计设计的轻量级机器学习模型。它能够检测图像或视频中人的关键点,如脸部、手部、脚部等,并估计出其身体姿态。MoveNet有两种版本,一种是Lightning版,一种是Thunder版。这两种版本都可以检测到17个主要的身体关键点。它被设计为能够在各种设备上运行,包括移动设备和边缘设备,以支持各种应用,如健康健身、游戏、AR等。MoveNet提供了多种版本的模型,包括Lightning(针对速度优化)和Thunder(针对准确性优化)。

MediaPipe是一个跨平台的框架,用于构建和运行用于机器学习的多媒体处理管道。它提供了各种预先训练的模型和工具,可以用来处理音频、视频、图像和传感器数据。MediaPipe可用于构建各种应用,包括人脸检测、手势识别、物体检测、人体姿态估计等。MoveNet有两种版本,一种是Lightning版,一种是Thunder版。这两种版本都可以检测到17个主要的身体关键点。MediaPipe支持在各种平台和设备上运行,包括Android、iOS、Web和Desktop。

两者都被广泛应用于许多应用程序,包括健身应用、游戏、视频会议和许多其他与机器学习、计算机视觉和人工智能相关的应用。

什么是人体姿态估计

人体姿态估计,pose estimation,就是通过将图片中已检测到的人体关键点正确的联系起来,从而估计人体姿态。

人体关键点通常对应人体上有一定自由度的关节,比如颈、肩、肘、腕、腰、膝、踝等,如下图。

通过对人体关键点在三维空间相对位置的计算,来估计人体当前的姿态。

进一步,增加时间序列,看一段时间范围内人体关键点的位置变化,可以更加准确的检测姿态,估计目标未来时刻姿态,以及做更抽象的人体行为分析,比如判断一个人是否在打电话等等。