加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.cn/)- 云渲染、网络安全、数据安全、数据分析、人体识别!
当前位置: 首页 > 大数据 > 正文

让失语者在视频会议中用手语自然交流!

发布时间:2021-05-22 21:33:44 所属栏目:大数据 来源:互联网
导读:为了主动适配主流视频会议系统所提供的会议解决方案,研究团队采取了一种轻量型、即插即用的模型。该模型占用CPU小,以最大程度降低对客户端通话质量的影响。为了减少输入的维度,采用从视频中分离所需信息,对每个帧进行分类。 由于手语涉及用户的身体和手

为了主动适配主流视频会议系统所提供的会议解决方案,研究团队采取了一种轻量型、即插即用的模型。该模型占用CPU小,以最大程度降低对客户端通话质量的影响。为了减少输入的维度,采用从视频中分离所需信息,对每个帧进行分类。

“由于手语涉及用户的身体和手两部分,我们先运行了人体姿态估计模型PoseNet,这样可将输入从整个高清图像大幅分减到用户身体上的一小部分,如眼睛、鼻子、肩膀、手等关键特征点(landmarks)。然后,我们再将这些关键特征点用于计算每一帧光流(Optical Flow),从而在不保留用户特定信息的前提下就能量化用户的姿态特征。每个姿态都通过人肩膀宽度进行归一化,以确保模型在距离摄像头一定距离内注意到用户的手势。最后,将光流通过视频的帧速率进行归一化,再传递给该模型。”

为了测试这种方法的有效性,研究团队采用了德语手语语料库(DGS),该语料库包含人体手势的长视频(含跨度注释)。基于训练好的线性回归模型基线,使用光流数预测人体手势何时发出。该模型基线可达到80%的准确度,每一帧仅需要约3μs(0.000003秒)的处理时间即可完成。通过将前50个帧的光流作为该模型的上下文,最终达到83.4%的准确度。

团队使用了长短期记忆网络(LSTM)架构,该模型可实现的91.5%的准确度,每一帧的处理时间约为3.5毫秒(0.0035秒)。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读