让失语者在视频会议中用手语自然交流！

发布时间：2021-05-22 21:33:44 所属栏目：大数据来源：互联网

导读：为了主动适配主流视频会议系统所提供的会议解决方案，研究团队采取了一种轻量型、即插即用的模型。该模型占用CPU小，以最大程度降低对客户端通话质量的影响。为了减少输入的维度，采用从视频中分离所需信息，对每个帧进行分类。由于手语涉及用户的身体和手

为了主动适配主流视频会议系统所提供的会议解决方案，研究团队采取了一种轻量型、即插即用的模型。该模型占用CPU小，以最大程度降低对客户端通话质量的影响。为了减少输入的维度，采用从视频中分离所需信息，对每个帧进行分类。

“由于手语涉及用户的身体和手两部分，我们先运行了人体姿态估计模型PoseNet，这样可将输入从整个高清图像大幅分减到用户身体上的一小部分，如眼睛、鼻子、肩膀、手等关键特征点（landmarks)。然后，我们再将这些关键特征点用于计算每一帧光流(Optical Flow)，从而在不保留用户特定信息的前提下就能量化用户的姿态特征。每个姿态都通过人肩膀宽度进行归一化，以确保模型在距离摄像头一定距离内注意到用户的手势。最后，将光流通过视频的帧速率进行归一化，再传递给该模型。”

为了测试这种方法的有效性，研究团队采用了德语手语语料库（DGS），该语料库包含人体手势的长视频（含跨度注释）。基于训练好的线性回归模型基线，使用光流数预测人体手势何时发出。该模型基线可达到80%的准确度，每一帧仅需要约3μs（0.000003秒）的处理时间即可完成。通过将前50个帧的光流作为该模型的上下文，最终达到83.4%的准确度。

团队使用了长短期记忆网络（LSTM）架构，该模型可实现的91.5%的准确度，每一帧的处理时间约为3.5毫秒（0.0035秒）。

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

如何使用大数据驱动业	交通领域的物联网如何
2022大数据十大关键词	区块链为大数据分析提