首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于多模态视频描述的中国手语识别
摘    要:计算机视觉是目前我国新一代人工智能科技发展的重要方向,手语识别因其在连续性、复杂场景干扰等问题上的困难,导致其研究不仅可以解决听障人对无障碍信息沟通的真实需要,还可极大的促进视频理解及分析领域的快速发展,从而在安防、智能监控等方面也有很好的落地应用。通过比较国内外多种基于视频描述和分析的手势识别方法,给出了视频手语识别和基于深度学习的视频描述的策略分析。对使用原始视频帧、视频光流和目前先进的姿态估计技术等方法进行了比较,进而提出适用于中国手语视频数据的多模态描述策略、训练模型架构及时空注意力模型。使用具有深度信息辅助的视频描述及训练方法,通过实验验证BLEU-4值可达52.3,较前期使用的基础方法提高约20%。但由于该方法所使用的深度信息在现实情况下并不容易获得,因此研究由手机或电脑摄像头获取的普通RGB视频的描述及识别方法是未来的发展方向。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号