基于 GPT 的跨模态智能视频通话技术:动态声源定位与降噪算法创新

柴 霄
身份证372301197706240322

摘要


在移动互联网与远程协作需求激增的背景下,视频通话技术的智能化升级成为学术界与产业界共同关注的焦点。本文针对传统视频通话在复杂声学环境下的降噪局限,提出一种融合视觉定位与音频信号处理的跨模态智能算法。通过构建动态声源定位模型与自适应滤波框架,结合 GPT 语言处理技术实现语音增强与文字生成的深度协同,有效解决多声源场景下的目标语音分离问题。实验结果表明,该技术在嘈杂环境下的语音清晰度提升 37%,信噪比优化达 15dB,为移动终端的高质量视频通话提供了突破性解决方案。研究成果对远程医疗、沉浸式会议、元宇宙交互等场景具有重要的应用价值,推动视频通信技术向智能化、人性化方向迈进。

关键词


视频通话;跨模态融合;动态声源定位;智能降噪;GPT 技术

全文:

PDF


参考


[1] ITU. Global Video Communication Report 2024[R]. Geneva: International Telecommunication Union, 2024.

[2] Delfosse N, et al. A Survey of Deep Learning for Speech Enhancement[J]. IEEE Signal Processing Magazine, 2023, 40(5): 56-69.

[3] Wang X, et al. Cross-Modal Fusion for Robust Speech Recognition in Noisy Environments[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2022, 30.

[4]陈晓明,等.基于视觉引导的麦克风阵列语音增强技术[J].电子学报,2023,51(7):1356-1363.

[5] Brown J, et al. GPT-4 for Real-Time Communication: Semantic-Aware Noise Cancellation[C]. Interspeech 2024, 2024: 3456-3460.


Refbacks

  • 当前没有refback。