开放期刊系统

基于 GPT 的跨模态智能视频通话技术：动态声源定位与降噪算法创新

柴霄
身份证372301197706240322

摘要

在移动互联网与远程协作需求激增的背景下，视频通话技术的智能化升级成为学术界与产业界共同关注的焦点。本文针对传统视频通话在复杂声学环境下的降噪局限，提出一种融合视觉定位与音频信号处理的跨模态智能算法。通过构建动态声源定位模型与自适应滤波框架，结合 GPT 语言处理技术实现语音增强与文字生成的深度协同，有效解决多声源场景下的目标语音分离问题。实验结果表明，该技术在嘈杂环境下的语音清晰度提升 37%，信噪比优化达 15dB，为移动终端的高质量视频通话提供了突破性解决方案。研究成果对远程医疗、沉浸式会议、元宇宙交互等场景具有重要的应用价值，推动视频通信技术向智能化、人性化方向迈进。

关键词

视频通话；跨模态融合；动态声源定位；智能降噪；GPT 技术

全文:

PDF

参考

[1] ITU. Global Video Communication Report 2024[R]. Geneva: International Telecommunication Union, 2024.

[2] Delfosse N, et al. A Survey of Deep Learning for Speech Enhancement[J]. IEEE Signal Processing Magazine, 2023, 40(5): 56-69.

[3] Wang X, et al. Cross-Modal Fusion for Robust Speech Recognition in Noisy Environments[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2022, 30.

[4]陈晓明,等.基于视觉引导的麦克风阵列语音增强技术[J].电子学报，2023,51(7):1356-1363.

[5] Brown J, et al. GPT-4 for Real-Time Communication: Semantic-Aware Noise Cancellation[C]. Interspeech 2024, 2024: 3456-3460.

Refbacks

当前没有refback。

基于 GPT 的跨模态智能视频通话技术：动态声源定位与降噪算法创新

摘要

关键词

全文:

参考

Refbacks

维图中文期刊

友情链接

联系维图

用户名
密码
记住我