开放期刊系统

面向藏语语音情感识别的数据集构建与验证 ——以卫藏方言 TSEC-4528为例

柏梦琳, 黄荣兆, 边巴旺堆
西藏大学（信息科学技术学院）;西藏大学（国家级实验教学示范中心）

摘要

为解决藏语语音情感数据集稀缺问题，一个面向藏语语音情感数据集TSEC-4528（Tibetan Speech Emotion
Corpus-4528）被构建，涵盖语料设计、录制环境与过程及语音数据处理等内容，语音文件分为愤怒、恐惧、快乐、
中性、悲伤五大情感标签。通过录音法采集卫藏方言情感语音，经筛选保留4528条数据。经Kappa算法评价法分析，
样本Kappa值为0.74。在CNN、DNN、LSTM三种基础模型上，该数据集准确率分别为63.86%、69.43%、70.42%。
该数据集旨在补充藏语数据库，提升藏语语音情感识别泛化性，推动其在藏区的应用与发展。

关键词

藏语；语音情感识别；数据集构建；有效性验证

全文:

PDF

参考

[1]李良琦，张雪英，段淑斐，等.普通话多模态情

感语音数据库构建与评测[J].复旦学报（自然科学版），

2024，63（1）：18-31.

[2]FLEISS J L. Measuring nominal scale agreement

among many raters[J]. Psychological Bulletin, 1971, 76(5):

378-382. DOI:10.1037/h0031619.

[3]栾春.高校学生入党情感多模态数据集的构建与

应用[D].济南：山东师范大学，2024.

[4]Abdel-Hamid O, Mohamed A R, Jiang H, et al.

Convolutional neural networks for speech recognition [J].

IEEE/ACM Transactions on Audio, Speech, and Language

Processing, 2014, 22(10): 1533-1545. DOI: 10.1109/

TASLP.2014.2339736.

[5]LeCun Y, Bengio Y, Hinton G. Deep learning [J].

Nature, 2015, 521: 436-444. DOI: 10.1038/nature 14539.

[6]Wöllmer M, Kaiser M, Eyben F, et al. LSTMmodeling of continuous emotions in an audiovisual affect

recognition framework [J]. Image and Vision Computing,

2013, 31(2): 153-163. DOI: 10.1016/j.imavis.2012.03.001.

Refbacks

当前没有refback。

面向藏语语音情感识别的数据集构建与验证 ——以卫藏方言 TSEC-4528为例

摘要

关键词

全文:

参考

Refbacks

维图中文期刊

友情链接

联系维图

用户名
密码
记住我