面向藏语语音情感识别的数据集构建与验证 ——以卫藏方言 TSEC-4528为例
摘要
Corpus-4528)被构建,涵盖语料设计、录制环境与过程及语音数据处理等内容,语音文件分为愤怒、恐惧、快乐、
中性、悲伤五大情感标签。通过录音法采集卫藏方言情感语音,经筛选保留4528条数据。经Kappa算法评价法分析,
样本Kappa值为0.74。在CNN、DNN、LSTM三种基础模型上,该数据集准确率分别为63.86%、69.43%、70.42%。
该数据集旨在补充藏语数据库,提升藏语语音情感识别泛化性,推动其在藏区的应用与发展。
关键词
全文:
PDF参考
[1]李良琦,张雪英,段淑斐,等.普通话多模态情
感语音数据库构建与评测[J].复旦学报(自然科学版),
2024,63(1):18-31.
[2]FLEISS J L. Measuring nominal scale agreement
among many raters[J]. Psychological Bulletin, 1971, 76(5):
378-382. DOI:10.1037/h0031619.
[3]栾春.高校学生入党情感多模态数据集的构建与
应用[D].济南:山东师范大学,2024.
[4]Abdel-Hamid O, Mohamed A R, Jiang H, et al.
Convolutional neural networks for speech recognition [J].
IEEE/ACM Transactions on Audio, Speech, and Language
Processing, 2014, 22(10): 1533-1545. DOI: 10.1109/
TASLP.2014.2339736.
[5]LeCun Y, Bengio Y, Hinton G. Deep learning [J].
Nature, 2015, 521: 436-444. DOI: 10.1038/nature 14539.
[6]Wöllmer M, Kaiser M, Eyben F, et al. LSTMmodeling of continuous emotions in an audiovisual affect
recognition framework [J]. Image and Vision Computing,
2013, 31(2): 153-163. DOI: 10.1016/j.imavis.2012.03.001.
Refbacks
- 当前没有refback。
