5月20日,數據堂推出AI數據開源計劃,面向高校和學術機構等非商業組織群體,首次開源的數據集為:1505小時中文普通話語音數據集。
該數據集的錄音內容,由6408名來自中國不同地區的錄音人參與錄制,有超過30萬條口語化句子。句準確率達98%以上。
從評測效果來看,通過運行GMM-HMM混合模型和DNN-HMM混合模型,基于數據堂開源數據集【1505小時中文普通話語音數據集】的語音識別基準實驗完成,其識別準確率如下所示:
aidatatang_1505zh(完整的1505小時中文普通話語音數據集)
Aidatatang_200zh(基于完整數據集精選的200小時中文普通話語音數據集)
注:
CER(Character Error Rate)指字識別錯誤率。
SER(Sentence Error Rate)指句識別錯誤率。
GMM-HMM指混合高斯模型-隱馬爾科夫模型。
TDNN(Time-delay Neural Networks)指時延神經網絡模型。
CHAIN(Chain model)是指鏈式模型。
基于1505小時中文普通話語音數據集,數據堂精選了200小時中文普通話語音數據在OpenSLR發布,并在Kaldi平臺提供了訓練代碼,對應的訓練方法也在github平臺發布。
據了解,數據堂將持續提供面向學術研究領域開源不同領域、不同應用場景的AI數據集。
開源數據獲取方式:數據獲取請登錄數據堂官方網站