好未来开源近600小时中英文混合语音数据集

近日,好未来开放了一批长达587小时教学场景中的中英文混合语音数据集。

  数据集下载地址:https://ai.100tal.com/dataset

  数据集详情:

数据规模 587小时音频
采样率 16KHz
采样位声 16bit
录制设备 普通麦克风
说话人 200+
录制时间 2019年
数据格式 音频:.wav;标注结果:.txt
音频长度 1~60s
数据类型 英语课教师授课音频

该数据集源自语种混合最具代表性场景之一——教师英语授课场景。此次开放的数据集是迄今教育行业最大的语音开源数据集之一,也是目前已知全球较大的中英文混合场景开源数据集。

在2020年3月,好未来还开放了第一批教育开源数据集——“小学低年级算式数据集”。该数据集包括33550张算式图像,均来源于小学1~3年级学生的数学练习册和作业,涵盖各类数学口算题目类型。随后,好未来又陆续开放了手写中英文、手写公式、中文语音识别、语音情感等多个数据集。

(0)

相关推荐