好未来开源近600小时中英文混合语音数据集
近日,好未来开放了一批长达587小时教学场景中的中英文混合语音数据集。
数据集下载地址:https://ai.100tal.com/dataset
数据集详情:
数据规模 | 587小时音频 |
采样率 | 16KHz |
采样位声 | 16bit |
录制设备 | 普通麦克风 |
说话人 | 200+ |
录制时间 | 2019年 |
数据格式 | 音频:.wav;标注结果:.txt |
音频长度 | 1~60s |
数据类型 | 英语课教师授课音频 |
该数据集源自语种混合最具代表性场景之一——教师英语授课场景。此次开放的数据集是迄今教育行业最大的语音开源数据集之一,也是目前已知全球较大的中英文混合场景开源数据集。
在2020年3月,好未来还开放了第一批教育开源数据集——“小学低年级算式数据集”。该数据集包括33550张算式图像,均来源于小学1~3年级学生的数学练习册和作业,涵盖各类数学口算题目类型。随后,好未来又陆续开放了手写中英文、手写公式、中文语音识别、语音情感等多个数据集。
赞 (0)