26亿参数,智源、清华开源中文大规模预训练模型
机器之心报道
近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB。
清源 CPM 主页:https://cpm.baai.ac.cn/
清源 CPM Github 托管代码主页:https://github.com/TsinghuaAI/
模型规模大:本次发布的 CPM-LM 参数规模达 26 亿,预训练中文数据规模 100 GB,使用了 64 块 V100 GPU,训练时间约为 3 周;CPM-KG 的参数规模为 217 亿,预训练结构化知识图谱为 WikiData 全量数据,包含近 1300 个关系、8500 万实体、4.8 亿个事实三元组,使用了 8 块 V100 GPU 训练时间约为 2 周。
语料丰富多样:收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型。
学习能力强:能够在多种自然语言处理任务上进行零次学习或少次学习,并达到较好的效果。
行文自然流畅:基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果。
赞 (0)