中文互联网基础语料3.0正式发布

中文互联网基础语料 3.0 今日发布,中国网络空间安全协会会同国家互联网应急中心等单位,在前期发布中文互联网基础语料1.0和2.0的基础上,依托网安协会人工智能安全治理专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料3.0。本批语料扩大了优质中文网站信源范围,加强了违法不良信息过滤,数据量为120GB,可为大模型训练和人工智能发展提供可信数据支持。用户登录中国网络空间安全协会网站即可下载相关语料。

—— 中国网安协会
 
 
Back to Top