预处理后数据集
收藏科学数据银行2022-03-18 更新2026-04-23 收录
下载链接:
https://www.scidb.cn/en/detail?dataSetId=9f49355c638846f2985c17f4623b61c7
下载链接
链接失效反馈官方服务:
资源简介:
对XML格式的语料集进行解析和去噪处理,提取句子所属的文章ID、章节ID、语句文本、语句标签、句子序号,并清除无效的噪声数据,如少数人为错误(句子长度过短、句子内容为公式符号等)。预处理后所得有效数据为34 590条。
提供机构:
Yunpeng Cui
创建时间:
2022-03-18



