tds
收藏Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/Aletheia-ng/tds
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个大规模多语言文本数据集,包含12,201,126个训练样本,总大小约4.5GB。数据集包含丰富的文本特征和质量指标,主要字段包括:原始文本内容(text)、文本长度(length)、损失值(loss)、源语言(source_lang)与目标语言(target_lang)的标记长度及比例(token_ratio, word_ratio)、语言检测结果(detected_src_lang等)及置信度、模式匹配分数(pattern_score)和非洲语言特定评分(africomet_score)。数据集特别适用于多语言处理任务,包含语言识别、机器翻译质量评估、文本复杂度分析等应用场景。其显著特点是同时提供原始文本和多种计算指标,便于进行端到端的多语言NLP研究。
创建时间:
2026-03-19



