five

tds

收藏
Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/Aletheia-ng/tds
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模多语言文本数据集,包含12,201,126个训练样本,总大小约4.5GB。数据集包含丰富的文本特征和质量指标,主要字段包括:原始文本内容(text)、文本长度(length)、损失值(loss)、源语言(source_lang)与目标语言(target_lang)的标记长度及比例(token_ratio, word_ratio)、语言检测结果(detected_src_lang等)及置信度、模式匹配分数(pattern_score)和非洲语言特定评分(africomet_score)。数据集特别适用于多语言处理任务,包含语言识别、机器翻译质量评估、文本复杂度分析等应用场景。其显著特点是同时提供原始文本和多种计算指标,便于进行端到端的多语言NLP研究。
创建时间:
2026-03-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作