five

processed_data

收藏
Hugging Face2026-03-17 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/Aletheia-ng/processed_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多语言文本数据,具有12个特征字段,包括文本内容(text)、长度(length)、损失值(loss)、源语言与目标语言的标记长度(src_token_len, trg_token_len)、总标记长度(total_token_len)、标记与单词比例(token_ratio, word_ratio)、语言标识(source_lang, target_lang)以及质量评分(pattern_score, africomet_score)。数据集按分片(shard)组织,共156个分片,其中2个主分片各含50万样本,其余分片各含10万样本,总样本量约1560万,数据体积达3.26GB。适用于机器翻译质量评估、多语言文本分析及大规模自然语言处理任务。
创建时间:
2026-03-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作