processed_data
收藏Hugging Face2026-03-17 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/Aletheia-ng/processed_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多语言文本数据,具有12个特征字段,包括文本内容(text)、长度(length)、损失值(loss)、源语言与目标语言的标记长度(src_token_len, trg_token_len)、总标记长度(total_token_len)、标记与单词比例(token_ratio, word_ratio)、语言标识(source_lang, target_lang)以及质量评分(pattern_score, africomet_score)。数据集按分片(shard)组织,共156个分片,其中2个主分片各含50万样本,其余分片各含10万样本,总样本量约1560万,数据体积达3.26GB。适用于机器翻译质量评估、多语言文本分析及大规模自然语言处理任务。
创建时间:
2026-03-16



