processed_data

Hugging Face2026-03-17 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/Aletheia-ng/processed_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多语言文本数据，具有12个特征字段，包括文本内容（text）、长度（length）、损失值（loss）、源语言与目标语言的标记长度（src_token_len, trg_token_len）、总标记长度（total_token_len）、标记与单词比例（token_ratio, word_ratio）、语言标识（source_lang, target_lang）以及质量评分（pattern_score, africomet_score）。数据集按分片（shard）组织，共156个分片，其中2个主分片各含50万样本，其余分片各含10万样本，总样本量约1560万，数据体积达3.26GB。适用于机器翻译质量评估、多语言文本分析及大规模自然语言处理任务。

创建时间：

2026-03-16

5,000+

优质数据集

54 个

任务类型

进入经典数据集