agentlans/common-crawl-sample
收藏Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/common-crawl-sample
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从著名的Common Crawl数据集中随机抽取的一个小样本,包含多种语言的文本数据。每个语言的文本被分为训练集和测试集,测试集是各语言测试集的并集。数据集未经过滤,可能包含不良内容、虚假信息和个人身份信息。
该数据集是从著名的Common Crawl数据集中随机抽取的一个小样本,包含多种语言的文本数据。每个语言的文本被分为训练集和测试集,测试集是各语言测试集的并集。数据集未经过滤,可能包含不良内容、虚假信息和个人身份信息。
提供机构:
agentlans
原始信息汇总
数据集概述
数据集配置
- 默认配置:
all - 配置列表: 包含多个语言配置,每个配置对应不同的语言代码,如
af,am,ar等。 - 数据文件: 每个语言配置下包含训练集和测试集文件,格式为
.json.gz。
数据集内容
- 数据来源: 从Common Crawl下载的60个随机WET文件。
- 数据筛选: 保留长度在500到5000字符之间的文本,仅包含唯一文本。
- 语言识别: 使用GCLD3 Python包进行语言代码分配,使用fastlangid包对中文进行分类。
- 测试集: 每个语言配置中随机选择10%的文本作为测试集。
数据集限制
- 语言代表性: 某些语言可能过度代表。
- 样本代表性: 网页样本可能不代表实际语言使用。
- 数据质量: 包含大量垃圾邮件和重复内容,可能影响语言检测准确性。
- 分类错误: 存在语言分类错误,如将台湾繁体中文错误分类为粤语。
- 训练与测试集独立性: 训练和测试集可能包含来自同一网页的不同段落,影响独立性。
警告
- 内容风险: 数据集包含未经筛选的互联网内容,可能包含不当信息、虚假信息和个人识别信息。
- 使用建议: 建议用户根据需求进行进一步的过滤和处理。



