agentlans/common-crawl-sample

收藏

Hugging Face2024-05-13 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/agentlans/common-crawl-sample

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从著名的Common Crawl数据集中随机抽取的一个小样本，包含多种语言的文本数据。每个语言的文本被分为训练集和测试集，测试集是各语言测试集的并集。数据集未经过滤，可能包含不良内容、虚假信息和个人身份信息。

该数据集是从著名的Common Crawl数据集中随机抽取的一个小样本，包含多种语言的文本数据。每个语言的文本被分为训练集和测试集，测试集是各语言测试集的并集。数据集未经过滤，可能包含不良内容、虚假信息和个人身份信息。

提供机构：

agentlans

原始信息汇总

数据集概述

数据集配置

默认配置: all
配置列表: 包含多个语言配置，每个配置对应不同的语言代码，如af, am, ar等。
数据文件: 每个语言配置下包含训练集和测试集文件，格式为.json.gz。

数据集内容

数据来源: 从Common Crawl下载的60个随机WET文件。
数据筛选: 保留长度在500到5000字符之间的文本，仅包含唯一文本。
语言识别: 使用GCLD3 Python包进行语言代码分配，使用fastlangid包对中文进行分类。
测试集: 每个语言配置中随机选择10%的文本作为测试集。

数据集限制

语言代表性: 某些语言可能过度代表。
样本代表性: 网页样本可能不代表实际语言使用。
数据质量: 包含大量垃圾邮件和重复内容，可能影响语言检测准确性。
分类错误: 存在语言分类错误，如将台湾繁体中文错误分类为粤语。
训练与测试集独立性: 训练和测试集可能包含来自同一网页的不同段落，影响独立性。

警告

内容风险: 数据集包含未经筛选的互联网内容，可能包含不当信息、虚假信息和个人识别信息。
使用建议: 建议用户根据需求进行进一步的过滤和处理。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作