five

agentlans/high-quality-english-sentences

收藏
Hugging Face2024-10-01 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/high-quality-english-sentences
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从C4和FineWeb数据集中收集的高质量英语句子。这些句子经过仔细过滤和处理,以确保质量和唯一性。高质量意味着它们是可读的英语,不是垃圾邮件,尽管它们可能仍然存在拼写和语法错误。数据集的目标是为各种NLP任务创建一个高质量的英语句子数据集。

This dataset contains a collection of high-quality English sentences sourced from C4 and FineWeb. The sentences have been carefully filtered and processed to ensure quality and uniqueness. High-quality means theyre legible English and not spam, although they may still have spelling and grammar errors. The goal of the dataset is to create a high-quality dataset of diverse English sentences for various NLP tasks.
提供机构:
agentlans
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作