five

yasalma/tt-monocorpus

收藏
Hugging Face2026-03-29 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/yasalma/tt-monocorpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含四种类型的配置:图书(books)、法律(legal)、网页(web)和社交网络(social_networks)。图书和法律配置包含文本内容以及与内容相关的质量信息,网页配置包含网页的基本信息,如URL、标题、内容和作者等,而社交网络配置则包含社交网络帖子的相关信息。数据集适用于填充掩码(fill-mask)任务,使用的是tt语言,大小在1MB到10MB之间,并遵循MIT许可证。

The dataset consists of four configurations: books, legal, web, and social_networks. The books and legal configurations include text content along with associated quality information, the web configuration contains basic webpage details such as URL, title, content, and author, while the social_networks configuration includes information related to social media posts. The dataset is suitable for the fill-mask task, uses the tt language, is between 1MB and 10MB in size, and is licensed under the MIT license.
提供机构:
yasalma
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作