five

undertheseanlp/UTS_Text

收藏
Hugging Face2023-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/undertheseanlp/UTS_Text
下载链接
链接失效反馈
官方服务:
资源简介:
UTS_Text数据集是一个包含100,000个句子的集合,这些句子来源于各种新闻文章。数据集中的句子长度分布广泛,其中5,000个句子的长度在50到150之间,另外5,000个句子的长度在20到50之间。该数据集主要用于训练和测试自然语言处理模型,特别适用于文本生成任务。数据集支持的语言为越南语,许可证为Apache 2.0。
提供机构:
undertheseanlp
原始信息汇总

UTS_Text 数据集概述

数据集描述

数据集总结

UTS_Text 数据集包含100,000个来自不同新闻文章的句子。其中,5,000个句子的长度在50到150之间,另外5,000个句子的长度在20到50之间。这种句子长度的分布提供了多样化的文本样本,适用于训练和测试自然语言处理模型。

支持的任务和排行榜

语言

数据集语言为越南语(vi)。

数据集结构

数据实例

数据字段

数据分割

名称 训练集 验证集 测试集
small 1600 200 200
base 8000 1000 1000
large 95000 2500 2500

数据集创建

精选理由

源数据

注释

附加信息

许可信息

数据集根据Apache 2.0许可证发布。

引用信息

贡献

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作