undertheseanlp/UTS_Text
收藏Hugging Face2023-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/undertheseanlp/UTS_Text
下载链接
链接失效反馈官方服务:
资源简介:
UTS_Text数据集是一个包含100,000个句子的集合,这些句子来源于各种新闻文章。数据集中的句子长度分布广泛,其中5,000个句子的长度在50到150之间,另外5,000个句子的长度在20到50之间。该数据集主要用于训练和测试自然语言处理模型,特别适用于文本生成任务。数据集支持的语言为越南语,许可证为Apache 2.0。
提供机构:
undertheseanlp
原始信息汇总
UTS_Text 数据集概述
数据集描述
数据集总结
UTS_Text 数据集包含100,000个来自不同新闻文章的句子。其中,5,000个句子的长度在50到150之间,另外5,000个句子的长度在20到50之间。这种句子长度的分布提供了多样化的文本样本,适用于训练和测试自然语言处理模型。
支持的任务和排行榜
语言
数据集语言为越南语(vi)。
数据集结构
数据实例
数据字段
数据分割
| 名称 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| small | 1600 | 200 | 200 |
| base | 8000 | 1000 | 1000 |
| large | 95000 | 2500 | 2500 |
数据集创建
精选理由
源数据
注释
附加信息
许可信息
数据集根据Apache 2.0许可证发布。



