community-datasets/telugu_books

Name: community-datasets/telugu_books
Creator: community-datasets
Published: 2024-01-18 11:16:59
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/telugu_books

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过从teluguone.com网站上抓取泰卢固小说创建的，可用于自然语言处理任务，如主题建模、词嵌入、迁移学习等。数据集包含25794个训练样本，总大小为315076011字节。数据集的创建和注释由专家Anusha Motamarri完成。

提供机构：

community-datasets

原始信息汇总

数据集卡片：TeluguBooks

数据集描述

数据集摘要

该数据集是通过抓取teluguone.com网站上的泰卢固语小说创建的，可用于自然语言处理任务，如主题建模、词嵌入、迁移学习等。

支持的任务和排行榜

任务类别:
- 文本生成
- 填充掩码
任务ID:
- 语言建模
- 掩码语言建模

语言

语言: 泰卢固语 (te)

数据集结构

数据实例

更多信息需要: [More Information Needed]

数据字段

文本: 小说中的句子

数据分割

训练集:
- 字节数: 315076011
- 样本数: 25794

数据集创建

策划理由

更多信息需要: [More Information Needed]

源数据

初始数据收集和规范化: [More Information Needed]
源语言生产者: Anusha Motamarri

注释

注释过程: Anusha Motamarri
注释者: Anusha Motamarri

个人和敏感信息

更多信息需要: [More Information Needed]

使用数据的考虑

数据集的社会影响

更多信息需要: [More Information Needed]

偏见的讨论

更多信息需要: [More Information Needed]

其他已知限制

更多信息需要: [More Information Needed]

附加信息

数据集策展人

更多信息需要: [More Information Needed]

许可信息

更多信息需要: [More Information Needed]

引用信息

更多信息需要: [More Information Needed]

5,000+

优质数据集

54 个

任务类型

进入经典数据集