community-datasets/telugu_books
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/telugu_books
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过从teluguone.com网站上抓取泰卢固小说创建的,可用于自然语言处理任务,如主题建模、词嵌入、迁移学习等。数据集包含25794个训练样本,总大小为315076011字节。数据集的创建和注释由专家Anusha Motamarri完成。
提供机构:
community-datasets
原始信息汇总
数据集卡片:TeluguBooks
数据集描述
数据集摘要
该数据集是通过抓取teluguone.com网站上的泰卢固语小说创建的,可用于自然语言处理任务,如主题建模、词嵌入、迁移学习等。
支持的任务和排行榜
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
语言
- 语言: 泰卢固语 (te)
数据集结构
数据实例
- 更多信息需要: [More Information Needed]
数据字段
- 文本: 小说中的句子
数据分割
- 训练集:
- 字节数: 315076011
- 样本数: 25794
数据集创建
策划理由
- 更多信息需要: [More Information Needed]
源数据
- 初始数据收集和规范化: [More Information Needed]
- 源语言生产者: Anusha Motamarri
注释
- 注释过程: Anusha Motamarri
- 注释者: Anusha Motamarri
个人和敏感信息
- 更多信息需要: [More Information Needed]
使用数据的考虑
数据集的社会影响
- 更多信息需要: [More Information Needed]
偏见的讨论
- 更多信息需要: [More Information Needed]
其他已知限制
- 更多信息需要: [More Information Needed]
附加信息
数据集策展人
- 更多信息需要: [More Information Needed]
许可信息
- 更多信息需要: [More Information Needed]
引用信息
- 更多信息需要: [More Information Needed]



