five

community-datasets/telugu_books

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/telugu_books
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过从teluguone.com网站上抓取泰卢固小说创建的,可用于自然语言处理任务,如主题建模、词嵌入、迁移学习等。数据集包含25794个训练样本,总大小为315076011字节。数据集的创建和注释由专家Anusha Motamarri完成。
提供机构:
community-datasets
原始信息汇总

数据集卡片:TeluguBooks

数据集描述

数据集摘要

该数据集是通过抓取teluguone.com网站上的泰卢固语小说创建的,可用于自然语言处理任务,如主题建模、词嵌入、迁移学习等。

支持的任务和排行榜

  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模

语言

  • 语言: 泰卢固语 (te)

数据集结构

数据实例

  • 更多信息需要: [More Information Needed]

数据字段

  • 文本: 小说中的句子

数据分割

  • 训练集:
    • 字节数: 315076011
    • 样本数: 25794

数据集创建

策划理由

  • 更多信息需要: [More Information Needed]

源数据

  • 初始数据收集和规范化: [More Information Needed]
  • 源语言生产者: Anusha Motamarri

注释

  • 注释过程: Anusha Motamarri
  • 注释者: Anusha Motamarri

个人和敏感信息

  • 更多信息需要: [More Information Needed]

使用数据的考虑

数据集的社会影响

  • 更多信息需要: [More Information Needed]

偏见的讨论

  • 更多信息需要: [More Information Needed]

其他已知限制

  • 更多信息需要: [More Information Needed]

附加信息

数据集策展人

  • 更多信息需要: [More Information Needed]

许可信息

  • 更多信息需要: [More Information Needed]

引用信息

  • 更多信息需要: [More Information Needed]
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作