five

SuryaKrishna02/aya-telugu-poems

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SuryaKrishna02/aya-telugu-poems
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - expert-generated language: - te language_creators: - expert-generated license: - apache-2.0 multilinguality: - monolingual pretty_name: Telugu Poems size_categories: - 1K<n<10K source_datasets: - original tags: - literature - poems task_categories: - text-generation task_ids: - language-modeling --- # Summary `aya-telugu-poems` is an open source dataset of instruct-style records generated by webscraping a Telugu poems website. This was created as part of [Aya Open Science Initiative](https://sites.google.com/cohere.com/aya-en/home) from Cohere For AI. This dataset can be used for any purpose, whether academic or commercial, under the terms of the [Apache 2.0](https://opensource.org/license/apache-2-0) License. Supported Tasks: - Training LLMs - Synthetic Data Generation - Data Augmentation Languages: Telugu Version: 1.0 # Dataset Overview `aya-telugu-poems` is a corpus of more than 5k records generated by webscraping of the Telugu poetry website. This Dataset can be used for the following three tasks: - Given the poem and type of poetry, explain the meaning of the poem. - Given the meaning and the type of poetry, generate the corresponding poem. - Given the partial poem and type of poetry, generate the rest of the poem. # Intended Uses While immediately valuable for instruction fine tuning large language models, as a corpus of instruction prompts, this dataset also presents a valuable opportunity for synthetic data generation in the methods. For example, prompt-completions could be submitted as few-shot examples to a large open language model to generate additional poems and their explanations. # Dataset ## Load with Datasets To load this dataset with Datasets, you'll just need to install Datasets as `pip install datasets --upgrade` and then use the following code: ```python from datasets import load_dataset ds = load_dataset('SuryaKrishna02/aya-telugu-poems') ``` ## Purpose of Collection Telugu is a low-resource language where there are no poetry instruct-style dataset to the best of my knowledge. This was created as a part of [Aya Open Science Initiative](https://sites.google.com/cohere.com/aya-en/home) from Cohere For AI to make sure Telugu is well represented in the space of AI/ML. Unlike other datasets that are limited to non-commercial use, this dataset can be used, modified, and extended for any purpose, including academic or commercial applications. ## Sources - **Telugu Padyaluu Website**: Performed webscraping from [Telugu Padyaluu Website](https://telugu-padyaalu1.blogspot.com/) which consists of following 11 different types of poetry. 1. వేమన శతకం 2. శ్రీ కాళహస్తీశ్వర శతకం 3. భాస్కర శతకం 4. దాశరథి శతకం 5. కృష్ణ శతకం 6. సుమతీ శతకం 7. భర్తృహరి సుభాషితాలు 8. కుమార శతకం 9. నరసింహ శతకం 10. కుమారీ శతకం 11. పోతన పద్యాలు - Next, performed some pre-processing of the data like removing unwanted characters and similar poems by calculating the similarity score from the scraped data. - Finally, converted the scraped data into Instruct-style prompts and completions. ## Data Fields - `inputs` : Prompt or input to the language model. - `targets` : Completion or output of the language model. - `template_id` : Id of the template used in `inputs` and `targets`. - `template_lang`: ISO code of the language used in the `inputs` and `targets` where *tel* refers to Telugu. ## Templates For the creation of instruct-style prompts and completions from the scraped data, the following three templates categories with total of 18 different templates were used: 1. Given the poem and type of poetry, explain the meaning of the poem. | template_id | inputs | targets | |-------------|--------|---------| | 1 | ```క్రింద ఇచ్చిన {{poetry_type}}లోని పద్యానికి తాత్పర్యం ఇవ్వండి:\n{{Poem}}``` | ```ఇచ్చిన {{poetry_type}}లోని పద్యానికి తాత్పర్యం:\n{{Meaning}}``` | | 2 | ```క్రింద ఇచ్చిన {{poetry_type}}లోని పద్యానికి భావం ఇవ్వండి:\n{{Poem}}``` | ```ఇచ్చిన {{poetry_type}}లోని పద్యానికి భావం:\n{{Meaning}}``` | | 3 | ```క్రింద ఇచ్చిన {{poetry_type}}లోని పద్యానికి భావము ఇవ్వండి:\n{{Poem}}``` | ```ఇచ్చిన {{poetry_type}}లోని పద్యానికి భావము:\n{{Meaning}}``` | | 4 | ```క్రింద ఇచ్చిన {{poetry_type}}లోని పద్యానికి తాత్పర్యము ఇవ్వండి:\n{{Poem}}``` | ```ఇచ్చిన {{poetry_type}}లోని పద్యానికి తాత్పర్యము:\n{{Meaning}}``` | | 5 | ```క్రింద ఇచ్చిన {{poetry_type}}లోని పద్యానికి అర్ధం ఇవ్వండి:\n{{Poem}}``` | ```ఇచ్చిన {{poetry_type}}లోని పద్యానికి అర్ధం:\n{{Meaning}}``` | | 6 | ```క్రింద ఇచ్చిన {{poetry_type}}లోని పద్యానికి అర్ధము ఇవ్వండి:\n{{Poem}}``` | ```ఇచ్చిన {{poetry_type}}లోని పద్యానికి అర్ధము:\n{{Meaning}}``` | 2. Given the meaning and the type of poetry, generate the corresponding poem. | template_id | inputs | targets | |-------------|--------|---------| | 7 | ```క్రింద ఇచ్చిన తాత్పర్యం వచ్చే లాగా {{poetry_type}} శైలిలో పద్యం రాయండి:\n{{Meaning}}``` | ```ఇచ్చిన తాత్పర్యం వచ్చే {{poetry_type}} శైలి పద్యం:\n{{Poem}}``` | | 8 | ```క్రింద ఇచ్చిన భావం వచ్చే లాగా {{poetry_type}} శైలిలో పద్యం రాయండి:\n{{Meaning}}``` | ```ఇచ్చిన భావం వచ్చే {{poetry_type}} శైలి పద్యం:\n{{Poem}}``` | | 9 | ```క్రింద ఇచ్చిన భావము వచ్చే లాగా {{poetry_type}} శైలిలో పద్యం రాయండి:\n{{Meaning}}``` | ```ఇచ్చిన భావము వచ్చే {{poetry_type}} శైలి పద్యం:\n{{Poem}}``` | | 10 | ```క్రింద ఇచ్చిన తాత్పర్యము వచ్చే లాగా {{poetry_type}} శైలిలో పద్యం రాయండి:\n{{Meaning}}``` | ```ఇచ్చిన తాత్పర్యము వచ్చే {{poetry_type}} శైలి పద్యం:\n{{Poem}}``` | | 11 | ```క్రింద ఇచ్చిన అర్ధం వచ్చే లాగా {{poetry_type}} శైలిలో పద్యం రాయండి:\n{{Meaning}}``` | ```ఇచ్చిన అర్ధం వచ్చే {{poetry_type}} శైలి పద్యం:\n{{Poem}}``` | | 12 | ```క్రింద ఇచ్చిన అర్ధము వచ్చే లాగా {{poetry_type}} శైలిలో పద్యం రాయండి:\n{{Meaning}}``` | ```ఇచ్చిన అర్ధము వచ్చే {{poetry_type}} శైలి పద్యం:\n{{Poem}}``` | 3. Given the partial poem and type of poetry, generate the rest of the poem. | template_id | inputs | targets | |-------------|--------|---------| | 13 | ```క్రింద ఇచ్చిన తాత్పర్యం అనుసరించి అసంపూర్ణమైయిన పద్యాన్ని {{poetry_type}} శైలిలో పూర్తిచేసి రాయండి:\nతాత్పర్యం:\n{{Meaning}}\n\nఅసంపూర్ణమైయిన పద్యం:\n{{Partial Poem}}``` | ```పూర్తిచేయబడ్డ పద్యం క్రింద ఇవ్వబడింది:\nపద్యం:\n{{Poem}}``` | | 14 | ```క్రింద ఇచ్చిన భావం అనుసరించి అసంపూర్ణమైయిన పద్యాన్ని {{poetry_type}} శైలిలో పూర్తిచేసి రాయండి:\nభావం:\n{{Meaning}}\n\nఅసంపూర్ణమైయిన పద్యం:\n{{Partial Poem}}``` | ```పూర్తిచేయబడ్డ పద్యం క్రింద ఇవ్వబడింది:\nపద్యం:\n{{Poem}}``` | | 15 | ```క్రింద ఇచ్చిన భావము అనుసరించి అసంపూర్ణమైయిన పద్యాన్ని {{poetry_type}} శైలిలో పూర్తిచేసి రాయండి:\nభావము:\n{{Meaning}}\n\nఅసంపూర్ణమైయిన పద్యం:\n{{Partial Poem}}``` | ```పూర్తిచేయబడ్డ పద్యం క్రింద ఇవ్వబడింది:\nపద్యం:\n{{Poem}}``` | | 16 | ```క్రింద ఇచ్చిన తాత్పర్యము అనుసరించి అసంపూర్ణమైయిన పద్యాన్ని {{poetry_type}} శైలిలో పూర్తిచేసి రాయండి:\nతాత్పర్యము:\n{{Meaning}}\n\nఅసంపూర్ణమైయిన పద్యం:\n{{Partial Poem}}``` | ```పూర్తిచేయబడ్డ పద్యం క్రింద ఇవ్వబడింది:\nపద్యం:\n{{Poem}}``` | | 17 | ```క్రింద ఇచ్చిన అర్ధం అనుసరించి అసంపూర్ణమైయిన పద్యాన్ని {{poetry_type}} శైలిలో పూర్తిచేసి రాయండి:\nఅర్ధం:\n{{Meaning}}\n\nఅసంపూర్ణమైయిన పద్యం:\n{{Partial Poem}}``` | ```పూర్తిచేయబడ్డ పద్యం క్రింద ఇవ్వబడింది:\nపద్యం:\n{{Poem}}``` | | 18 | ```క్రింద ఇచ్చిన అర్ధము అనుసరించి అసంపూర్ణమైయిన పద్యాన్ని {{poetry_type}} శైలిలో పూర్తిచేసి రాయండి:\nఅర్ధము:\n{{Meaning}}\n\nఅసంపూర్ణమైయిన పద్యం:\n{{Partial Poem}}``` | ```పూర్తిచేయబడ్డ పద్యం క్రింద ఇవ్వబడింది:\nపద్యం:\n{{Poem}}``` | ## Personal or Sensitive Data This dataset contains public information. To our knowledge, there are no private person’s personal identifiers or sensitive information. ## Language Telugu # Known Limitations - The Dataset is scraped from the poetry website and the contents of this dataset may reflect the bias, factual errors and sensitive matters. - Although there is utmost care taken to keep the dataset as monolingual, there might be some records that may contain English Language along with Telugu. # Contributors [SuryaKrishna02](https://github.com/SuryaKrishna02) and [Desik98](https://github.com/desik1998)
提供机构:
SuryaKrishna02
原始信息汇总

数据集概述

基本信息

  • 数据集名称: aya-telugu-poems
  • 语言: 泰卢固语 (Telugu)
  • 数据集大小: 1K<n<10K
  • 许可证: Apache 2.0
  • 多语言性: 单语种
  • 标签: 文学, 诗歌
  • 任务类别: 文本生成
  • 任务ID: 语言建模

数据集来源

  • 数据创建者: 专家生成
  • 源数据集: 原始数据集
  • 数据收集方法: 通过网络爬虫从泰卢固语诗歌网站收集

数据集用途

  • 支持任务:
    • 训练大型语言模型 (LLMs)
    • 合成数据生成
    • 数据增强
  • 具体用途:
    • 给定诗歌和诗歌类型,解释诗歌的含义。
    • 给定含义和诗歌类型,生成相应的诗歌。
    • 给定部分诗歌和诗歌类型,生成剩余的诗歌。

数据集内容

  • 数据字段:
    • inputs: 语言模型的提示或输入。
    • targets: 语言模型的完成或输出。
    • template_id: 用于inputstargets的模板ID。
    • template_lang: 用于inputstargets的语言ISO代码,其中tel指泰卢固语。

数据集模板

  • 模板类别:
    1. 给定诗歌和诗歌类型,解释诗歌的含义。
    2. 给定含义和诗歌类型,生成相应的诗歌。
    3. 给定部分诗歌和诗歌类型,生成剩余的诗歌。

数据集限制

  • 数据集内容可能反映网站的偏见、事实错误和敏感问题。
  • 尽管尽力保持数据集为单语种,但可能包含一些泰卢固语和英语混合的记录。

贡献者

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个泰卢固语诗歌指令数据集,包含超过5,000条记录,通过网页抓取从泰卢固语诗歌网站构建,旨在支持低资源语言的AI/ML应用。数据集以指令风格组织,涵盖诗歌解释、诗歌生成和诗歌补全三种任务,使用Apache 2.0许可证,允许学术和商业用途,适用于大语言模型的训练和数据增强。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作