five

saheedniyi/Nairaland_v1_instruct_512QA

收藏
Hugging Face2024-06-01 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/saheedniyi/Nairaland_v1_instruct_512QA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从Nairaland(一个流行的尼日利亚在线社区)抓取的问题和答案。问题涵盖了与尼日利亚人相关的各种主题,答案是对这些问题的最受欢迎的回复。该数据集旨在捕捉尼日利亚英语和皮钦英语的语言和文化细微差别,适合训练能够理解和生成这些语言的模型。

This Dataset is a Question (Post) - Answer (Response) dataset webscraped from Nairaland. The Dataset involves Questions on various sections from Nairaland and the most liked response to those posts. The data was built with the aim of training or fine-tuning an LLM to chat like a Nigerian.
提供机构:
saheedniyi
原始信息汇总

数据集卡片 for Llama3-Naija_v1

数据集描述

该数据集是从Nairaland网站上抓取的问题(帖子)- 回答(回复)数据集。数据集涉及Nairaland上各个板块的问题,包括“政治”、“浪漫”、“职业”、“商业”、“教育”、“宗教”、“体育”、“文学”、“时尚”、“电视-电影”、“旅行”、“编程”、“手机”、“音乐-广播”、“食品”、“家庭”、“健康”等,以及这些帖子的最受欢迎回复。

数据集旨在用于训练或微调大型语言模型,使其能够像尼日利亚人一样聊天。

数据集详情

数据集描述

该数据集包含来自Nairaland的问题和答案,这些问题涵盖了与尼日利亚人相关的各种主题,答案是最受欢迎的回复。数据集旨在捕捉尼日利亚英语和皮钦英语的语言和文化特征,使其适合用于训练理解并生成这些语言文本的语言模型。

  • 开发人员: Saheedniyi
  • 语言: 英语,皮钦英语

数据集结构

数据集包含以下主要字段:

  • title: 原始帖子或问题的标题或头条。它提供了帖子的快速摘要或主要主题。
  • content: 原始帖子或问题的详细内容。这包括描述用户查询或讨论点的全文。
  • response: 对原始帖子的最受欢迎回复。这是收到最多积极互动的答案或回复。
  • likes: 回复收到的点赞数。这表示有多少用户认为该回复有帮助或相关。
  • section: 帖子所在的特定Nairaland板块或类别,如“政治”、“浪漫”、“职业”等。这有助于按主题对帖子进行分类。

数据集创建

数据收集和处理

数据通过网络爬虫从Nairaland收集,重点关注各个板块帖子的最受欢迎回复。数据随后被清理,以去除任何HTML标签、广告和无关内容。使用的工具和库包括Python、BeautifulSoup和pandas。

数据源生产者

数据源生产者是Nairaland的用户,他们创建帖子和回复。这些用户代表了广泛的尼日利亚社会,但没有收集他们的 demographic 信息。

注释

注释过程

除了原始回复的点赞外,没有进行额外的注释。最受欢迎的回复被自动选为答案。

注释者

注释者是Nairaland的用户,他们的点赞决定了最相关的回复。

个人和敏感信息

数据集不包含任何个人身份信息(PII)。用户名和其他标识符已被匿名化或删除以保护隐私。

偏差、风险和限制

数据集反映了Nairaland社区的观点和偏差,这可能不代表整个尼日利亚人口。用户应谨慎对待这些偏差,特别是在需要高准确性和公平性的应用中。

推荐

用户应:

  • 意识到潜在的偏差和限制。
  • 考虑其应用的伦理影响。

如何使用

python from datasets import load_dataset

data = load_dataset("saheedniyi/Nairaland_v1_instruct_512QA")

引用

BibTeX:

@dataset{saheedniyi2024nairalandv1instruct512QA, author = {Azeez Saheed}, title = {Nairaland_v1_instruct_512QA: A Nairaland Question-Answer Dataset}, year = 2024, url = {https://huggingface.co/datasets/saheedniyi/Nairaland_v1_instruct_512QA}, }

APA:

Azeez Saheed. (2024). Nairaland_v1_instruct_512QA: A Nairaland Question-Answer Dataset. Retrieved from https://huggingface.co/datasets/saheedniyi/Nairaland_v1_instruct_512QA

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作