saheedniyi/Nairaland_v1_instruct_512QA
收藏数据集卡片 for Llama3-Naija_v1
数据集描述
该数据集是从Nairaland网站上抓取的问题(帖子)- 回答(回复)数据集。数据集涉及Nairaland上各个板块的问题,包括“政治”、“浪漫”、“职业”、“商业”、“教育”、“宗教”、“体育”、“文学”、“时尚”、“电视-电影”、“旅行”、“编程”、“手机”、“音乐-广播”、“食品”、“家庭”、“健康”等,以及这些帖子的最受欢迎回复。
数据集旨在用于训练或微调大型语言模型,使其能够像尼日利亚人一样聊天。
数据集详情
数据集描述
该数据集包含来自Nairaland的问题和答案,这些问题涵盖了与尼日利亚人相关的各种主题,答案是最受欢迎的回复。数据集旨在捕捉尼日利亚英语和皮钦英语的语言和文化特征,使其适合用于训练理解并生成这些语言文本的语言模型。
- 开发人员: Saheedniyi
- 语言: 英语,皮钦英语
数据集结构
数据集包含以下主要字段:
- title: 原始帖子或问题的标题或头条。它提供了帖子的快速摘要或主要主题。
- content: 原始帖子或问题的详细内容。这包括描述用户查询或讨论点的全文。
- response: 对原始帖子的最受欢迎回复。这是收到最多积极互动的答案或回复。
- likes: 回复收到的点赞数。这表示有多少用户认为该回复有帮助或相关。
- section: 帖子所在的特定Nairaland板块或类别,如“政治”、“浪漫”、“职业”等。这有助于按主题对帖子进行分类。
数据集创建
数据收集和处理
数据通过网络爬虫从Nairaland收集,重点关注各个板块帖子的最受欢迎回复。数据随后被清理,以去除任何HTML标签、广告和无关内容。使用的工具和库包括Python、BeautifulSoup和pandas。
数据源生产者
数据源生产者是Nairaland的用户,他们创建帖子和回复。这些用户代表了广泛的尼日利亚社会,但没有收集他们的 demographic 信息。
注释
注释过程
除了原始回复的点赞外,没有进行额外的注释。最受欢迎的回复被自动选为答案。
注释者
注释者是Nairaland的用户,他们的点赞决定了最相关的回复。
个人和敏感信息
数据集不包含任何个人身份信息(PII)。用户名和其他标识符已被匿名化或删除以保护隐私。
偏差、风险和限制
数据集反映了Nairaland社区的观点和偏差,这可能不代表整个尼日利亚人口。用户应谨慎对待这些偏差,特别是在需要高准确性和公平性的应用中。
推荐
用户应:
- 意识到潜在的偏差和限制。
- 考虑其应用的伦理影响。
如何使用
python from datasets import load_dataset
data = load_dataset("saheedniyi/Nairaland_v1_instruct_512QA")
引用
BibTeX:
@dataset{saheedniyi2024nairalandv1instruct512QA, author = {Azeez Saheed}, title = {Nairaland_v1_instruct_512QA: A Nairaland Question-Answer Dataset}, year = 2024, url = {https://huggingface.co/datasets/saheedniyi/Nairaland_v1_instruct_512QA}, }
APA:
Azeez Saheed. (2024). Nairaland_v1_instruct_512QA: A Nairaland Question-Answer Dataset. Retrieved from https://huggingface.co/datasets/saheedniyi/Nairaland_v1_instruct_512QA



