cannin/biostars_qa
收藏Hugging Face2023-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cannin/biostars_qa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从BioStars网站提取的4803个问答对,主要关注生物信息学、计算基因组学和生物数据分析。数据集的结构包括INSTRUCTION、RESPONSE、SOURCE和METADATA字段。数据集的创建标准是问题必须有一个被接受的答案,并且问题至少有一个投票。数据集的使用许可为Apache-2.0,并提供了相关的引用信息。
许可证:CC BY 4.0
任务类别:
- 文本分类
- 问答
- 文本生成
语言:
- 英语
标签:
- 生物学
样本规模:
- 1000 < n < 10000
## 数据集描述
- **BioStars官网**:https://www.biostars.org/
- **BioStars相关论文**:https://doi.org/10.1371/journal.pcbi.1002216
- **本数据集代码仓库**:https://github.com/cannin/biostars_qa
### 数据集概览
本数据集包含从[BioStars](https://www.biostars.org/)网站提取的4803条问答对。该网站专注于生物信息学、计算基因组学与生物数据分析。
### 数据集结构
#### 数据字段
本数据集包含**指令(INSTRUCTION)**、**回复(RESPONSE)**、**来源(SOURCE)**与**元数据(METADATA)**四个字段。格式规范参考[LAION-AI/Open-Assistant](https://github.com/LAION-AI/Open-Assistant/blob/main/data/datasets/README.md)的说明。
### 数据集构建
#### 筛选依据
仅收录带有已采纳回答,且问题至少获得1票点赞的问答对。
#### 源数据来源
数据通过[Biostars API](https://www.biostars.org/info/api/)采集。
## 附加信息
### 数据集维护者
[@cannin](https://github.com/cannin)。@cannin与BioStars项目无任何关联。
### 许可证信息
Apache-2.0
### 引用信息
#### BioStars项目
引用原项目:https://doi.org/10.1371/journal.pcbi.1002216
#### 本数据集
本数据集的引用格式如下:
@misc{Luna2023a,
author = {Augustin Luna},
title = {biostars_qa 数据集},
year = {2023},
howpublished = {url{https://huggingface.co/datasets/cannin/biostars_qa}}
}
#### 本数据集生成代码
本数据集生成代码的引用格式如下:
@misc{Luna2023b,
author = {Augustin Luna},
title = {biostars_qa 代码},
year = {2023},
howpublished = {url{https://github.com/cannin/biostars_qa}}
}
提供机构:
cannin
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-4.0
- 任务类别:
- 文本分类
- 问答
- 文本生成
- 语言: 英语
- 标签: 生物学
- 大小类别: 1K<n<10K
数据集详情
- 包含内容: 4803个问答对
- 来源: 从BioStars网站提取,该网站专注于生物信息学、计算基因组学和生物数据分析。
数据集结构
- 数据字段: INSTRUCTION, RESPONSE, SOURCE, METADATA
- 格式描述: 参考LAION-AI/Open-Assistant
数据集创建
- 筛选标准: 包含的问答对需为已接受答案且至少有1票。
- 数据收集方式: 使用Biostars API收集
附加信息
- 数据集创建者: @cannin
- 许可证信息: Apache-2.0
- 引用信息:
-
原始项目: BioStars Project
-
此数据集:
@misc{Luna2023a, author = {Augustin Luna}, title = {biostars_qa Dataset}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/cannin/biostars_qa}} }
-
生成此数据集的代码:
@misc{Luna2023b, author = {Augustin Luna}, title = {biostars_qa Code}, year = {2023}, howpublished = {url{https://github.com/cannin/biostars_qa}} }
-
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是从BioStars网站提取的4,803个问答对,专注于生物信息学、计算基因组学和生物数据分析领域。数据格式为Parquet,包含问题、回答、来源和元数字段,适用于文本分类、问答和文本生成等自然语言处理任务。数据集基于API收集,问题需满足有接受答案且至少1票的条件,具有明确的许可证和引用信息。
以上内容由遇见数据集搜集并总结生成



