five

cannin/biostars_qa

收藏
Hugging Face2023-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cannin/biostars_qa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从BioStars网站提取的4803个问答对,主要关注生物信息学、计算基因组学和生物数据分析。数据集的结构包括INSTRUCTION、RESPONSE、SOURCE和METADATA字段。数据集的创建标准是问题必须有一个被接受的答案,并且问题至少有一个投票。数据集的使用许可为Apache-2.0,并提供了相关的引用信息。

许可证:CC BY 4.0 任务类别: - 文本分类 - 问答 - 文本生成 语言: - 英语 标签: - 生物学 样本规模: - 1000 < n < 10000 ## 数据集描述 - **BioStars官网**:https://www.biostars.org/ - **BioStars相关论文**:https://doi.org/10.1371/journal.pcbi.1002216 - **本数据集代码仓库**:https://github.com/cannin/biostars_qa ### 数据集概览 本数据集包含从[BioStars](https://www.biostars.org/)网站提取的4803条问答对。该网站专注于生物信息学、计算基因组学与生物数据分析。 ### 数据集结构 #### 数据字段 本数据集包含**指令(INSTRUCTION)**、**回复(RESPONSE)**、**来源(SOURCE)**与**元数据(METADATA)**四个字段。格式规范参考[LAION-AI/Open-Assistant](https://github.com/LAION-AI/Open-Assistant/blob/main/data/datasets/README.md)的说明。 ### 数据集构建 #### 筛选依据 仅收录带有已采纳回答,且问题至少获得1票点赞的问答对。 #### 源数据来源 数据通过[Biostars API](https://www.biostars.org/info/api/)采集。 ## 附加信息 ### 数据集维护者 [@cannin](https://github.com/cannin)。@cannin与BioStars项目无任何关联。 ### 许可证信息 Apache-2.0 ### 引用信息 #### BioStars项目 引用原项目:https://doi.org/10.1371/journal.pcbi.1002216 #### 本数据集 本数据集的引用格式如下: @misc{Luna2023a, author = {Augustin Luna}, title = {biostars_qa 数据集}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/cannin/biostars_qa}} } #### 本数据集生成代码 本数据集生成代码的引用格式如下: @misc{Luna2023b, author = {Augustin Luna}, title = {biostars_qa 代码}, year = {2023}, howpublished = {url{https://github.com/cannin/biostars_qa}} }
提供机构:
cannin
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 任务类别:
    • 文本分类
    • 问答
    • 文本生成
  • 语言: 英语
  • 标签: 生物学
  • 大小类别: 1K<n<10K

数据集详情

  • 包含内容: 4803个问答对
  • 来源: 从BioStars网站提取,该网站专注于生物信息学、计算基因组学和生物数据分析。

数据集结构

数据集创建

  • 筛选标准: 包含的问答对需为已接受答案且至少有1票。
  • 数据收集方式: 使用Biostars API收集

附加信息

  • 数据集创建者: @cannin
  • 许可证信息: Apache-2.0
  • 引用信息:
    • 原始项目: BioStars Project

    • 此数据集:

      @misc{Luna2023a, author = {Augustin Luna}, title = {biostars_qa Dataset}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/cannin/biostars_qa}} }

    • 生成此数据集的代码:

      @misc{Luna2023b, author = {Augustin Luna}, title = {biostars_qa Code}, year = {2023}, howpublished = {url{https://github.com/cannin/biostars_qa}} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是从BioStars网站提取的4,803个问答对,专注于生物信息学、计算基因组学和生物数据分析领域。数据格式为Parquet,包含问题、回答、来源和元数字段,适用于文本分类、问答和文本生成等自然语言处理任务。数据集基于API收集,问题需满足有接受答案且至少1票的条件,具有明确的许可证和引用信息。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作