five

as-cle-bert/genetics-arxiv-wiki

收藏
Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/as-cle-bert/genetics-arxiv-wiki
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个小型的遗传学相关文本数据集,基于23200条ArXiv摘要记录和111个维基百科页面。数据集包含23311条文本记录,其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别,其余111条来自维基百科的遗传学类别页面。数据集格式为jsonl,大小为28 MB,主要用于微调文本生成模型,适用于研究和教学目的。

该数据集是一个小型的遗传学相关文本数据集,基于23200条ArXiv摘要记录和111个维基百科页面。数据集包含23311条文本记录,其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别,其余111条来自维基百科的遗传学类别页面。数据集格式为jsonl,大小为28 MB,主要用于微调文本生成模型,适用于研究和教学目的。
提供机构:
as-cle-bert
原始信息汇总

数据集卡片 for Dataset Name

数据集详情

数据集描述

数据集包含与遗传学相关的文本数据,基于23200条ArXiv摘要记录和111篇维基百科页面。总共包含23311条文本记录,其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别,其余111条来自英语维基百科的遗传学类别页面。

  • 格式: jsonl
  • 大小: 28 MB
  • 创建者: Astra Clelia Bertelli
  • 语言: 英语
  • 许可证: Creative Commons family

数据集来源

数据集及其脚本存放在GitHub上的一个更广泛的仓库中。

用途

数据集可用于微调遗传学及相关内容的文本生成模型,也可用于研究和教学目的。

直接用途

数据集可直接应用于微调文本生成模型。

超出范围的用途

数据集不应被用于创建或销售误导性内容、传播虚假信息或违反法律。

数据集结构

数据集由一个包含23331行的jsonl文件组成,每行描述一个名为“text”的字段。

数据集创建

创建理由

数据集旨在微调语言/文本生成模型于遗传学领域。

源数据

源数据包括:

数据收集和处理

  • 维基百科数据通过与维基百科API的Python交互收集。
  • ArXiv数据集首先从Kaggle页面下载,然后通过特定代码进行处理。

个人和敏感信息

数据集中不包含个人或敏感信息,所有数据均为公开且可自由访问。

偏差、风险和限制

由于数据集基于预印本论文摘要和维基百科数据,审查过程可能未能检测到错误或模糊信息。数据集主要面向研究,因此可能存在研究导向的偏差。除了可能包含错误外,数据集本身不应有内在风险。

建议

用户应遵守数据集的建议用途,不应将数据集用于超出范围的用途。用户应意识到数据集的风险、偏差和限制。

数据集卡片作者

Astra Clelia Bertelli

数据集卡片联系

电子邮件

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作