as-cle-bert/genetics-arxiv-wiki

收藏

Hugging Face2024-03-07 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/as-cle-bert/genetics-arxiv-wiki

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个小型的遗传学相关文本数据集，基于23200条ArXiv摘要记录和111个维基百科页面。数据集包含23311条文本记录，其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别，其余111条来自维基百科的遗传学类别页面。数据集格式为jsonl，大小为28 MB，主要用于微调文本生成模型，适用于研究和教学目的。

该数据集是一个小型的遗传学相关文本数据集，基于23200条ArXiv摘要记录和111个维基百科页面。数据集包含23311条文本记录，其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别，其余111条来自维基百科的遗传学类别页面。数据集格式为jsonl，大小为28 MB，主要用于微调文本生成模型，适用于研究和教学目的。

提供机构：

as-cle-bert

原始信息汇总

数据集卡片 for Dataset Name

数据集详情

数据集描述

数据集包含与遗传学相关的文本数据，基于23200条ArXiv摘要记录和111篇维基百科页面。总共包含23311条文本记录，其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别，其余111条来自英语维基百科的遗传学类别页面。

格式： jsonl
大小： 28 MB
创建者： Astra Clelia Bertelli
语言： 英语
许可证： Creative Commons family

数据集来源

数据集及其脚本存放在GitHub上的一个更广泛的仓库中。

仓库： AstraBert/model_training

用途

数据集可用于微调遗传学及相关内容的文本生成模型，也可用于研究和教学目的。

直接用途

数据集可直接应用于微调文本生成模型。

超出范围的用途

数据集不应被用于创建或销售误导性内容、传播虚假信息或违反法律。

数据集结构

数据集由一个包含23331行的jsonl文件组成，每行描述一个名为“text”的字段。

数据集创建

创建理由

数据集旨在微调语言/文本生成模型于遗传学领域。

源数据

源数据包括：

数据收集和处理

维基百科数据通过与维基百科API的Python交互收集。
ArXiv数据集首先从Kaggle页面下载，然后通过特定代码进行处理。

个人和敏感信息

数据集中不包含个人或敏感信息，所有数据均为公开且可自由访问。

偏差、风险和限制

由于数据集基于预印本论文摘要和维基百科数据，审查过程可能未能检测到错误或模糊信息。数据集主要面向研究，因此可能存在研究导向的偏差。除了可能包含错误外，数据集本身不应有内在风险。

建议

用户应遵守数据集的建议用途，不应将数据集用于超出范围的用途。用户应意识到数据集的风险、偏差和限制。

数据集卡片作者

Astra Clelia Bertelli

数据集卡片联系

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作