as-cle-bert/genetics-arxiv-wiki
收藏Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/as-cle-bert/genetics-arxiv-wiki
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个小型的遗传学相关文本数据集,基于23200条ArXiv摘要记录和111个维基百科页面。数据集包含23311条文本记录,其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别,其余111条来自维基百科的遗传学类别页面。数据集格式为jsonl,大小为28 MB,主要用于微调文本生成模型,适用于研究和教学目的。
该数据集是一个小型的遗传学相关文本数据集,基于23200条ArXiv摘要记录和111个维基百科页面。数据集包含23311条文本记录,其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别,其余111条来自维基百科的遗传学类别页面。数据集格式为jsonl,大小为28 MB,主要用于微调文本生成模型,适用于研究和教学目的。
提供机构:
as-cle-bert
原始信息汇总
数据集卡片 for Dataset Name
数据集详情
数据集描述
数据集包含与遗传学相关的文本数据,基于23200条ArXiv摘要记录和111篇维基百科页面。总共包含23311条文本记录,其中23200条来自ArXiv数据集的q-bio.BM、q-bio.GN、q-bio.MN、q-bio.PE和q-bio.SC类别,其余111条来自英语维基百科的遗传学类别页面。
- 格式: jsonl
- 大小: 28 MB
- 创建者: Astra Clelia Bertelli
- 语言: 英语
- 许可证: Creative Commons family
数据集来源
数据集及其脚本存放在GitHub上的一个更广泛的仓库中。
用途
数据集可用于微调遗传学及相关内容的文本生成模型,也可用于研究和教学目的。
直接用途
数据集可直接应用于微调文本生成模型。
超出范围的用途
数据集不应被用于创建或销售误导性内容、传播虚假信息或违反法律。
数据集结构
数据集由一个包含23331行的jsonl文件组成,每行描述一个名为“text”的字段。
数据集创建
创建理由
数据集旨在微调语言/文本生成模型于遗传学领域。
源数据
源数据包括:
数据收集和处理
- 维基百科数据通过与维基百科API的Python交互收集。
- ArXiv数据集首先从Kaggle页面下载,然后通过特定代码进行处理。
个人和敏感信息
数据集中不包含个人或敏感信息,所有数据均为公开且可自由访问。
偏差、风险和限制
由于数据集基于预印本论文摘要和维基百科数据,审查过程可能未能检测到错误或模糊信息。数据集主要面向研究,因此可能存在研究导向的偏差。除了可能包含错误外,数据集本身不应有内在风险。
建议
用户应遵守数据集的建议用途,不应将数据集用于超出范围的用途。用户应意识到数据集的风险、偏差和限制。



