five

acmc/beamit-annotated-full-texts-dataset

收藏
Hugging Face2023-06-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/acmc/beamit-annotated-full-texts-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: title dtype: string - name: pmid dtype: string - name: background_abstract dtype: string - name: background_abstract_label dtype: string - name: methods_abstract dtype: string - name: methods_abstract_label dtype: string - name: results_abstract dtype: string - name: results_abstract_label dtype: string - name: conclusions_abstract dtype: string - name: conclusions_abstract_label dtype: string - name: mesh_descriptor_names sequence: string - name: pmcid dtype: string - name: background_title dtype: string - name: background_text dtype: string - name: methods_title dtype: string - name: methods_text dtype: string - name: results_title dtype: string - name: results_text dtype: string - name: conclusions_title dtype: string - name: conclusions_text dtype: string - name: other_sections_titles sequence: string - name: other_sections_texts sequence: string - name: other_sections_sec_types sequence: string - name: all_sections_titles sequence: string - name: all_sections_texts sequence: string - name: all_sections_sec_types sequence: string - name: keywords sequence: string - name: whole_article_text dtype: string - name: whole_article_abstract dtype: string - name: background_conclusion_text dtype: string - name: background_conclusion_abstract dtype: string - name: whole_article_text_length dtype: int64 - name: whole_article_abstract_length dtype: int64 - name: num_sections dtype: int64 - name: most_frequent_words sequence: string - name: keybert_topics sequence: string - name: annotated_base_background_abstract_prompt dtype: string - name: annotated_base_methods_abstract_prompt dtype: string - name: annotated_base_results_abstract_prompt dtype: string - name: annotated_base_conclusions_abstract_prompt dtype: string - name: annotated_base_whole_article_abstract_prompt dtype: string - name: annotated_base_background_conclusion_abstract_prompt dtype: string - name: annotated_keywords_background_abstract_prompt dtype: string - name: annotated_keywords_methods_abstract_prompt dtype: string - name: annotated_keywords_results_abstract_prompt dtype: string - name: annotated_keywords_conclusions_abstract_prompt dtype: string - name: annotated_keywords_whole_article_abstract_prompt dtype: string - name: annotated_keywords_background_conclusion_abstract_prompt dtype: string - name: annotated_mesh_background_abstract_prompt dtype: string - name: annotated_mesh_methods_abstract_prompt dtype: string - name: annotated_mesh_results_abstract_prompt dtype: string - name: annotated_mesh_conclusions_abstract_prompt dtype: string - name: annotated_mesh_whole_article_abstract_prompt dtype: string - name: annotated_mesh_background_conclusion_abstract_prompt dtype: string - name: annotated_keybert_background_abstract_prompt dtype: string - name: annotated_keybert_methods_abstract_prompt dtype: string - name: annotated_keybert_results_abstract_prompt dtype: string - name: annotated_keybert_conclusions_abstract_prompt dtype: string - name: annotated_keybert_whole_article_abstract_prompt dtype: string - name: annotated_keybert_background_conclusion_abstract_prompt dtype: string - name: annotated_most_frequent_background_abstract_prompt dtype: string - name: annotated_most_frequent_methods_abstract_prompt dtype: string - name: annotated_most_frequent_results_abstract_prompt dtype: string - name: annotated_most_frequent_conclusions_abstract_prompt dtype: string - name: annotated_most_frequent_whole_article_abstract_prompt dtype: string - name: annotated_most_frequent_background_conclusion_abstract_prompt dtype: string - name: annotated_tf_idf_background_abstract_prompt dtype: string - name: annotated_tf_idf_methods_abstract_prompt dtype: string - name: annotated_tf_idf_results_abstract_prompt dtype: string - name: annotated_tf_idf_conclusions_abstract_prompt dtype: string - name: annotated_tf_idf_whole_article_abstract_prompt dtype: string - name: annotated_tf_idf_background_conclusion_abstract_prompt dtype: string - name: annotated_entity_plan_background_abstract_prompt dtype: string - name: annotated_entity_plan_methods_abstract_prompt dtype: string - name: annotated_entity_plan_results_abstract_prompt dtype: string - name: annotated_entity_plan_conclusions_abstract_prompt dtype: string - name: annotated_entity_plan_whole_article_abstract_prompt dtype: string - name: annotated_entity_plan_background_conclusion_abstract_prompt dtype: string splits: - name: train num_bytes: 1107320460 num_examples: 8129 - name: test num_bytes: 231845553 num_examples: 1743 - name: val num_bytes: 238143455 num_examples: 1742 download_size: 559077241 dataset_size: 1577309468 --- # Dataset Card for "beamit-annotated-full-texts-dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
acmc
原始信息汇总

数据集概述

数据集特征

数据集包含以下特征:

  • title: 文章标题,数据类型为字符串。
  • pmid: PubMed标识符,数据类型为字符串。
  • background_abstract: 背景摘要,数据类型为字符串。
  • background_abstract_label: 背景摘要标签,数据类型为字符串。
  • methods_abstract: 方法摘要,数据类型为字符串。
  • methods_abstract_label: 方法摘要标签,数据类型为字符串。
  • results_abstract: 结果摘要,数据类型为字符串。
  • results_abstract_label: 结果摘要标签,数据类型为字符串。
  • conclusions_abstract: 结论摘要,数据类型为字符串。
  • conclusions_abstract_label: 结论摘要标签,数据类型为字符串。
  • mesh_descriptor_names: MeSH描述符名称,数据类型为字符串序列。
  • pmcid: PubMed Central标识符,数据类型为字符串。
  • background_title: 背景标题,数据类型为字符串。
  • background_text: 背景文本,数据类型为字符串。
  • methods_title: 方法标题,数据类型为字符串。
  • methods_text: 方法文本,数据类型为字符串。
  • results_title: 结果标题,数据类型为字符串。
  • results_text: 结果文本,数据类型为字符串。
  • conclusions_title: 结论标题,数据类型为字符串。
  • conclusions_text: 结论文本,数据类型为字符串。
  • other_sections_titles: 其他部分标题,数据类型为字符串序列。
  • other_sections_texts: 其他部分文本,数据类型为字符串序列。
  • other_sections_sec_types: 其他部分类型,数据类型为字符串序列。
  • all_sections_titles: 所有部分标题,数据类型为字符串序列。
  • all_sections_texts: 所有部分文本,数据类型为字符串序列。
  • all_sections_sec_types: 所有部分类型,数据类型为字符串序列。
  • keywords: 关键词,数据类型为字符串序列。
  • whole_article_text: 全文文本,数据类型为字符串。
  • whole_article_abstract: 全文摘要,数据类型为字符串。
  • background_conclusion_text: 背景结论文本,数据类型为字符串。
  • background_conclusion_abstract: 背景结论摘要,数据类型为字符串。
  • whole_article_text_length: 全文文本长度,数据类型为整数。
  • whole_article_abstract_length: 全文摘要长度,数据类型为整数。
  • num_sections: 部分数量,数据类型为整数。
  • most_frequent_words: 最频繁词汇,数据类型为字符串序列。
  • keybert_topics: KeyBERT主题,数据类型为字符串序列。
  • annotated_base_background_abstract_prompt: 标注基础背景摘要提示,数据类型为字符串。
  • annotated_base_methods_abstract_prompt: 标注基础方法摘要提示,数据类型为字符串。
  • annotated_base_results_abstract_prompt: 标注基础结果摘要提示,数据类型为字符串。
  • annotated_base_conclusions_abstract_prompt: 标注基础结论摘要提示,数据类型为字符串。
  • annotated_base_whole_article_abstract_prompt: 标注基础全文摘要提示,数据类型为字符串。
  • annotated_base_background_conclusion_abstract_prompt: 标注基础背景结论摘要提示,数据类型为字符串。
  • annotated_keywords_background_abstract_prompt: 标注关键词背景摘要提示,数据类型为字符串。
  • annotated_keywords_methods_abstract_prompt: 标注关键词方法摘要提示,数据类型为字符串。
  • annotated_keywords_results_abstract_prompt: 标注关键词结果摘要提示,数据类型为字符串。
  • annotated_keywords_conclusions_abstract_prompt: 标注关键词结论摘要提示,数据类型为字符串。
  • annotated_keywords_whole_article_abstract_prompt: 标注关键词全文摘要提示,数据类型为字符串。
  • annotated_keywords_background_conclusion_abstract_prompt: 标注关键词背景结论摘要提示,数据类型为字符串。
  • annotated_mesh_background_abstract_prompt: 标注MeSH背景摘要提示,数据类型为字符串。
  • annotated_mesh_methods_abstract_prompt: 标注MeSH方法摘要提示,数据类型为字符串。
  • annotated_mesh_results_abstract_prompt: 标注MeSH结果摘要提示,数据类型为字符串。
  • annotated_mesh_conclusions_abstract_prompt: 标注MeSH结论摘要提示,数据类型为字符串。
  • annotated_mesh_whole_article_abstract_prompt: 标注MeSH全文摘要提示,数据类型为字符串。
  • annotated_mesh_background_conclusion_abstract_prompt: 标注MeSH背景结论摘要提示,数据类型为字符串。
  • annotated_keybert_background_abstract_prompt: 标注KeyBERT背景摘要提示,数据类型为字符串。
  • annotated_keybert_methods_abstract_prompt: 标注KeyBERT方法摘要提示,数据类型为字符串。
  • annotated_keybert_results_abstract_prompt: 标注KeyBERT结果摘要提示,数据类型为字符串。
  • annotated_keybert_conclusions_abstract_prompt: 标注KeyBERT结论摘要提示,数据类型为字符串。
  • annotated_keybert_whole_article_abstract_prompt: 标注KeyBERT全文摘要提示,数据类型为字符串。
  • annotated_keybert_background_conclusion_abstract_prompt: 标注KeyBERT背景结论摘要提示,数据类型为字符串。
  • annotated_most_frequent_background_abstract_prompt: 标注最频繁词汇背景摘要提示,数据类型为字符串。
  • annotated_most_frequent_methods_abstract_prompt: 标注最频繁词汇方法摘要提示,数据类型为字符串。
  • annotated_most_frequent_results_abstract_prompt: 标注最频繁词汇结果摘要提示,数据类型为字符串。
  • annotated_most_frequent_conclusions_abstract_prompt: 标注最频繁词汇结论摘要提示,数据类型为字符串。
  • annotated_most_frequent_whole_article_abstract_prompt: 标注最频繁词汇全文摘要提示,数据类型为字符串。
  • annotated_most_frequent_background_conclusion_abstract_prompt: 标注最频繁词汇背景结论摘要提示,数据类型为字符串。
  • annotated_tf_idf_background_abstract_prompt: 标注TF-IDF背景摘要提示,数据类型为字符串。
  • annotated_tf_idf_methods_abstract_prompt: 标注TF-IDF方法摘要提示,数据类型为字符串。
  • annotated_tf_idf_results_abstract_prompt: 标注TF-IDF结果摘要提示,数据类型为字符串。
  • annotated_tf_idf_conclusions_abstract_prompt: 标注TF-IDF结论摘要提示,数据类型为字符串。
  • annotated_tf_idf_whole_article_abstract_prompt: 标注TF-IDF全文摘要提示,数据类型为字符串。
  • annotated_tf_idf_background_conclusion_abstract_prompt: 标注TF-IDF背景结论摘要提示,数据类型为字符串。
  • annotated_entity_plan_background_abstract_prompt: 标注实体规划背景摘要提示,数据类型为字符串。
  • annotated_entity_plan_methods_abstract_prompt: 标注实体规划方法摘要提示,数据类型为字符串。
  • annotated_entity_plan_results_abstract_prompt: 标注实体规划结果摘要提示,数据类型为字符串。
  • annotated_entity_plan_conclusions_abstract_prompt: 标注实体规划结论摘要提示,数据类型为字符串。
  • annotated_entity_plan_whole_article_abstract_prompt: 标注实体规划全文摘要提示,数据类型为字符串。
  • annotated_entity_plan_background_conclusion_abstract_prompt: 标注实体规划背景结论摘要提示,数据类型为字符串。

数据集划分

数据集分为以下几个部分:

  • train: 训练集,包含8129个样本,总字节数为1107320460。
  • test: 测试集,包含1743个样本,总字节数为231845553。
  • val: 验证集,包含1742个样本,总字节数为238143455。

数据集大小

  • 下载大小: 559077241字节
  • 数据集大小: 1577309468字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作