acmc/beamit-annotated-full-texts-dataset
收藏Hugging Face2023-06-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/acmc/beamit-annotated-full-texts-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: title
dtype: string
- name: pmid
dtype: string
- name: background_abstract
dtype: string
- name: background_abstract_label
dtype: string
- name: methods_abstract
dtype: string
- name: methods_abstract_label
dtype: string
- name: results_abstract
dtype: string
- name: results_abstract_label
dtype: string
- name: conclusions_abstract
dtype: string
- name: conclusions_abstract_label
dtype: string
- name: mesh_descriptor_names
sequence: string
- name: pmcid
dtype: string
- name: background_title
dtype: string
- name: background_text
dtype: string
- name: methods_title
dtype: string
- name: methods_text
dtype: string
- name: results_title
dtype: string
- name: results_text
dtype: string
- name: conclusions_title
dtype: string
- name: conclusions_text
dtype: string
- name: other_sections_titles
sequence: string
- name: other_sections_texts
sequence: string
- name: other_sections_sec_types
sequence: string
- name: all_sections_titles
sequence: string
- name: all_sections_texts
sequence: string
- name: all_sections_sec_types
sequence: string
- name: keywords
sequence: string
- name: whole_article_text
dtype: string
- name: whole_article_abstract
dtype: string
- name: background_conclusion_text
dtype: string
- name: background_conclusion_abstract
dtype: string
- name: whole_article_text_length
dtype: int64
- name: whole_article_abstract_length
dtype: int64
- name: num_sections
dtype: int64
- name: most_frequent_words
sequence: string
- name: keybert_topics
sequence: string
- name: annotated_base_background_abstract_prompt
dtype: string
- name: annotated_base_methods_abstract_prompt
dtype: string
- name: annotated_base_results_abstract_prompt
dtype: string
- name: annotated_base_conclusions_abstract_prompt
dtype: string
- name: annotated_base_whole_article_abstract_prompt
dtype: string
- name: annotated_base_background_conclusion_abstract_prompt
dtype: string
- name: annotated_keywords_background_abstract_prompt
dtype: string
- name: annotated_keywords_methods_abstract_prompt
dtype: string
- name: annotated_keywords_results_abstract_prompt
dtype: string
- name: annotated_keywords_conclusions_abstract_prompt
dtype: string
- name: annotated_keywords_whole_article_abstract_prompt
dtype: string
- name: annotated_keywords_background_conclusion_abstract_prompt
dtype: string
- name: annotated_mesh_background_abstract_prompt
dtype: string
- name: annotated_mesh_methods_abstract_prompt
dtype: string
- name: annotated_mesh_results_abstract_prompt
dtype: string
- name: annotated_mesh_conclusions_abstract_prompt
dtype: string
- name: annotated_mesh_whole_article_abstract_prompt
dtype: string
- name: annotated_mesh_background_conclusion_abstract_prompt
dtype: string
- name: annotated_keybert_background_abstract_prompt
dtype: string
- name: annotated_keybert_methods_abstract_prompt
dtype: string
- name: annotated_keybert_results_abstract_prompt
dtype: string
- name: annotated_keybert_conclusions_abstract_prompt
dtype: string
- name: annotated_keybert_whole_article_abstract_prompt
dtype: string
- name: annotated_keybert_background_conclusion_abstract_prompt
dtype: string
- name: annotated_most_frequent_background_abstract_prompt
dtype: string
- name: annotated_most_frequent_methods_abstract_prompt
dtype: string
- name: annotated_most_frequent_results_abstract_prompt
dtype: string
- name: annotated_most_frequent_conclusions_abstract_prompt
dtype: string
- name: annotated_most_frequent_whole_article_abstract_prompt
dtype: string
- name: annotated_most_frequent_background_conclusion_abstract_prompt
dtype: string
- name: annotated_tf_idf_background_abstract_prompt
dtype: string
- name: annotated_tf_idf_methods_abstract_prompt
dtype: string
- name: annotated_tf_idf_results_abstract_prompt
dtype: string
- name: annotated_tf_idf_conclusions_abstract_prompt
dtype: string
- name: annotated_tf_idf_whole_article_abstract_prompt
dtype: string
- name: annotated_tf_idf_background_conclusion_abstract_prompt
dtype: string
- name: annotated_entity_plan_background_abstract_prompt
dtype: string
- name: annotated_entity_plan_methods_abstract_prompt
dtype: string
- name: annotated_entity_plan_results_abstract_prompt
dtype: string
- name: annotated_entity_plan_conclusions_abstract_prompt
dtype: string
- name: annotated_entity_plan_whole_article_abstract_prompt
dtype: string
- name: annotated_entity_plan_background_conclusion_abstract_prompt
dtype: string
splits:
- name: train
num_bytes: 1107320460
num_examples: 8129
- name: test
num_bytes: 231845553
num_examples: 1743
- name: val
num_bytes: 238143455
num_examples: 1742
download_size: 559077241
dataset_size: 1577309468
---
# Dataset Card for "beamit-annotated-full-texts-dataset"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
acmc
原始信息汇总
数据集概述
数据集特征
数据集包含以下特征:
- title: 文章标题,数据类型为字符串。
- pmid: PubMed标识符,数据类型为字符串。
- background_abstract: 背景摘要,数据类型为字符串。
- background_abstract_label: 背景摘要标签,数据类型为字符串。
- methods_abstract: 方法摘要,数据类型为字符串。
- methods_abstract_label: 方法摘要标签,数据类型为字符串。
- results_abstract: 结果摘要,数据类型为字符串。
- results_abstract_label: 结果摘要标签,数据类型为字符串。
- conclusions_abstract: 结论摘要,数据类型为字符串。
- conclusions_abstract_label: 结论摘要标签,数据类型为字符串。
- mesh_descriptor_names: MeSH描述符名称,数据类型为字符串序列。
- pmcid: PubMed Central标识符,数据类型为字符串。
- background_title: 背景标题,数据类型为字符串。
- background_text: 背景文本,数据类型为字符串。
- methods_title: 方法标题,数据类型为字符串。
- methods_text: 方法文本,数据类型为字符串。
- results_title: 结果标题,数据类型为字符串。
- results_text: 结果文本,数据类型为字符串。
- conclusions_title: 结论标题,数据类型为字符串。
- conclusions_text: 结论文本,数据类型为字符串。
- other_sections_titles: 其他部分标题,数据类型为字符串序列。
- other_sections_texts: 其他部分文本,数据类型为字符串序列。
- other_sections_sec_types: 其他部分类型,数据类型为字符串序列。
- all_sections_titles: 所有部分标题,数据类型为字符串序列。
- all_sections_texts: 所有部分文本,数据类型为字符串序列。
- all_sections_sec_types: 所有部分类型,数据类型为字符串序列。
- keywords: 关键词,数据类型为字符串序列。
- whole_article_text: 全文文本,数据类型为字符串。
- whole_article_abstract: 全文摘要,数据类型为字符串。
- background_conclusion_text: 背景结论文本,数据类型为字符串。
- background_conclusion_abstract: 背景结论摘要,数据类型为字符串。
- whole_article_text_length: 全文文本长度,数据类型为整数。
- whole_article_abstract_length: 全文摘要长度,数据类型为整数。
- num_sections: 部分数量,数据类型为整数。
- most_frequent_words: 最频繁词汇,数据类型为字符串序列。
- keybert_topics: KeyBERT主题,数据类型为字符串序列。
- annotated_base_background_abstract_prompt: 标注基础背景摘要提示,数据类型为字符串。
- annotated_base_methods_abstract_prompt: 标注基础方法摘要提示,数据类型为字符串。
- annotated_base_results_abstract_prompt: 标注基础结果摘要提示,数据类型为字符串。
- annotated_base_conclusions_abstract_prompt: 标注基础结论摘要提示,数据类型为字符串。
- annotated_base_whole_article_abstract_prompt: 标注基础全文摘要提示,数据类型为字符串。
- annotated_base_background_conclusion_abstract_prompt: 标注基础背景结论摘要提示,数据类型为字符串。
- annotated_keywords_background_abstract_prompt: 标注关键词背景摘要提示,数据类型为字符串。
- annotated_keywords_methods_abstract_prompt: 标注关键词方法摘要提示,数据类型为字符串。
- annotated_keywords_results_abstract_prompt: 标注关键词结果摘要提示,数据类型为字符串。
- annotated_keywords_conclusions_abstract_prompt: 标注关键词结论摘要提示,数据类型为字符串。
- annotated_keywords_whole_article_abstract_prompt: 标注关键词全文摘要提示,数据类型为字符串。
- annotated_keywords_background_conclusion_abstract_prompt: 标注关键词背景结论摘要提示,数据类型为字符串。
- annotated_mesh_background_abstract_prompt: 标注MeSH背景摘要提示,数据类型为字符串。
- annotated_mesh_methods_abstract_prompt: 标注MeSH方法摘要提示,数据类型为字符串。
- annotated_mesh_results_abstract_prompt: 标注MeSH结果摘要提示,数据类型为字符串。
- annotated_mesh_conclusions_abstract_prompt: 标注MeSH结论摘要提示,数据类型为字符串。
- annotated_mesh_whole_article_abstract_prompt: 标注MeSH全文摘要提示,数据类型为字符串。
- annotated_mesh_background_conclusion_abstract_prompt: 标注MeSH背景结论摘要提示,数据类型为字符串。
- annotated_keybert_background_abstract_prompt: 标注KeyBERT背景摘要提示,数据类型为字符串。
- annotated_keybert_methods_abstract_prompt: 标注KeyBERT方法摘要提示,数据类型为字符串。
- annotated_keybert_results_abstract_prompt: 标注KeyBERT结果摘要提示,数据类型为字符串。
- annotated_keybert_conclusions_abstract_prompt: 标注KeyBERT结论摘要提示,数据类型为字符串。
- annotated_keybert_whole_article_abstract_prompt: 标注KeyBERT全文摘要提示,数据类型为字符串。
- annotated_keybert_background_conclusion_abstract_prompt: 标注KeyBERT背景结论摘要提示,数据类型为字符串。
- annotated_most_frequent_background_abstract_prompt: 标注最频繁词汇背景摘要提示,数据类型为字符串。
- annotated_most_frequent_methods_abstract_prompt: 标注最频繁词汇方法摘要提示,数据类型为字符串。
- annotated_most_frequent_results_abstract_prompt: 标注最频繁词汇结果摘要提示,数据类型为字符串。
- annotated_most_frequent_conclusions_abstract_prompt: 标注最频繁词汇结论摘要提示,数据类型为字符串。
- annotated_most_frequent_whole_article_abstract_prompt: 标注最频繁词汇全文摘要提示,数据类型为字符串。
- annotated_most_frequent_background_conclusion_abstract_prompt: 标注最频繁词汇背景结论摘要提示,数据类型为字符串。
- annotated_tf_idf_background_abstract_prompt: 标注TF-IDF背景摘要提示,数据类型为字符串。
- annotated_tf_idf_methods_abstract_prompt: 标注TF-IDF方法摘要提示,数据类型为字符串。
- annotated_tf_idf_results_abstract_prompt: 标注TF-IDF结果摘要提示,数据类型为字符串。
- annotated_tf_idf_conclusions_abstract_prompt: 标注TF-IDF结论摘要提示,数据类型为字符串。
- annotated_tf_idf_whole_article_abstract_prompt: 标注TF-IDF全文摘要提示,数据类型为字符串。
- annotated_tf_idf_background_conclusion_abstract_prompt: 标注TF-IDF背景结论摘要提示,数据类型为字符串。
- annotated_entity_plan_background_abstract_prompt: 标注实体规划背景摘要提示,数据类型为字符串。
- annotated_entity_plan_methods_abstract_prompt: 标注实体规划方法摘要提示,数据类型为字符串。
- annotated_entity_plan_results_abstract_prompt: 标注实体规划结果摘要提示,数据类型为字符串。
- annotated_entity_plan_conclusions_abstract_prompt: 标注实体规划结论摘要提示,数据类型为字符串。
- annotated_entity_plan_whole_article_abstract_prompt: 标注实体规划全文摘要提示,数据类型为字符串。
- annotated_entity_plan_background_conclusion_abstract_prompt: 标注实体规划背景结论摘要提示,数据类型为字符串。
数据集划分
数据集分为以下几个部分:
- train: 训练集,包含8129个样本,总字节数为1107320460。
- test: 测试集,包含1743个样本,总字节数为231845553。
- val: 验证集,包含1742个样本,总字节数为238143455。
数据集大小
- 下载大小: 559077241字节
- 数据集大小: 1577309468字节



