bigbio/muchmore
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/muchmore
下载链接
链接失效反馈官方服务:
资源简介:
MuchMore项目使用的语料库是一个英语-德语的平行语料库,包含从Springer Link网站获取的科学医学摘要。每个语言大约有100万个词。摘要来自41种医学期刊,涵盖了不同的医学子领域(如神经学、放射学等)。下载的HTML文档经过多种方式的规范化处理,生成了干净的纯文本版本,包括标题、摘要和关键词。此外,语料库在句子级别上进行了对齐。自动注释包括词性标注、形态学分析(词形变化和分解)、语义类别(如UMLS、MeSH、EuroWordNet)和语义关系(来自UMLS)。
The corpus utilized in the MuchMore project is an English-German parallel corpus comprising scientific medical abstracts harvested from the Springer Link website. Each language version contains approximately one million words. The abstracts are sourced from 41 medical journals covering diverse medical subfields such as neurology, radiology, and others. The downloaded HTML documents were normalized through multiple processing pipelines to generate clean plain text versions including titles, abstracts and keywords. Additionally, the corpus was aligned at the sentence level. Automatic annotations include part-of-speech tagging, morphological analysis (inflection and decomposition), semantic categories (such as UMLS, MeSH, EuroWordNet) and semantic relations derived from UMLS.
提供机构:
bigbio
原始信息汇总
数据集概述
基本信息
- 名称: MuchMore
- 语言: 英语、德语
- 许可证: 未知
- 多语言性: 多语言
- PubMed可用性: 是
- 公开可用性: 是
数据集内容
- 来源: 来自Springer Link网站的英德双语科学医学摘要
- 规模: 约100万词条每种语言
- 内容构成: 来自41种医学期刊的摘要,涵盖神经学、放射学等医学子领域
- 格式: 包含标题、摘要和关键词的纯文本格式,句子级对齐
数据集任务
- 翻译 (TRANSL)
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
- 关系抽取 (RE)
自动标注信息
- 词性标注
- 形态学(屈折变化和分解)
- 语块
- 语义类别(UMLS、MeSH、EuroWordNet)
- 语义关系(UMLS)



