bigbio/mlee|生物医学文本挖掘数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 语言: 英语
- 许可证: CC BY NC SA 3.0
- 多语言性: 单语种
- 数据集名称: MLEE
- 主页: http://www.nactem.ac.uk/MLEE/
- 是否公开: 是
- 是否可在PubMed上访问: 是
任务类型
- 事件抽取 (EVENT_EXTRACTION)
- 命名实体识别 (NAMED_ENTITY_RECOGNITION)
- 关系抽取 (RELATION_EXTRACTION)
- 共指消解 (COREFERENCE_RESOLUTION)
数据集描述
MLEE是一个事件抽取语料库,包含对关于血管生成论文摘要的手动标注。该数据集涵盖了实体、关系、事件和共指的标注,涉及分子、细胞、组织和器官级别的生物过程。
引用信息
@article{pyysalo2012event, title={Event extraction across multiple levels of biological organization}, author={Pyysalo, Sampo and Ohta, Tomoko and Miwa, Makoto and Cho, Han-Cheol and Tsujii, Junichi and Ananiadou, Sophia}, journal={Bioinformatics}, volume={28}, number={18}, pages={i575--i581}, year={2012}, publisher={Oxford University Press} }

ANC
美国国家语料库(American National Corpus,简称ANC)是一个大规模的电子美国英语语料库,包含多种类型文本及口语数据转录,旨在全面反映美国英语的多样性。其开放部分OANC约有1500万字,涵盖多种文体,且进行了自动标注。
anc.org 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是一个用于肺癌风险分类研究的数据集,随着低剂量胸部CT筛查项目的普及,该数据集变得越来越重要。
github 收录
PACT (Pairwise Auction Conversation Testbed)
PACT是一个用于语言模型对话议价的基准测试数据集。在每个20轮的匹配中,一个语言模型扮演买家,一个扮演卖家,双方都有隐藏的私有价值。每轮他们交换简短的公共消息,然后发布出价或要价;当出价满足要价时交易达成。数据集包含5000+个1对1游戏,每个游戏20轮,并提供完整的对话日志
github 收录
中国乡镇 GeoJSON 数据
这个数据集包含了中国所有乡镇的地理区域数据,以GeoJSON格式提供。
github 收录