ACE (Automatic Content Extraction) 2005|自然语言处理数据集|内容提取数据集
收藏
- ACE (Automatic Content Extraction) 2005数据集首次发布,旨在推动自动内容提取技术的发展,包含多种语言和多种类型的文本数据。
- ACE 2005数据集首次应用于自然语言处理领域的研究,特别是在实体识别、关系抽取和事件检测等任务中。
- ACE 2005数据集成为自动内容提取领域的重要基准,被广泛用于评估和比较不同算法的性能。
- 随着深度学习技术的发展,ACE 2005数据集开始被用于训练和测试基于神经网络的模型,进一步提升了自动内容提取的准确性。
- ACE 2005数据集的影响力持续扩大,成为多个国际会议和研讨会的重要讨论内容,推动了相关技术的不断进步。
- 1The Automatic Content Extraction (ACE) Program - Linguistic Data ConsortiumLinguistic Data Consortium · 2005年
- 2A Survey on Automatic Content Extraction for Textual DocumentsIEEE · 2010年
- 3Automatic Content Extraction Using Deep Learning TechniquesUniversity of California, Berkeley · 2018年
- 4Evaluating the Performance of Automatic Content Extraction SystemsAssociation for Computing Machinery · 2015年
- 5Automatic Content Extraction for Multilingual DocumentsSpringer · 2017年
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录