ACE (Automatic Content Extraction) 2005|自然语言处理数据集|内容提取数据集
收藏
- ACE (Automatic Content Extraction) 2005数据集首次发布,旨在推动自动内容提取技术的发展,包含多种语言和多种类型的文本数据。
- ACE 2005数据集首次应用于自然语言处理领域的研究,特别是在实体识别、关系抽取和事件检测等任务中。
- ACE 2005数据集成为自动内容提取领域的重要基准,被广泛用于评估和比较不同算法的性能。
- 随着深度学习技术的发展,ACE 2005数据集开始被用于训练和测试基于神经网络的模型,进一步提升了自动内容提取的准确性。
- ACE 2005数据集的影响力持续扩大,成为多个国际会议和研讨会的重要讨论内容,推动了相关技术的不断进步。
- 1The Automatic Content Extraction (ACE) Program - Linguistic Data ConsortiumLinguistic Data Consortium · 2005年
- 2A Survey on Automatic Content Extraction for Textual DocumentsIEEE · 2010年
- 3Automatic Content Extraction Using Deep Learning TechniquesUniversity of California, Berkeley · 2018年
- 4Evaluating the Performance of Automatic Content Extraction SystemsAssociation for Computing Machinery · 2015年
- 5Automatic Content Extraction for Multilingual DocumentsSpringer · 2017年
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录