five

DuIE|自然语言处理数据集|知识图谱数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
自然语言处理
知识图谱
下载链接:
https://opendatalab.org.cn/OpenDataLab/DuIE
下载链接
链接失效反馈
资源简介:
DuIE是一个大规模的人工注释数据集,可用于评估基于架构的知识提取算法。 数据集包含210,000多个现实世界的汉语句子,涉及450,000多个SPO三元组 (即: 主语-谓语-宾语三元组),由预先指定的模式和49个谓语组成。 该数据集中的所有句子均提取自百度百科和百度新闻搜索。此数据集中的文本涵盖了现实世界应用程序中的各个领域,例如新闻,娱乐,用户生成的内容。 数据集由以下数据组成: 214,590句子,其中: 172,983句子是训练集; 21,626句子是开发集; 19,981句子是测试集。457,866示例,其中: 363,960示例是训练集; 45,558示例是开发集; 48,348示例是测试集。
提供机构:
OpenDataLab
创建时间:
2023-04-20
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

高精度负荷预测

超短期统调负荷预测 短期统调负荷预测 D+45统调负荷预测

郑州数据交易中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

Tunnel Crack Detection Thermal And Visible Dataset (CrackTAV)

一个用于隧道裂缝检测的多模态数据集,包含多种通道配置,包括RGB、IR、融合的RGB-IR、RGB-T和RGB-IR模态。

github 收录