Open Causal Discovery Benchmark (OCDB)|因果发现数据集|大型语言模型数据集

arXiv2024-06-07 更新2024-06-17 收录

因果发现

大型语言模型

下载链接：

https://anonymous.4open.science/r/OCDB-6B6B

下载链接

链接失效反馈

资源简介：

Open Causal Discovery Benchmark (OCDB) 是由华中科技大学开发的一个基于真实数据的综合性因果发现基准数据集。该数据集旨在通过包含多种类型的真实数据，全面评估因果发现算法的性能，以推动大型语言模型（LLMs）的解释性和可靠性。OCDB 数据集涵盖了广泛的复杂场景和多样化的数据源，支持因果结构和因果效应的差异评估，有助于选择更合适的因果发现方法，从而提高LLMs的解释性和可信度。该数据集的应用领域包括但不限于医疗和金融等高风险领域，旨在解决因果关系理解和决策支持的问题。

提供机构：

华中科技大学

创建时间：

2024-06-07

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

NIST Thermochemical Database

NIST Thermochemical Database（NIST热化学数据库）是一个包含大量热化学数据的数据集，涵盖了各种化学物质的热力学性质，如焓、熵、自由能等。该数据库由美国国家标准与技术研究院（NIST）维护，旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

Tunnel Crack Detection Thermal And Visible Dataset (CrackTAV)

一个用于隧道裂缝检测的多模态数据集，包含多种通道配置，包括RGB、IR、融合的RGB-IR、RGB-T和RGB-IR模态。

github 收录