five

C-CLUE|文言文理解数据集|自然语言处理数据集

收藏
github2021-08-01 更新2025-02-07 收录
文言文理解
自然语言处理
下载链接:
https://github.com/jizijing/C-CLUE
下载链接
链接失效反馈
资源简介:
C-CLUE数据集来源于一个众包标注系统,是用于评估文言文理解能力的基准数据集。它包含19,150个实体和4,365对关系。该数据集的主要目的是衡量大型语言模型在文言文研究领域中与命名实体识别(NER)和关系抽取(RE)任务相关的熟练程度。其评估方法基于代码评估。

The C-CLUE dataset originates from a crowdsourcing annotation system and serves as a benchmark for evaluating the ability to understand classical Chinese. It encompasses 19,150 entities and 4,365 pairs of relationships. The primary objective of this dataset is to measure the proficiency of large language models in the field of classical Chinese research, particularly in tasks related to Named Entity Recognition (NER) and Relationship Extraction (RE). The evaluation method is based on code assessment.
提供机构:
天津大学
创建时间:
2021-08-01
原始信息汇总

C-CLUE 数据集概述

数据集简介

  • 数据集包含古文关系标注和命名实体识别任务的相关数据。
  • 提供多种预训练模型基准(BERT、BERT-wwm、RoBERTa_zh、Zhongkeda-BERT)。
  • 包含完整的训练、预测和评估流程代码。

文件结构

  • data_ner:NER任务的训练、校验及测试数据集。
  • new_classification_data_guwen:关系分类任务的训练、校验及测试数据集。
  • sequence_labeling_data_guwen:关系数据序列标注任务的训练、校验及测试数据集。
  • raw_data_guwen:古文关系标注原始数据。

主要脚本文件

  • run_NER.py:命名实体识别微调代码。
  • predicate_data_manager.py:原始数据处理为关系分类任务数据集。
  • run_predicate_classification.py:关系分类任务微调代码。
  • sequence_labeling_data_manager.py:原始数据处理为关系数据序列标注任务数据集。
  • run_sequnce_labeling.py:关系数据序列标注任务微调代码。
  • prepare_data_for_labeling_infer.py:关系分类模型预测结果转换。
  • produce_submit_json_file.py:生成关系抽取结果。
  • evaluate_classification.py:关系分类性能评测代码。
  • evaluate_labeling.py:关系抽取性能评测代码。

训练参数

  • 批量大小:32
  • 学习率(Adam):5e-5, 3e-5, 2e-5
  • 训练周期:3到10个周期
  • 最大序列长度:128或256(可调)

任务流程

  1. 命名实体识别

    • 运行run_NER.py进行训练和预测。
  2. 关系抽取

    • 训练阶段
      • 准备关系分类数据(predicate_data_manager.py)。
      • 训练关系分类模型(run_predicate_classification.py)。
      • 准备序列标注数据(sequence_labeling_data_manager.py)。
      • 训练序列标注模型(run_sequnce_labeling.py)。
    • 预测阶段
      • 关系分类模型预测(run_predicate_classification.py)。
      • 转换预测结果为序列标注输入(prepare_data_for_labeling_infer.py)。
      • 序列标注模型预测(run_sequnce_labeling.py)。
      • 生成实体-关系结果(produce_submit_json_file.py)。
    • 评估阶段
      • 评估关系分类性能(evaluate_classification.py)。
      • 评估关系抽取性能(evaluate_labeling.py)。
AI搜集汇总
数据集介绍
main_image_url
构建方式
C-CLUE数据集的构建基于多种预训练模型,包括BERT、BERT-wwm、RoBERTa_zh和Zhongkeda-BERT。这些模型通过不同的预训练策略和数据集进行优化,例如BERT-wwm采用全词掩码技术,RoBERTa_zh则通过更大的模型参数和批量大小以及动态掩码策略提升性能。数据集的构建过程中,还特别考虑了古文数据的处理,通过调整最大句子长度和设置受限的束搜索来优化模型对古文的理解和生成。
使用方法
使用C-CLUE数据集时,用户首先需要根据任务类型选择相应的数据文件夹和预训练模型。通过提供的Python脚本,用户可以轻松进行模型的训练、预测和评估。例如,命名实体识别任务可以通过运行`run_NER.py`脚本进行,而关系分类和序列标注任务则分别通过`run_predicate_classification.py`和`run_sequnce_labeling.py`脚本实现。此外,数据集还提供了数据预处理和结果生成的脚本,如`prepare_data_for_labeling_infer.py`和`produce_submit_json_file.py`,以支持完整的工作流程。
背景与挑战
背景概述
C-CLUE数据集是一个专注于中文自然语言处理(NLP)任务的数据集,旨在推动中文文本理解与处理技术的发展。该数据集的创建时间可追溯至BERT模型发布后不久,主要研究人员或机构包括Google AI Research Institute等。C-CLUE的核心研究问题集中在命名实体识别(NER)、关系分类以及序列标注等任务上,这些任务在信息抽取、知识图谱构建等领域具有重要应用价值。通过引入BERT、BERT-wwm、RoBERTa_zh等预训练模型,C-CLUE为中文NLP领域提供了高质量的基准数据,显著提升了模型在复杂语言环境下的表现。
当前挑战
C-CLUE数据集在解决中文NLP任务时面临多重挑战。首先,中文语言的复杂性和多样性使得命名实体识别和关系分类任务尤为困难,尤其是在古文等非现代文本中,语义和句法结构更加复杂。其次,数据集的构建过程中,如何确保标注的一致性和准确性是一个关键问题,特别是在处理古文数据时,标注者需要具备深厚的语言学知识。此外,预训练模型的微调过程对超参数的选择极为敏感,如何在有限的训练数据上实现模型的最优性能,也是研究者需要克服的技术难题。这些挑战共同构成了C-CLUE数据集在推动中文NLP技术进步过程中的核心障碍。
常用场景
经典使用场景
C-CLUE数据集在自然语言处理领域中被广泛应用于命名实体识别(NER)和关系抽取任务。通过提供丰富的古文和现代文数据,该数据集为研究者提供了一个多任务学习的平台,能够有效支持BERT、BERT-wwm、RoBERTa_zh等预训练模型的微调与评估。特别是在古文关系标注任务中,C-CLUE通过序列标注和关系分类的结合,显著提升了模型对复杂语义关系的捕捉能力。
解决学术问题
C-CLUE数据集解决了自然语言处理中的多个关键问题,尤其是在古文与现代文混合场景下的实体识别和关系抽取任务。通过提供高质量的古文标注数据,该数据集填补了古文处理领域的空白,帮助研究者更好地理解古文中的语义结构和关系。此外,C-CLUE还支持动态掩码和限制性束搜索等技术,进一步提升了模型在复杂语境下的表现。
实际应用
在实际应用中,C-CLUE数据集被广泛用于智能问答系统、知识图谱构建以及古籍数字化等领域。通过其提供的命名实体识别和关系抽取功能,研究者能够从大量古文和现代文数据中提取出关键信息,进而构建更加精准的知识库。例如,在古籍数字化过程中,C-CLUE帮助自动识别古籍中的人物、地点和事件,并分析它们之间的关系,极大地提高了古籍整理的效率。
数据集最近研究
最新研究方向
在自然语言处理领域,C-CLUE数据集的最新研究方向主要集中在基于BERT及其变体的预训练模型优化与应用上。近年来,BERT-wwm和RoBERTa_zh等模型的引入,通过全词掩码和动态掩码等技术,显著提升了模型在中文语境下的表现。特别是Zhongkeda-BERT的提出,结合了古文数据集进行进一步预训练,扩展了模型在古文处理中的应用范围。这些技术的进步不仅推动了命名实体识别和关系抽取任务的精度提升,还为古文文本的自动化处理提供了新的可能性。随着深度学习技术的不断发展,C-CLUE数据集在中文自然语言处理领域的研究将继续深化,为语言模型的优化和应用场景的拓展提供重要支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录