TaoLi_data

github2023-01-01 更新2025-02-07 收录

下载链接：

https://github.com/blcuicall/taoli

下载链接

链接失效反馈

资源简介：

Yu等人正在构建一个国际中文教育资源库，其中包含500多本国际中文教材、HSK考试题目、中文词典及其他资源。基于该资源库，TaoLi数据集正在被构建。指令的任务类型包括语法纠错、语义生成、文本简化和受控文本生成，总共包含88,000个实例。其中部分数据由模型生成，可能会存在错误。

Yu et al. are constructing an international Chinese educational resource library, which encompasses over 500 international Chinese textbooks, HSK examination questions, Chinese dictionaries, and other resources. Based on this resource library, the TaoLi dataset is being developed. The tasks of the dataset include grammar correction, semantic generation, text simplification, and controlled text generation, with a total of 88,000 instances. A portion of the data is generated by the model and may contain errors.

提供机构：

北京语言大学

创建时间：

2023-01-01

原始信息汇总

国际中文教育大模型 "桃李"（Taoli）1.0 数据集概述

数据集背景

针对国际中文教育领域构建的大语言模型
旨在解决通用大模型在垂直领域效果有限的问题
基于500余册国际中文教育教材、教辅书、汉语水平考试试题及学习者词典构建

数据集内容

通用指令微调数据

Alpaca-GPT4数据：52k中文，52k英文

国际中文教育指令微调数据

语法改错数据

来源：YACLC开发集（最小改动/流利数据）+ HSK作文评分数据（篇章级）
示例：提供学习者文本的语法错误修正

释义生成数据

来源：现代汉语词典和对外汉语词典
示例：词语在特定上下文中的含义解释

文本简化数据

来源：Multi-Reference Chinese Text Simplification Dataset
规模：723条复杂结构句子（含多参考简化句）
示例：将专业文本简化为适合非专业读者阅读

可控文本生成数据

来源：汉语国际教育动态语料库（CTC）
示例：展示特定语法点在句子中的应用

数据规模

总计88,000条高质量国际中文教育问答数据
包含：
- 9k语法改错数据
- 4k释义生成数据
- 6k文本简化数据
- 6k可控文本生成数据

模型信息

基座模型：LLaMA 7B
当前版本：taoli-llama-7b-1.0
训练方式：在Chinese-LLaMA-7B基础上进行指令微调

性能表现

考试能力测试（HSK4-6级）

考试级别	Taoli 1.0得分	GPT-4得分
HSK4	55	78
HSK5	60	85
HSK6	42	76

合作单位

北京语言大学
清华大学
东北大学
北京交通大学

使用限制

仅限学术研究用途
禁止商业使用
生成内容可能存在误差，需自行验证

引用格式

Plaintext @misc{Taoli-LLama, author={Jingsi Yu et al.}, title={Taoli Llama}, year={2023}, howpublished={url{https://github.com/blcuicall/taoli}}, }

搜集汇总

数据集介绍

构建方式

TaoLi_data数据集的构建依托于国际中文教育领域的丰富资源，包括500余册教材与教辅书、汉语水平考试试题及汉语学习者词典等。通过精心设计的指令形式，构建了88000条高质量的国际中文教育问答数据集。这些数据不仅涵盖了语法改错、释义生成、文本简化和可控文本生成等多个方面，还特别注重数据的多样性和实用性，确保了数据集的广泛适用性和深度。

特点

TaoLi_data数据集的特点在于其针对性和专业性。数据集不仅包含了大量的国际中文教育相关数据，还特别设计了多种指令形式，以适应不同学习者的需求。此外，数据集的构建充分考虑了语言学习的实际应用场景，如语法改错和文本简化等，使得数据集不仅适用于理论研究，也非常适合实际教学应用。

使用方法

TaoLi_data数据集的使用方法多样，主要适用于国际中文教育领域的研究和教学。研究人员可以利用该数据集进行语言模型的训练和测试，特别是在语法改错、释义生成等方面。教育工作者则可以利用这些数据来设计教学材料和课程，帮助学生更好地理解和掌握中文。此外，数据集还提供了丰富的API接口，方便开发者和研究者进行数据调用和模型集成。

背景与挑战

背景概述

TaoLi_data数据集是专为国际中文教育领域设计的大模型数据集，由北京语言大学、清华大学、东北大学和北京交通大学等机构联合开发。该数据集于2023年推出，旨在解决通用大语言模型在垂直领域应用效果有限的问题。通过整合500余册国际中文教育教材、教辅书、汉语水平考试试题及汉语学习者词典等资源，构建了包含88000条高质量问答的数据集。该数据集的推出，不仅为国际中文教育提供了强有力的技术支持，也为相关领域的研究和实践开辟了新的方向。

当前挑战

TaoLi_data数据集在构建和应用过程中面临多重挑战。首先，国际中文教育领域的语言表达和文化背景复杂多样，如何确保模型能够准确理解和生成符合学习者水平的语言表达，是一个亟待解决的问题。其次，数据集的构建依赖于大量高质量的教育资源，如何有效整合和利用这些资源，确保数据的多样性和代表性，是另一个重要挑战。此外，模型的指令微调和预训练过程需要大量的计算资源和时间，如何优化这一过程，提升模型的性能和效率，也是当前研究的重点。最后，如何确保模型生成内容的准确性和可靠性，避免误导学习者，是数据集应用过程中必须面对的关键问题。

常用场景

经典使用场景

TaoLi_data数据集在国际中文教育领域的大模型训练中扮演了核心角色。通过整合500余册教材、教辅书、汉语水平考试试题及学习者词典，构建了一个包含88000条高质量问答的数据集。这一数据集不仅支持模型的指令微调，还促进了模型在语法改错、释义生成、文本简化和可控文本生成等任务中的表现，极大地提升了模型在特定领域的适应性和准确性。

解决学术问题

TaoLi_data数据集解决了国际中文教育领域大模型在垂直应用中的局限性问题。通过提供大量针对性的训练数据，模型能够更好地理解和生成符合学习者水平的语言表达，有效辅助教学和学习过程。此外，数据集的应用还推动了自然语言处理技术在教育领域的深入应用，为相关学术研究提供了丰富的数据支持和实验平台。

衍生相关工作

基于TaoLi_data数据集，研究者们开发了多个经典的自然语言处理模型和应用。例如，Taoli LLaMA模型通过结合通用指令和国际中文教育指令数据进行微调，显著提升了模型在特定任务上的表现。此外，该数据集还激发了更多关于教育领域大模型的研究，如语法改错、文本简化和释义生成等，推动了相关技术的进步和应用范围的扩展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集