five

TaoLi_data|中文教育数据集|自然语言处理数据集

收藏
github2023-01-01 更新2025-02-07 收录
中文教育
自然语言处理
下载链接:
https://github.com/blcuicall/taoli
下载链接
链接失效反馈
资源简介:
Yu等人正在构建一个国际中文教育资源库,其中包含500多本国际中文教材、HSK考试题目、中文词典及其他资源。基于该资源库,TaoLi数据集正在被构建。指令的任务类型包括语法纠错、语义生成、文本简化和受控文本生成,总共包含88,000个实例。其中部分数据由模型生成,可能会存在错误。

Yu et al. are constructing an international Chinese educational resource library, which encompasses over 500 international Chinese textbooks, HSK examination questions, Chinese dictionaries, and other resources. Based on this resource library, the TaoLi dataset is being developed. The tasks of the dataset include grammar correction, semantic generation, text simplification, and controlled text generation, with a total of 88,000 instances. A portion of the data is generated by the model and may contain errors.
提供机构:
北京语言大学
创建时间:
2023-01-01
原始信息汇总

国际中文教育大模型 "桃李"(Taoli)1.0 数据集概述

数据集背景

  • 针对国际中文教育领域构建的大语言模型
  • 旨在解决通用大模型在垂直领域效果有限的问题
  • 基于500余册国际中文教育教材、教辅书、汉语水平考试试题及学习者词典构建

数据集内容

通用指令微调数据

  • Alpaca-GPT4数据:52k中文,52k英文

国际中文教育指令微调数据

语法改错数据

  • 来源:YACLC开发集(最小改动/流利数据)+ HSK作文评分数据(篇章级)
  • 示例:提供学习者文本的语法错误修正

释义生成数据

  • 来源:现代汉语词典和对外汉语词典
  • 示例:词语在特定上下文中的含义解释

文本简化数据

  • 来源:Multi-Reference Chinese Text Simplification Dataset
  • 规模:723条复杂结构句子(含多参考简化句)
  • 示例:将专业文本简化为适合非专业读者阅读

可控文本生成数据

  • 来源:汉语国际教育动态语料库(CTC)
  • 示例:展示特定语法点在句子中的应用

数据规模

  • 总计88,000条高质量国际中文教育问答数据
  • 包含:
    • 9k语法改错数据
    • 4k释义生成数据
    • 6k文本简化数据
    • 6k可控文本生成数据

模型信息

  • 基座模型:LLaMA 7B
  • 当前版本:taoli-llama-7b-1.0
  • 训练方式:在Chinese-LLaMA-7B基础上进行指令微调

性能表现

考试能力测试(HSK4-6级)

考试级别 Taoli 1.0得分 GPT-4得分
HSK4 55 78
HSK5 60 85
HSK6 42 76

合作单位

  • 北京语言大学
  • 清华大学
  • 东北大学
  • 北京交通大学

使用限制

  • 仅限学术研究用途
  • 禁止商业使用
  • 生成内容可能存在误差,需自行验证

引用格式

Plaintext @misc{Taoli-LLama, author={Jingsi Yu et al.}, title={Taoli Llama}, year={2023}, howpublished={url{https://github.com/blcuicall/taoli}}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
TaoLi_data数据集的构建依托于国际中文教育领域的丰富资源,包括500余册教材与教辅书、汉语水平考试试题及汉语学习者词典等。通过精心设计的指令形式,构建了88000条高质量的国际中文教育问答数据集。这些数据不仅涵盖了语法改错、释义生成、文本简化和可控文本生成等多个方面,还特别注重数据的多样性和实用性,确保了数据集的广泛适用性和深度。
特点
TaoLi_data数据集的特点在于其针对性和专业性。数据集不仅包含了大量的国际中文教育相关数据,还特别设计了多种指令形式,以适应不同学习者的需求。此外,数据集的构建充分考虑了语言学习的实际应用场景,如语法改错和文本简化等,使得数据集不仅适用于理论研究,也非常适合实际教学应用。
使用方法
TaoLi_data数据集的使用方法多样,主要适用于国际中文教育领域的研究和教学。研究人员可以利用该数据集进行语言模型的训练和测试,特别是在语法改错、释义生成等方面。教育工作者则可以利用这些数据来设计教学材料和课程,帮助学生更好地理解和掌握中文。此外,数据集还提供了丰富的API接口,方便开发者和研究者进行数据调用和模型集成。
背景与挑战
背景概述
TaoLi_data数据集是专为国际中文教育领域设计的大模型数据集,由北京语言大学、清华大学、东北大学和北京交通大学等机构联合开发。该数据集于2023年推出,旨在解决通用大语言模型在垂直领域应用效果有限的问题。通过整合500余册国际中文教育教材、教辅书、汉语水平考试试题及汉语学习者词典等资源,构建了包含88000条高质量问答的数据集。该数据集的推出,不仅为国际中文教育提供了强有力的技术支持,也为相关领域的研究和实践开辟了新的方向。
当前挑战
TaoLi_data数据集在构建和应用过程中面临多重挑战。首先,国际中文教育领域的语言表达和文化背景复杂多样,如何确保模型能够准确理解和生成符合学习者水平的语言表达,是一个亟待解决的问题。其次,数据集的构建依赖于大量高质量的教育资源,如何有效整合和利用这些资源,确保数据的多样性和代表性,是另一个重要挑战。此外,模型的指令微调和预训练过程需要大量的计算资源和时间,如何优化这一过程,提升模型的性能和效率,也是当前研究的重点。最后,如何确保模型生成内容的准确性和可靠性,避免误导学习者,是数据集应用过程中必须面对的关键问题。
常用场景
经典使用场景
TaoLi_data数据集在国际中文教育领域的大模型训练中扮演了核心角色。通过整合500余册教材、教辅书、汉语水平考试试题及学习者词典,构建了一个包含88000条高质量问答的数据集。这一数据集不仅支持模型的指令微调,还促进了模型在语法改错、释义生成、文本简化和可控文本生成等任务中的表现,极大地提升了模型在特定领域的适应性和准确性。
解决学术问题
TaoLi_data数据集解决了国际中文教育领域大模型在垂直应用中的局限性问题。通过提供大量针对性的训练数据,模型能够更好地理解和生成符合学习者水平的语言表达,有效辅助教学和学习过程。此外,数据集的应用还推动了自然语言处理技术在教育领域的深入应用,为相关学术研究提供了丰富的数据支持和实验平台。
衍生相关工作
基于TaoLi_data数据集,研究者们开发了多个经典的自然语言处理模型和应用。例如,Taoli LLaMA模型通过结合通用指令和国际中文教育指令数据进行微调,显著提升了模型在特定任务上的表现。此外,该数据集还激发了更多关于教育领域大模型的研究,如语法改错、文本简化和释义生成等,推动了相关技术的进步和应用范围的扩展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Billboard-Hot-100

该数据集包含了自1958年以来所有Billboard Hot 100榜单的历史数据,详细记录了每首歌曲的排名、日期、表演者等信息。

github 收录

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录