five

Hybrid Human-LLM Corpus

收藏
arXiv2024-03-12 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2403.06965v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究开发了一个结合人类和大型语言模型(LLM)的混合语料库,专注于罕见的语言现象——因果运动构造(CMC)。数据集包含765个经过手动验证的CMC实例,用于评估GPT、Gemini、Llama2和Mistral模型对CMC的理解。此外,还通过自动扩展创建了一个包含127,955个高可能性CMC实例的半自动数据集。这些数据集的构建旨在解决大型语言模型在处理复杂语言结构时的性能问题,特别是在非典型CMC实例上的表现。

This study develops a hybrid corpus integrating human annotators and Large Language Models (LLMs), focusing on the rare linguistic phenomenon of Causal Motion Construction (CMC). The corpus includes 765 manually verified CMC instances, which are utilized to assess the models' comprehension of CMC, covering GPT, Gemini, Llama2, and Mistral. Additionally, a semi-automated dataset containing 127,955 high-probability CMC instances was generated through automatic expansion. These datasets are constructed to address the performance limitations of large language models when processing complex linguistic structures, particularly their performance on atypical CMC instances.
提供机构:
慕尼黑大学 & 慕尼黑机器学习中心
创建时间:
2024-03-12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作