TextualChoices-1K

Name: TextualChoices-1K
Creator: 以色列理工学院
Published: 2025-03-18 16:10:33
License: 暂无描述

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

http://arxiv.org/abs/2503.14004v1

下载链接

链接失效反馈

官方服务：

资源简介：

TextualChoices-1K数据集是由以色列理工学院的研究人员创建的，包含1000个文本描述的一对一选择任务。这些任务是通过大型语言模型将随机采样的数值彩票分布转换成自然语言描述而构建的，每个任务由平均31名参与者完成。该数据集旨在探索和预测人们在面临文本描述的选择任务时的决策行为。

The TextualChoices-1K dataset was created by researchers at the Technion – Israel Institute of Technology, consisting of 1,000 one-on-one choice tasks described in natural language. These tasks were constructed by converting randomly sampled numerical lottery distributions into natural language descriptions using large language models. On average, each task was completed by 31 participants. This dataset aims to explore and predict human decision-making behaviors when facing choice tasks presented via natural language descriptions.

提供机构：

以色列理工学院

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

TextualChoices-1K数据集的构建基于对人类在文本描述的彩票选择任务中的决策行为的研究。首先，研究者从大量的数值彩票分布中随机采样，随后利用大型语言模型（LLMs）将这些数值分布转换为自然语言描述，避免直接提及具体的数值或概率。每个选项生成多个描述，并从中随机选择一个用于数据集。最终，数据集包含1000个二元选择任务，每个任务由平均31名参与者完成，参与者通过Prolific平台招募，并在无反馈的情况下做出单次决策。

特点

TextualChoices-1K数据集的特点在于其完全基于文本描述的彩票选择任务，摒弃了传统的数值描述方式。这种文本描述方式更贴近现实世界中的决策情境，使得数据集能够更好地反映人类在模糊和主观信息下的决策行为。此外，数据集的每个任务都经过精心设计，确保文本描述的准确性，同时保留了彩票的潜在收益分布。这种设计使得数据集能够用于探索文本信息如何影响人类的决策过程，并为基于自然语言处理的决策预测模型提供了丰富的训练数据。

使用方法

TextualChoices-1K数据集的使用方法主要集中在利用大型语言模型（LLMs）进行决策预测。研究者通过微调预训练的LLMs（如RoBERTa和GPT-4o）来适应文本描述的选择任务，并使用嵌入技术将文本转换为数值表示，以便进行回归分析。此外，数据集还可用于测试不同模型在文本和数值描述任务中的表现差异，探索行为理论与机器学习模型的结合效果。通过对比纯数据驱动模型与结合行为理论的混合模型，研究者能够深入理解文本信息在决策预测中的作用，并为未来的模型优化提供指导。

背景与挑战

背景概述

TextualChoices-1K数据集由以色列理工学院的数据与决策科学学院的研究人员Eyal Marantz和Ori Plonsky于2025年创建，旨在探索人类在文本描述的彩票选择中的决策行为。该数据集包含1000个一次性二元选择任务，每个任务通过自然语言描述彩票选项，而非传统的数值描述。这一研究填补了长期以来经济学、心理学和认知科学领域对文本描述决策行为研究的空白，挑战了传统基于数值描述的决策模型。TextualChoices-1K的创建标志着决策科学从数值描述向更贴近现实世界的文本描述转变的重要一步，推动了自然语言处理与行为决策理论的交叉研究。

当前挑战

TextualChoices-1K数据集面临的主要挑战包括两个方面。首先，文本描述的模糊性和主观性使得决策预测更加复杂，传统的数值决策模型无法直接应用于此类任务。尽管大语言模型（LLMs）在文本处理方面表现出色，但其在捕捉人类决策中的细微差异时仍存在局限性。其次，数据集的构建过程中，如何将数值彩票分布准确转化为自然语言描述，同时避免引入偏差，是一个技术难题。研究人员通过使用LLMs生成文本描述，并确保其忠实于原始数值分布，但仍需解决描述多样性与一致性之间的平衡问题。此外，如何将行为决策理论（如BEAST模型）与LLMs结合，以提升预测精度，也是未来研究的重要方向。

常用场景

经典使用场景

TextualChoices-1K数据集主要用于研究人类在文本描述的决策任务中的行为模式。通过提供1000个一次性二元选择任务，该数据集为研究人员提供了一个独特的平台，用于探索人类在面对文本描述的选项时如何做出决策。这些任务模拟了现实世界中的决策情境，例如金融投资、健康选择等，帮助研究者理解文本信息如何影响决策过程。

实际应用

TextualChoices-1K数据集的实际应用场景广泛，尤其在需要理解人类在复杂、模糊信息下的决策行为时具有重要意义。例如，在金融领域，该数据集可用于开发更精准的投资决策支持系统；在健康领域，可帮助设计更有效的健康信息传播策略。此外，该数据集还可用于教育、市场营销等领域，帮助优化决策支持工具的设计。

衍生相关工作

TextualChoices-1K数据集衍生了一系列经典研究工作，特别是在结合大语言模型与行为理论的混合模型方面。例如，基于该数据集的研究推动了RoBERTa和GPT-4等模型在文本决策任务中的优化与应用。此外，该数据集还启发了对行为理论在文本决策任务中适用性的重新评估，促进了新的建模策略的开发，如基于BEAST理论的混合模型在数值与文本决策任务中的对比研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集