jdpressman/manifold-baseline-curated-v0
收藏Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jdpressman/manifold-baseline-curated-v0
下载链接
链接失效反馈官方服务:
资源简介:
Curated Manifold Markets Subset数据集是从Manifold Markets平台筛选出的10,000个已解决的yes/no格式的问题。该数据集旨在为预测模型提供训练和验证的基础。由于Manifold Markets平台对问题的审核较为宽松,平台上存在大量低质量的问题,因此该数据集通过使用LLM评估器,基于三个标准(问题的个人化程度、是否符合预测问题的规则、是否过于元或基于运气)来筛选出高质量的问题。数据集的结构是Manifold Market Details JSON对象的列表。
The Curated Manifold Markets Subset dataset consists of 10,000 resolved yes/no format questions from the Manifold Markets platform. This dataset is intended to provide a foundation for training and validating forecasting models. Due to the libertarian approach to question moderation on Manifold Markets, the platform hosts a significant amount of low-quality questions. Therefore, this dataset uses an LLM evaluator to filter out high-quality questions based on three criteria: the extent to which the market is about the personal life of a non-famous person, whether the market disregards the established rules and best practices for drafting forecasting questions, and how meta, luck-based, or facetious a market is. The dataset structure is a list of Manifold Market Details JSON objects.
提供机构:
jdpressman
原始信息汇总
Curated Manifold Markets Subset
数据集概述
- 数据来源: Manifold Markets
- 数据类型: 10,000个已解决的yes/no格式问题
- 数据筛选: 使用LLM评估器根据特定标准筛选,确保数据的高信号质量
使用场景
- 基准调优策略和验证集: 用于回答预测问题的基准调优策略和验证集
- 训练评估器: 由于预测问题以yes/no形式解决,可用于训练评估器
- 数据集转换: 作为进一步数据集转换的良好基础
数据结构
- 数据格式: 列表形式的Manifold Market Details JSON对象
- 示例字段:
id: 市场IDcreatorId: 创建者IDcreatorUsername: 创建者用户名creatorName: 创建者名称createdTime: 创建时间closeTime: 关闭时间question: 问题probability: 概率uniqueBettorCount: 唯一投注者数量resolution: 解决结果textDescription: 描述和解决标准
偏见与限制
- 筛选标准: 使用SOLAR 10.7B base和weave评估器进行筛选,基于三个标准:
- 市场是否涉及非名人个人生活
- 市场是否遵守预测问题起草的规则和最佳实践
- 市场是否过于元、基于运气或轻浮
- 潜在偏见: 评估器可能偏向于回答“no”的问题,建议检查yes和no问题的分布
未来改进计划
- 模型训练: 基于此数据集训练模型以获得预测基准
- 分布检查: 检查所选子集与完整数据集中yes和no问题的分布
- 评估器改进: 调整评估器问题,使其包含yes和no答案的混合



