tip-of-my-tongue-known-item-search

Name: tip-of-my-tongue-known-item-search
Creator: Webis Group
Published: 2024-11-07 17:58:36
License: 暂无描述

Hugging Face2024-11-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/webis/tip-of-my-tongue-known-item-search

下载链接

链接失效反馈

官方服务：

资源简介：

TOMT-KIS数据集是从r/tipofmytongue子版块收集的大规模已知项目问题集合，专注于用户无法通过搜索引擎解决信息需求并转向问答平台寻求帮助的情况。该数据集包含128万个问题，每个问题具有多种属性，包括问题的唯一标识符、标题、内容、创建时间戳以及问题是否已解决的标志。此外，对于标记为已解决的问题，数据集还包括检测到的答案、答案的时间戳以及讨论中提到的外部资源链接。数据集以JSONL格式提供，旨在用于已知项目问题性能预测的研究。

提供机构：

Webis Group

创建时间：

2024-11-05

原始信息汇总

TOMT-KIS (tip-of-my-tongue-known-item-search) 数据集

概述

名称: TOMT-KIS (tip-of-my-tongue-known-item-search)
语言: 英语
标签: 信息检索, TREC, tip-of-my-tongue, known-item-search, 自然语言处理, 信息检索
大小: 1M<n<10M
许可证: Apache 2.0

描述

TOMT-KIS 是一个大规模的已知项目问题数据集，包含来自 r/tipofmytongue 子版块的 128 万个已知项目问题。该数据集用于 QPP++@ECIR23 论文中的已知项目问题性能预测研究。

引用

如果使用 TOMT-KIS 数据集，请引用以下论文：

@InProceedings{froebe:2023c, author = {Maik Fr{"o}be and Eric Oliver Schmidt and Matthias Hagen}, booktitle = {QPP++ 2023: Query Performance Prediction and Its Evaluation in New Tasks}, month = apr, publisher = {CEUR-WS.org}, series = {CEUR Workshop Proceedings}, site = {Dublin, Irland}, title = {{A Large-Scale Dataset for Known-Item Question Performance Prediction}}, year = 2023 }

数据结构

TOMT-KIS 数据集以 JSONL 格式提供。每个问题包含所有爬取的数据属性，并在我们的启发式方法能够提取答案时添加所选答案。

数据实例

jsonl { "id": "2gbnla", "author": "alany611", "url": "http://www.reddit.com/r/tipofmytongue/comments/2gbnla/tomt_1990s_educational_cartoon_for_kids_to_learn/", "permalink": "/r/tipofmytongue/comments/2gbnla/tomt_1990s_educational_cartoon_for_kids_to_learn/", "title": "[TOMT] 1990s Educational Cartoon for kids to learn French", "content": "Hi all,

When I was really young, 3-5, I remember watching a cartoon that I think was supposed to teach kids French. I would guess it was made from 1990-1995, but possibly earlier.

It was in color and the episodes I remember featured a guy with a long, narrow, and crooked nose and greenish skin teaching kids how to count? There was also a scene that had some character running up a clock tower to change the time.

Overall, it was a pretty gloomy feel, iirc, and Id love to see it again if possible.", "created_utc": "1410647042", "link_flair_text": "Solved", "comments": [ { "author": "scarpoochi", "body": "Muzzy?

https://www.youtube.com/watch?v=mD9i39GENWU", "created_utc": "1410649099", "score": 11, "comments": [ { "author": "alany611", "body": "thank you!!!", "created_utc": "1410666273", "score": 1 } ] }, { "author": "pepitica", "body": "Muzzy! Its been driving me crazy for a while now!", "created_utc": "1410649896", "score": 6 } ], "answer_detected": True, "solved_utc": "1410649099", "chosen_answer": "Muzzy?

https://www.youtube.com/watch?v=mD9i39GENWU", "links_on_answer_path": [ "https://www.youtube.com/watch?v=mD9i39GENWU" ] }

数据字段

TOMT-KIS 包含每个问题的 128 个属性，例如：

id (int): 问题的唯一 Reddit 标识符
title (string): 问题的标题
content (string): 问题的主体文本内容
created_utc (date): 问题的发布时间戳
link_flair_text (string): 指示问题是否已解决；由版主设置
comments (string, json): 每个问题的完整讨论树

对于由版主标记为已解决的问题，我们运行了一个面向精度的答案识别启发式方法，并在启发式方法能够识别答案时添加了四个“新”属性：

answer_detected (boolean): 指示我们的启发式方法是否能够提取答案
solved_utc(date): 识别答案的发布时间戳
chosen_answer(string): 提取的答案
links_on_answer_path(list of strings): 包含在问题和答案帖子之间找到的所有 Reddit 外部页面的链接

搜集汇总

数据集介绍

构建方式

TOMT-KIS数据集构建于Reddit的r/tipofmytongue子论坛，该子论坛以用户寻求已知但难以回忆的信息而闻名。数据集包含了128万条已知项目问题，这些问题由用户在无法通过搜索引擎解决时发布。数据集的构建过程中，研究人员从Reddit爬取了相关问题的所有可用属性，并通过启发式方法提取了被选中的答案，最终以JSONL格式存储。

特点

TOMT-KIS数据集以其大规模和多样性著称，涵盖了129个属性，包括问题的唯一标识、标题、内容、发布时间、评论树等。特别地，数据集还包含了通过启发式方法提取的答案信息，如答案检测标志、答案发布时间、被选中的答案以及答案路径中的外部链接。这些丰富的属性为研究者在信息检索和自然语言处理领域提供了宝贵的数据资源。

使用方法

TOMT-KIS数据集可通过Hugging Face的`datasets`库轻松下载和使用。用户可以使用`load_dataset`函数加载数据集，并通过简单的Python代码访问数据集中的特定行、列或进行迭代操作。数据集的结构清晰，支持对每个问题的详细属性进行深入分析，为研究者在已知项目问题性能预测等任务中提供了便捷的数据支持。

背景与挑战

背景概述

TOMT-KIS（tip-of-my-tongue-known-item-search）数据集由Maik Fröbe、Eric Oliver Schmidt和Matthias Hagen等研究人员于2023年发布，旨在解决已知项目搜索中的性能预测问题。该数据集基于Reddit的r/tipofmytongue子论坛，收录了128万条已知项目搜索问题，涵盖了用户在无法通过搜索引擎找到特定信息时，转向问答平台寻求帮助的场景。TOMT-KIS的发布为信息检索领域提供了大规模的真实数据，推动了已知项目搜索性能预测的研究进展，并在QPP++@ECIR'23会议上得到了广泛关注。

当前挑战

TOMT-KIS数据集在构建和应用过程中面临多重挑战。首先，已知项目搜索问题通常涉及模糊或不完整的描述，如何准确识别和提取有效答案成为一大难题。其次，数据集中包含大量非结构化文本和复杂的评论树结构，处理和分析这些数据需要高效的算法和计算资源。此外，尽管数据集通过启发式方法提取了答案，但其精确性和完整性仍需进一步验证。这些挑战不仅影响了数据集的构建质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

TOMT-KIS数据集在信息检索领域具有重要应用，特别是在已知项目搜索（Known-Item Search）任务中。该数据集通过收集Reddit的r/tipofmytongue子论坛中的128万条已知项目问题，为研究者提供了一个丰富的资源，用于分析和预测用户在无法通过搜索引擎找到特定信息时的提问行为。这些数据不仅包含了问题的标题和内容，还记录了讨论的完整树结构，使得研究者能够深入探讨用户提问的模式和答案的生成过程。

解决学术问题

TOMT-KIS数据集解决了信息检索领域中一个关键问题：如何预测和提升已知项目问题的搜索性能。通过分析用户在Reddit上的提问行为，研究者可以开发出更高效的算法，帮助用户在无法通过传统搜索引擎找到答案时，通过社区讨论获得所需信息。该数据集的出现为相关研究提供了大量真实世界的数据支持，推动了信息检索技术的进步。

衍生相关工作

TOMT-KIS数据集自发布以来，已经衍生出多项经典研究工作。例如，基于该数据集的研究提出了新的查询性能预测模型，显著提升了已知项目搜索的准确性和效率。此外，该数据集还被用于开发自然语言处理技术，如自动问答系统和对话生成模型，进一步拓展了其在信息检索和人工智能领域的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集