five

おーぷん2ちゃんねる対話コーパス

收藏
github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/1never/open2ch-dialogue-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过爬取おーぷん2ちゃんねる网站的三个板块(なんでも実況(ジュピター)、ニュー速VIP、ニュース速報+)创建的对话数据集。数据集包含了从网站开设至2019年7月20日的数据,以tsv格式存储,每行代表一个对话,且进行了特定的数据清洗和格式化处理。

This dataset is a dialogue dataset created by crawling three sections (なんでも実況(ジュピター), ニュー速VIP, ニュース速報+) of the おーぷん2ちゃんねる website. The dataset includes data from the website's inception until July 20, 2019, stored in TSV format, with each line representing a dialogue. Specific data cleaning and formatting processes have been applied.
创建时间:
2019-09-13
原始信息汇总

数据集概述

数据集名称

  • おーぷん2ちゃんねる対話コーパス

数据来源

  • 数据集来源于おーぷん2ちゃんねる网站的三个板块:「なんでも実況(ジュピター)」、「ニュー速VIP」、「ニュース速報+」。

数据收集时间范围

  • 数据收集自おーぷん2ちゃんねる开设时起至2019年7月20日。

数据集内容

  • 数据集包含对话数据,以tsv格式存储,使用tsv形式,通过“>>”标识的回复链接进行对话的连接。
  • 对话数据中,每行代表一个对话,由多个投稿通过制表符连接。
  • 对话数据中的回复链接仅使用文首的链接,且已删除回复链接。
  • 对话数据仅收录两人交替投稿的对话。
  • 对话数据中的换行符被替换为“BR”。
  • 不符合以下条件的投稿被排除:
    • 文字数少于5个或超过150个的投稿
    • 包含URL或图片的投稿
    • 包含两个以上回复链接的投稿
    • 不包含平假名、片假名、汉字的投稿
    • 包含4次以上换行的投稿

文件构成

文件名 来源板块 对话数 平均对话长度
livejupiter.tsv なんでも実況(ジュピター) 5948218 2.24
news4vip.tsv ニュー速VIP 1983626 2.41
newsplus.tsv ニュース速報+ 217296 2.09
合計 8149140 2.28

前处理用脚本

  • 提供了两个脚本:cleaning.py用于去除不适当表达,replace_br.py用于将换行符替换为句点。
  • 脚本可以应用于单个文件,例如对livejupiter.tsv文件进行处理。

応答順位付けタスク用数据

  • 提供了用于响应排序任务的开发数据和测试数据,数据来源于相同的三个板块。
  • 开发数据和测试数据分别包含2000个文脈,每个文脈包含1个实际投稿和9个随机抽取的投稿。
  • 数据格式为tsv,每行首部标记了最后投稿是否为实际投稿。

評価用スクリプト

  • 提供了用于计算Recall@k的评估脚本,可用于开发数据或测试数据的评估。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过爬取おーぷん2ちゃんねる的「なんでも実況(ジュピター)」、「ニュー速VIP」和「ニュース速報+」三个板块,从开站至2019年7月20日的数据构建而成。数据以tsv格式存储,每行代表一个对话,对话中的投稿通过「>>」符号连接,并进行了必要的预处理,如去除不合适的投稿和替换特殊符号。
特点
该数据集的特点在于其丰富的对话内容和严格的筛选标准。数据集仅收录了交互式的对话,确保每对对话中的投稿由不同用户交替进行。此外,数据集还排除了包含URL、图片、过多改行或不符合字数要求的投稿,确保了数据的质量和适用性。
使用方法
使用该数据集时,用户可以通过提供的cleaning.py和replace_br.py脚本进行进一步的预处理,以去除不适当的内容并替换特殊符号。此外,数据集还提供了用于响应排序任务的开发和测试数据,用户可以通过eval_ranking.py脚本进行评估。
背景与挑战
背景概述
おーぷん2ちゃんねる対話コーパスは,日本のオンライン掲示板「おーぷん2ちゃんねる」から抽出された対話データセットである。このデータセットは,「なんでも実況(ジュピター)」「ニュー速VIP」「ニュース速報+」の3つの掲示板から,2019年7月20日までのデータを収集し,対話形式に整理したものである。主な研究者は稲葉通将氏で,このデータセットは対話システムの研究において重要な役割を果たしている。特に,用例ベースの対話システムの開発において,このコーパスは豊富な自然言語データを提供し,研究の進展に寄与している。
当前挑战
このデータセットの構築には,多くの技術的および言語学的な挑戦が伴った。まず,掲示板からのデータ収集において,大量のデータを効率的にクロールし,整理する必要があった。さらに,対話の連鎖を正確に把握し,不適切な投稿や無関係なデータを除外するための前処理が必要であった。また,改行記号の正確な置換や不適切表現の除去においても,完全な解決策を見つけることが難しかった。これらの挑戦は,対話システムの研究において,データの質と量を確保するための重要な課題となっている。
常用场景
经典使用场景
おーぷん2ちゃんねる対話コーパスは,自然言語処理領域において,特に対話システムの開発と評価において重要な役割を果たしています。このコーパスは,おーぷん2ちゃんねるの3つの掲示板から収集された対話データを基に,対話の流れを分析し,対話モデルの学習に利用されます。具体的には,対話システムの応答生成モデルや応答順位付けタスクにおいて,このコーパスは高い精度のモデル開発を支援しています。
实际应用
おーぷん2ちゃんねる対話コーパスは,実際のアプリケーションにおいても幅広く活用されています。例えば,カスタマーサービスにおける自動応答システムや,オンラインサポートチャットボットの開発において,このコーパスは高品質な対話モデルの構築に貢献しています。さらに,教育分野においても,言語学習支援システムや対話型学習ツールの開発に利用され,学習者のコミュニケーション能力の向上に寄与しています。
衍生相关工作
このコーパスは,多くの関連研究と派生作品の基盤となっています。例えば,対話システムの評価指標としてのRecall@kの研究や,対話データの前処理技術の開発において,このコーパスは重要な役割を果たしています。また,このコーパスを用いた用例ベース対話システムの研究は,対話システムの新たなアプローチを提示し,その後の研究に大きな影響を与えています。これらの研究成果は,対話システムの技術革新と実用化に向けた重要な一歩となっています。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务