abeja/OpenAI-MRCR-Translation-JPN
收藏Hugging Face2026-03-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/abeja/OpenAI-MRCR-Translation-JPN
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: answer
dtype: string
- name: random_string_to_prepend
dtype: string
- name: n_needles
dtype: int64
- name: desired_msg_index
dtype: int64
- name: total_messages
dtype: int64
- name: n_chars
dtype: int64
- name: token_counts
dtype: int64
splits:
- name: 2needle
num_bytes: 645548997
num_examples: 800
- name: 4needle
num_bytes: 659646868
num_examples: 800
- name: 8needle
num_bytes: 651392679
num_examples: 800
download_size: 926392535
dataset_size: 1956588544
configs:
- config_name: default
data_files:
- split: 2needle
path: data/2needle-*
- split: 4needle
path: data/4needle-*
- split: 8needle
path: data/8needle-*
license: mit
language:
- ja
---
本データセットは、ロングコンテキス評価データセット [OpenAI MRCR](https://huggingface.co/datasets/openai/mrcr) を翻訳して作成した、日本語版の MRCR の評価データセットです。
## 翻訳方法
日本語版の作成にあたっては、元の英語データの構造を維持しつつ、LLM(Qwen3-235B-A22B)を用いて日本語版のテキストを生成しました。
作成方法としては、
1. 会話履歴を分解
2. パーツごとに翻訳
4. 元の順番に会話を並べなおす
といった手順により、日本語版の評価サンプルを作成しました。
翻訳が必要だったのは主にタスクの説明文、ユーザの問い合わせ文章、ユーザの最終問い合わせ文章の3箇所です。
- タスクの説明文については固定のプロンプトなので、プロンプト全体を一度だけ翻訳しました。
- ユーザの問い合わせ文については、全てのユーザの問い合わせが「write a (Document-Type) about (Genre)」という形式の英文になっていたため、Document-Type, Genre の位置の語句を抜き出して翻訳し「(Genre) についての (Document-Type) を書いてください。」というテンプレートに埋め込む形で翻訳文を作成しました。
- ユーザの最終問い合わせ文章についても同様で、「(random_string_to_prepend) を N 番目 (1から始まるインデックス) の (Genre) についての (Document-Type) の先頭に追加してください。回答には他のテキストを含めないでください。」というテンプレートに該当するテキストを埋め込む形で作成しました。
また、ユーザの問い合わせに対するアシスタントの回答は、日本語に変換したユーザの問い合わせをもとに同じくLLMで新しく応答を生成しました。この際に、オリジナルの英語の応答文は用いていません。アシスタントの回答は一つのユーザの問い合わせあたり8種類用意し、それらを組み合わせて会話を作成しました。
## 開発者
Fumitaka Iwaki, Gaku Ikuta, Keisuke Fujimoto, Kentaro Nakanishi, Kyo Hattori, Shinya Otani, Shogo Muranushi, Takuma Kume, Tomoki Fujihara, Yudai Kato,
(*)アルファベット順
## License
This dataset is based on OpenAI MRCR, which is licensed under the MIT License.
This repository contains a Japanese translation. The original copyright and license are preserved.
[LICENSE](LICENSE)
提供机构:
abeja



