five

abeja/OpenAI-MRCR-Translation-JPN

收藏
Hugging Face2026-03-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/abeja/OpenAI-MRCR-Translation-JPN
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: prompt dtype: string - name: answer dtype: string - name: random_string_to_prepend dtype: string - name: n_needles dtype: int64 - name: desired_msg_index dtype: int64 - name: total_messages dtype: int64 - name: n_chars dtype: int64 - name: token_counts dtype: int64 splits: - name: 2needle num_bytes: 645548997 num_examples: 800 - name: 4needle num_bytes: 659646868 num_examples: 800 - name: 8needle num_bytes: 651392679 num_examples: 800 download_size: 926392535 dataset_size: 1956588544 configs: - config_name: default data_files: - split: 2needle path: data/2needle-* - split: 4needle path: data/4needle-* - split: 8needle path: data/8needle-* license: mit language: - ja --- 本データセットは、ロングコンテキス評価データセット [OpenAI MRCR](https://huggingface.co/datasets/openai/mrcr) を翻訳して作成した、日本語版の MRCR の評価データセットです。 ## 翻訳方法 日本語版の作成にあたっては、元の英語データの構造を維持しつつ、LLM(Qwen3-235B-A22B)を用いて日本語版のテキストを生成しました。 作成方法としては、 1. 会話履歴を分解 2. パーツごとに翻訳 4. 元の順番に会話を並べなおす といった手順により、日本語版の評価サンプルを作成しました。 翻訳が必要だったのは主にタスクの説明文、ユーザの問い合わせ文章、ユーザの最終問い合わせ文章の3箇所です。 - タスクの説明文については固定のプロンプトなので、プロンプト全体を一度だけ翻訳しました。 - ユーザの問い合わせ文については、全てのユーザの問い合わせが「write a (Document-Type) about (Genre)」という形式の英文になっていたため、Document-Type, Genre の位置の語句を抜き出して翻訳し「(Genre) についての (Document-Type) を書いてください。」というテンプレートに埋め込む形で翻訳文を作成しました。 - ユーザの最終問い合わせ文章についても同様で、「(random_string_to_prepend) を N 番目 (1から始まるインデックス) の (Genre) についての (Document-Type) の先頭に追加してください。回答には他のテキストを含めないでください。」というテンプレートに該当するテキストを埋め込む形で作成しました。 また、ユーザの問い合わせに対するアシスタントの回答は、日本語に変換したユーザの問い合わせをもとに同じくLLMで新しく応答を生成しました。この際に、オリジナルの英語の応答文は用いていません。アシスタントの回答は一つのユーザの問い合わせあたり8種類用意し、それらを組み合わせて会話を作成しました。 ## 開発者 Fumitaka Iwaki, Gaku Ikuta, Keisuke Fujimoto, Kentaro Nakanishi, Kyo Hattori, Shinya Otani, Shogo Muranushi, Takuma Kume, Tomoki Fujihara, Yudai Kato, (*)アルファベット順 ## License This dataset is based on OpenAI MRCR, which is licensed under the MIT License. This repository contains a Japanese translation. The original copyright and license are preserved. [LICENSE](LICENSE)
提供机构:
abeja
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作