JamC-QA
JamC-QA
JamC-QAは、文化、歴史、地理、医療など多様な領域にわたる多肢選択式QAにおいて、日本語LLMを評価するための大規模ベンチマークデータセットです。
JamC-QAとは?
JamC-QA(Japanese Multiple Choice Question Answering)は、大規模言語モデルの日本固有の知識と文化的理解を評価するために特別に設計された大規模ベンチマークデータセットです。このデータセットは、日本文化、慣習、地域性、地理、歴史、政治、法律、医療という8つの厳選されたドメインにわたってモデルをテストします。
このベンチマークは、MMLU、HellaSwag、SQuADなどの主要な国際ベンチマークでは十分に扱われていない、または全く含まれていない知識領域に焦点を当てることで、LLM評価における重要なギャップを埋めています。JamC-QAは、日本語LLMと多言語LLMの公平でドメイン固有の比較を可能にし、リーダーボード評価とアブレーション研究をサポートし、日本語話者向けAIシステムに不可欠な検証を提供します。
JamC-QAは日本語モデルのベンチマークとして広く採用されており、Swallow LLMリーダーボードを含む主要なリーダーボードに掲載され、日本中心の事実知識と一般知識の習熟度を測る標準として学術文献で参照されています。
データセット構成
知識カテゴリ
JamC-QAは、日本社会との関連性が高く、他の人気QAベンチマークには含まれていない8つの知識カテゴリにわたる2,341問の多肢選択問題で構成されています:
| カテゴリ | Dev | Test | 焦点領域 |
|---|---|---|---|
| 文化 | 4 | 640 | 芸術、映画、文学、音楽、文化的リテラシー |
| 慣習 | 4 | 200 | 社会的慣習、エチケット、祭り、伝統 |
| 地域性 | 4 | 397 | 地域知識、方言、地域現象 |
| 地理 | 4 | 272 | 自然地理、地名、自然的特徴 |
| 歴史 | 4 | 343 | 歴史的出来事、人物、時代、文化的変遷 |
| 政治 | 4 | 110 | 政治システム、政策、政府の役割 |
| 法律 | 4 | 299 | 法制度、法体系、権利、規制 |
| 医療 | 4 | 48 | 医療システム、用語、公衆衛生 |
| 合計 | 32 | 2,309 |
カテゴリ選定の根拠:
- 日本の日常生活と文化の中核
- グローバルベンチマークでは十分に扱われていない
- 特定の文化的・言語的知識が必要
- 事実の想起から文脈的理解まで幅広くカバー
データ分割
開発分割(32問)
- カテゴリごとに4問
- Few-shot評価に使用
- 最小限の露出でモデルの調整が可能
- プロンプトエンジニアリングとファインチューニングをサポート
テスト分割(2,309問)
- メイン評価テストベッド
- カテゴリごとに統計的に堅牢なサンプル
- リーダーボードランキングに使用
- 詳細なパフォーマンス分析が可能
データセット構造
データ形式
各インスタンスは、4つの選択肢と1つの正解を持つ単一の多肢選択問題です。データセットはHugging Faceのdatasetsライブラリ統合用にフォーマットされており、FlexEvalなどの評価フレームワークをサポートしています。
インスタンス例:
{
"qid": "jamcqa-test-culture-00001",
"category": "culture",
"question": "「狂った世で気が狂うなら気は確かだ」の名言を残した映画はどれ?",
"choice0": "影武者",
"choice1": "羅生門",
"choice2": "隠し砦の三悪人",
"choice3": "乱",
"answer_index": 3
}
フィールド定義
| フィールド | 型 | 説明 |
|---|---|---|
qid | string | 一意の質問識別子 |
category | string | 知識カテゴリラベル |
question | string | 日本語の質問文(カタカナ以外は半角) |
choice0-3 | string | 4つの選択肢(カタカナ以外は半角) |
answer_index | integer | 正解のインデックス(0-3) |
データ制約:
- すべてのフィールドに改行なし
- 先頭と末尾の空白を削除
- カタカナを除き半角文字
- 各質問は文化的正確性のためにキュレーション
評価方法論
主要指標
完全一致精度
モデルは正確な答えの文字列を出力する必要があります(ラベルやインデックスだけではありません)。この厳格な基準により、近似ではなく真の検索または生成能力が保証されます。
計算式:
精度 = (完全一致数) / (総質問数)
カテゴリレベル分析
カテゴリごとに報告される精度により、知識ドメイン全体でのモデルの強みと弱みの詳細な分析が可能になります。
なぜ完全一致か?
- 正確な答え生成能力を保証
- 事実的で文化的にニュアンスのある質問に不可欠
- 近いが不正確な答えへの部分点を防止
- パターンマッチングではなく真の理解を検証
パフォーマンス分析
カテゴリレベルの結果により以下が明らかになります:
- ドメイン固有のモデルの強み
- 注意が必要な知識ギャップ
- 転移学習の効果
- 文化適応の成功度
リーダーボード結果
主要な日本語LLMリーダーボードからの代表的なパフォーマンス(精度スコア):
| モデル | 全体 | 文化 | 慣習 | 地域性 | 地理 | 歴史 | 政治 | 法律 | 医療 |
|---|---|---|---|---|---|---|---|---|---|
| sarashina2-8x70b | 0.725 | 0.714 | 0.775 | 0.761 | 0.654 | 0.784 | 0.736 | 0.632 | 0.917 |
| sarashina2-70b | 0.725 | 0.719 | 0.745 | 0.736 | 0.673 | 0.764 | 0.764 | 0.666 | 0.917 |
| Llama-3.3-Swallow-70B-v0.4 | 0.697 | 0.689 | 0.775 | 0.589 | 0.566 | 0.776 | 0.773 | 0.783 | 0.854 |
| RakutenAI-2.0-8x7B | 0.633 | 0.622 | 0.725 | 0.617 | 0.511 | 0.714 | 0.709 | 0.575 | 0.813 |
| plamo-100b | 0.603 | 0.602 | 0.650 | 0.637 | 0.504 | 0.682 | 0.609 | 0.515 | 0.688 |
主要な観察結果:
- 最高の全体パフォーマンス: sarashina2モデル(0.725)
- 最強カテゴリ: 医療(最大0.917)
- 最大のばらつき: 地域性と地理
- モデルの多様性: 日本語特化型と多言語LLM
使用方法と実装
Hugging Faceでの読み込み
import datasets
# データセットの読み込み
jamcqa = datasets.load_dataset('sbintuitions/JamC-QA', 'v1.0')
# 分割へのアクセス
jamcqa_test = jamcqa['test']
jamcqa_dev = jamcqa['dev']
# 質問の確認
print(jamcqa_test[0])
データセットビューア:
Hugging Face Data Studioでインタラクティブに閲覧とフィルタリングが可能です。
FlexEvalでの評価
FlexEval(v0.13.3+)は、多様なタスクと指標の統一評価を提供します:
flexeval_lm \
--language_model HuggingFaceLM \
--language_model.model "sbintuitions/sarashina2.2-0.5b" \
--language_model.default_gen_kwargs "{ do_sample: false }" \
--eval_setup "jamcqa" \
--save_dir "results/jamcqa"
設定:
do_sample: falseは決定論的(貪欲)デコーディングを保証- 出力には完全一致精度と生成統計が含まれる
- バッチ処理と並列評価をサポート
実用的な応用
LLMベンチマーキング
標準比較:
- 日本語LLMの定量的評価
- モデルアーキテクチャ間の公平な比較
- バージョン間のパフォーマンス追跡
- 転移学習の評価
モデル選択:
- 日本語アプリケーションに最適なモデルの特定
- 文化適応の効果の検証
- 特化型モデルと多言語モデルの比較
- デプロイメント決定のガイド
研究応用
アブレーション研究:
- ドメイン固有の強みと弱みの特定
- トレーニングデータの影響評価
- アーキテクチャバリエーションのテスト
- ファインチューニングの効果分析
言語間転移:
- 多言語トレーニングからの知識転移の評価
- 翻訳ベースアプローチの評価
- 文化適応戦略のテスト
- 単一言語と多言語のパフォーマンス比較
教育技術
AIチューター開発:
- 日本語知識の正確性の検証
- 文化的理解のテスト
- 適切なコンテンツ配信の保証
- 地域認識の検証
評価システム:
- 質問生成システムのベンチマーク
- 答え評価の正確性の検証
- 適応学習アルゴリズムのテスト
- 文化的適切性の保証
文化適応
ローカライゼーション検証:
- AIが地域の知識期待を満たすことの検証
- 文化的感受性のテスト
- 地域理解の検証
- 適切なコンテンツ生成の保証
関連ベンチマーク
JamC-QAは、成長する日本語LLM評価エコシステムの一部です:
補完的ベンチマーク:
- MMLU-ProX(日本語): 多分野の大学レベル推論
- GPQA(日本語): 大学院レベルの科学QA
- JHumanEval: 日本語コード生成
- MATH-100(日本語): 競技レベルの数学
- M-IFEval-Ja: 指示追従制御
ベンチマークエコシステムの利点:
- ベンチマーク間の転移研究
- 包括的なモデル診断
- 地域関連性の検証
- 国際比較ベースライン
実装のベストプラクティス
評価設定:
- 再現性のために決定論的デコーディングを使用
- カテゴリレベルの結果を報告
- 信頼区間を含める
- 評価パラメータを文書化
モデル準備:
- 日本語テキスト処理を検証
- トークン化を適切にテスト
- エンコーディング処理を検証
- 適切なフォーマットを保証
結果分析:
- カテゴリ間で比較
- 体系的な弱点を特定
- エラーパターンを分析
- エッジケースをテスト
継続的改善:
- 定期的なベンチマーク更新
- 時間経過によるパフォーマンス追跡
- 分布シフトの監視
- 新しいモデルバージョンの検証
参考文献
関連用語
Fact-Score (FActScore)
FActScoreは、AI生成テキストにおける事実の正確性を定量化する自動評価指標です。出力を原子的事実に分解し、信頼できる外部知識ソースからの裏付けを検証します。...
LLM as Judge(LLMによる評価)
LLM-as-a-Judge(LaaJ)は、LLMが他のLLMの出力を評価する手法です。スケーラブルで繊細なAI評価のための定義、手法、ベストプラクティス、ユースケースについて解説します。...