JamC-QA

JamC-QAとは?

JamC-QA(Japanese Multiple Choice Question Answering)は、大規模言語モデルの日本固有の知識と文化的理解を評価するために特別に設計された大規模ベンチマークデータセットです。このデータセットは、日本文化、慣習、地域性、地理、歴史、政治、法律、医療という8つの厳選されたドメインにわたってモデルをテストします。

このベンチマークは、MMLU、HellaSwag、SQuADなどの主要な国際ベンチマークでは十分に扱われていない、または全く含まれていない知識領域に焦点を当てることで、LLM評価における重要なギャップを埋めています。JamC-QAは、日本語LLMと多言語LLMの公平でドメイン固有の比較を可能にし、リーダーボード評価とアブレーション研究をサポートし、日本語話者向けAIシステムに不可欠な検証を提供します。

JamC-QAは日本語モデルのベンチマークとして広く採用されており、Swallow LLMリーダーボードを含む主要なリーダーボードに掲載され、日本中心の事実知識と一般知識の習熟度を測る標準として学術文献で参照されています。

データセット構成

知識カテゴリ

JamC-QAは、日本社会との関連性が高く、他の人気QAベンチマークには含まれていない8つの知識カテゴリにわたる2,341問の多肢選択問題で構成されています:

カテゴリ	Dev	Test	焦点領域
文化	4	640	芸術、映画、文学、音楽、文化的リテラシー
慣習	4	200	社会的慣習、エチケット、祭り、伝統
地域性	4	397	地域知識、方言、地域現象
地理	4	272	自然地理、地名、自然的特徴
歴史	4	343	歴史的出来事、人物、時代、文化的変遷
政治	4	110	政治システム、政策、政府の役割
法律	4	299	法制度、法体系、権利、規制
医療	4	48	医療システム、用語、公衆衛生
合計	32	2,309

カテゴリ選定の根拠:

日本の日常生活と文化の中核
グローバルベンチマークでは十分に扱われていない
特定の文化的・言語的知識が必要
事実の想起から文脈的理解まで幅広くカバー

データ分割

開発分割(32問)

カテゴリごとに4問
Few-shot評価に使用
最小限の露出でモデルの調整が可能
プロンプトエンジニアリングとファインチューニングをサポート

テスト分割(2,309問)

メイン評価テストベッド
カテゴリごとに統計的に堅牢なサンプル
リーダーボードランキングに使用
詳細なパフォーマンス分析が可能

データセット構造

データ形式

各インスタンスは、4つの選択肢と1つの正解を持つ単一の多肢選択問題です。データセットはHugging Faceのdatasetsライブラリ統合用にフォーマットされており、FlexEvalなどの評価フレームワークをサポートしています。

インスタンス例:

{
  "qid": "jamcqa-test-culture-00001",
  "category": "culture",
  "question": "「狂った世で気が狂うなら気は確かだ」の名言を残した映画はどれ?",
  "choice0": "影武者",
  "choice1": "羅生門",
  "choice2": "隠し砦の三悪人",
  "choice3": "乱",
  "answer_index": 3
}

フィールド定義

フィールド	型	説明
`qid`	string	一意の質問識別子
`category`	string	知識カテゴリラベル
`question`	string	日本語の質問文(カタカナ以外は半角)
`choice0-3`	string	4つの選択肢(カタカナ以外は半角)
`answer_index`	integer	正解のインデックス(0-3)

データ制約:

すべてのフィールドに改行なし
先頭と末尾の空白を削除
カタカナを除き半角文字
各質問は文化的正確性のためにキュレーション

評価方法論

主要指標

完全一致精度
モデルは正確な答えの文字列を出力する必要があります(ラベルやインデックスだけではありません)。この厳格な基準により、近似ではなく真の検索または生成能力が保証されます。

計算式:

精度 = (完全一致数) / (総質問数)

カテゴリレベル分析
カテゴリごとに報告される精度により、知識ドメイン全体でのモデルの強みと弱みの詳細な分析が可能になります。

なぜ完全一致か?

正確な答え生成能力を保証
事実的で文化的にニュアンスのある質問に不可欠
近いが不正確な答えへの部分点を防止
パターンマッチングではなく真の理解を検証

パフォーマンス分析

カテゴリレベルの結果により以下が明らかになります:

ドメイン固有のモデルの強み
注意が必要な知識ギャップ
転移学習の効果
文化適応の成功度

リーダーボード結果

主要な日本語LLMリーダーボードからの代表的なパフォーマンス(精度スコア):

モデル	全体	文化	慣習	地域性	地理	歴史	政治	法律	医療
sarashina2-8x70b	0.725	0.714	0.775	0.761	0.654	0.784	0.736	0.632	0.917
sarashina2-70b	0.725	0.719	0.745	0.736	0.673	0.764	0.764	0.666	0.917
Llama-3.3-Swallow-70B-v0.4	0.697	0.689	0.775	0.589	0.566	0.776	0.773	0.783	0.854
RakutenAI-2.0-8x7B	0.633	0.622	0.725	0.617	0.511	0.714	0.709	0.575	0.813
plamo-100b	0.603	0.602	0.650	0.637	0.504	0.682	0.609	0.515	0.688

主要な観察結果:

最高の全体パフォーマンス: sarashina2モデル(0.725)
最強カテゴリ: 医療(最大0.917)
最大のばらつき: 地域性と地理
モデルの多様性: 日本語特化型と多言語LLM

使用方法と実装

Hugging Faceでの読み込み

import datasets

# データセットの読み込み
jamcqa = datasets.load_dataset('sbintuitions/JamC-QA', 'v1.0')

# 分割へのアクセス
jamcqa_test = jamcqa['test']
jamcqa_dev = jamcqa['dev']

# 質問の確認
print(jamcqa_test[0])

データセットビューア:
Hugging Face Data Studioでインタラクティブに閲覧とフィルタリングが可能です。

FlexEvalでの評価

FlexEval(v0.13.3+)は、多様なタスクと指標の統一評価を提供します:

flexeval_lm \
  --language_model HuggingFaceLM \
  --language_model.model "sbintuitions/sarashina2.2-0.5b" \
  --language_model.default_gen_kwargs "{ do_sample: false }" \
  --eval_setup "jamcqa" \
  --save_dir "results/jamcqa"

設定:

do_sample: falseは決定論的(貪欲)デコーディングを保証
出力には完全一致精度と生成統計が含まれる
バッチ処理と並列評価をサポート

実用的な応用

LLMベンチマーキング

標準比較:

日本語LLMの定量的評価
モデルアーキテクチャ間の公平な比較
バージョン間のパフォーマンス追跡
転移学習の評価

モデル選択:

日本語アプリケーションに最適なモデルの特定
文化適応の効果の検証
特化型モデルと多言語モデルの比較
デプロイメント決定のガイド

研究応用

アブレーション研究:

ドメイン固有の強みと弱みの特定
トレーニングデータの影響評価
アーキテクチャバリエーションのテスト
ファインチューニングの効果分析

言語間転移:

多言語トレーニングからの知識転移の評価
翻訳ベースアプローチの評価
文化適応戦略のテスト
単一言語と多言語のパフォーマンス比較

教育技術

AIチューター開発:

日本語知識の正確性の検証
文化的理解のテスト
適切なコンテンツ配信の保証
地域認識の検証

評価システム:

質問生成システムのベンチマーク
答え評価の正確性の検証
適応学習アルゴリズムのテスト
文化的適切性の保証

文化適応

ローカライゼーション検証:

AIが地域の知識期待を満たすことの検証
文化的感受性のテスト
地域理解の検証
適切なコンテンツ生成の保証

実装のベストプラクティス

評価設定:

再現性のために決定論的デコーディングを使用
カテゴリレベルの結果を報告
信頼区間を含める
評価パラメータを文書化

モデル準備:

日本語テキスト処理を検証
トークン化を適切にテスト
エンコーディング処理を検証
適切なフォーマットを保証

結果分析:

カテゴリ間で比較
体系的な弱点を特定
エラーパターンを分析
エッジケースをテスト

継続的改善:

定期的なベンチマーク更新
時間経過によるパフォーマンス追跡
分布シフトの監視
新しいモデルバージョンの検証

JamC-QAとは?

データセット構成

知識カテゴリ

データ分割

データセット構造

データ形式

フィールド定義

評価方法論

主要指標

パフォーマンス分析

リーダーボード結果

使用方法と実装

Hugging Faceでの読み込み

FlexEvalでの評価

実用的な応用

LLMベンチマーキング

研究応用

教育技術

文化適応

関連ベンチマーク

実装のベストプラクティス

参考文献

関連用語

Fact-Score (FActScore)

LLM as Judge(LLMによる評価)

JamC-QAとは?

データセット構成

知識カテゴリ

データ分割

データセット構造

データ形式

フィールド定義

評価方法論

主要指標

パフォーマンス分析

リーダーボード結果

使用方法と実装

Hugging Faceでの読み込み

FlexEvalでの評価

実用的な応用

LLMベンチマーキング

研究応用

教育技術

文化適応

関連ベンチマーク

実装のベストプラクティス

参考文献

関連用語

Fact-Score (FActScore)

LLM as Judge(LLMによる評価)

クッキー設定

必要なクッキー

分析クッキー