LLMの評価には多肢選択問題(Multiple-Choice Questions)が多く用いられます。多肢選択問題のフォーマットに対するモデルの頑健性の評価データセットであるMCQFormatBenchを公開しました。選択肢問題の解答プロセスを4つに分類し、8つのタスクを設計した。MMLUデータセットからサンプルした600問を元にタスクごとに変換することで約2万問のデータセットを作成したものです。詳細はこちらをご覧ください。
LLMの評価には多肢選択問題(Multiple-Choice Questions)が多く用いられます。多肢選択問題のフォーマットに対するモデルの頑健性の評価データセットであるMCQFormatBenchを公開しました。選択肢問題の解答プロセスを4つに分類し、8つのタスクを設計した。MMLUデータセットからサンプルした600問を元にタスクごとに変換することで約2万問のデータセットを作成したものです。詳細はこちらをご覧ください。