Scribble at 2026-06-27 06:31:21 Last modified: unmodified

添付画像 — Paying for Quality vs. Paying for Rank: When Purifying a Metric Backfires

基準が少しずつ違う幾つかの指標を組み合わせて何かの総合評価を与えて、その評価のランキングや点数を利用する場合に、昔からよくあることなのだが評価の点数つまりはランキングを上げようとして、評価される側は色々なテクニック（gaming）を駆使する。評価する側は、できるだけ gaming つまりは小手先だけのテクニックで得たような評価を補正して公平にしたいと思って色々な調整をやるのだけれど、得てしてそういう調整をやればやるほど、評価を受ける側は補正されにくいニッチなテクニックを見つけ出そうとする逆効果（backfire）が起きることもあるという。

これは例を挙げるのが分かりやすいだろう。アメリカの大学が成績の公平性を高めるために「基準が甘い科目の評点を自動的に引き下げる難易度調整後の GPA 評価」という尺度を導入したケースだ（"GPA: Grade Point Average" は高校や大学で付く成績スコアのこと）。このような補正を受けた成績が労働市場でどう使われるかによって、実はこういう調整が逆効果になる場合があるという。

まず、この成績を企業の採用・初任給決定という場面でが利用することを考える。企業は「新しい GPA は学生の実力をより正確に表している」と判断し、成績の良い学生に高い給与を提示するようになる。GPA に対する企業の信頼度が上がった結果、学生側から見ると、少しでも GPA を上げるインセンティブが以前より強くなる。その結果、まだ調整の網をすり抜けている評価の甘いニッチな科目を探し出すといった、より巧妙な小手先テクニックに学生が血眼になり、改革前よりもかえって学内が小手先テクニックの熱に浮かされるようになるという。

だが一方で、この GPA 成績を定員が厳格に決まっている人気の研究室や大学院の選考において利用する場合には、いくら成績を上げても同時に周りの学生も純化によってスコアが上がっているため、楽な科目を取るだけでライバルをごぼう抜きにするということができなくなる。評価の分散が広がり、同じスコアの周辺にひしめくライバルの密度が薄くなるため、小手先のテクニックでスコアを少し盛る程度では順位が上がりにくくなる。そのため、学生は無駄な科目選びを諦め、本来の学業に集中するようになるというわけだ。

このように、質を評価する市場では評価の基準を補正されるほど小細工の価値が上がって小手先テクニックが流行りやすくなり、順位を争う市場ではライバルとの相対関係にインセンティブが吸収されるため安全であるというのがこの論文の結論だ。

これは、なるほど実感としても分かる。たとえば理数系の大学受験などでは、単純な暗記だけで得点を稼げてしまう生物や地学を選ぶか、或る程度の思考力を要求される物理や化学を選ぶかという選択がある。実は、こういう選択は人文・社会系にはない。なぜなら、英語だろうと世界史だろうと殆どの教科が実は暗記科目だからだ。つまり、思考力ではなく単純な暗記力だけがある子供は、どういう科目を選んでも強い。だからこそ受験ではたくさん暗記している生徒が最強なのであり、「考える設問」なんてものを一部の教科で増やしても、暗記で得点を稼ぐ生徒は他の科目を選ぶようになるだけなのだ。正直、多くの高校生は「東大に入る」ことが目標なのであって、物理学科、ましてや特定の研究者のもとで研究したいなんて具体的な目標をもって受験なんてしない。こういうわけなので、試験というものがそもそも科目を問わずに暗記で対応できてしまう限り、これを補正することは難しい。

冒頭に戻る