تستخدم معظم اختبارات قبول دخول الجامعة والاختبارات المدرسية التي يتم إجراؤها على المستوى المحلي نوع الاختبارات مرجعية المعيار. يقوم اختبار سات, واختبار تحديد مستوى القبول للدراسات العليا (GRE), واختبار وكسلر لقياس معدل الذكاء للأطفال (WISC) على أساس المقارنة بين مستوى أداء الطالب وبين مستوى أداء العينة المعيارية. فلا يمكن أن “يفشل” الخاضع للاختبار في اختبار مرجعي المعيار، حيث يحصل كل خاضع للاختبار على درجة يتم من خلالها مقارنة الفرد بالآخرين الذين خضعوا للاختبار، وعادةً ما تكون الدرجة بالنسبة المئوية. ويعتبر هذا الاختبار مفيدًا عندما يكون هناك مجموعة واسعة من النتائج المقبولة ولكن تختلف نسبتها من كلية لأخرى.
على الجانب الآخر، يلزم اجتياز حوالي ثلثي الطلاب من المدرسة الثانوية الأمريكية اختبار التخرج من المرحلة الثانوية محكي المرجع. ويتم تحديد درجة ثابتة عالية واحدة عند مستوى يلائم قبول الالتحاق بالجامعة سواء كان خريج المدرسة الثانوية ملتحقًا بكلية أم لا. وتجري كل ولاية اختبارها الخاص بها وتحدد مستوى الاجتياز الخاص بها، فتتميز ولايات مثل ماساتشوستس على سبيل المثال بمعدلات اجتياز عالية، بينما في ولاية واشنطن، حتى الطلاب العاديين لا يمكنهم اجتياز الاختبار، فضلًا عن 80 بالمائة من بعض الجماعات الأقلية. ويعارض الكثير من العاملين بحقل التعليم أمثال ألفي كوهين هذه الممارسة باعتبارها غير عادلة بالنسبة للأفراد والجماعات الذين لم يتمكنوا من إحراز نتيجة عالية كالآخرين.
من العيوب الجلية للاختبارات مرجعية المعيار أنها لا يمكنها قياس التقدم المحرز من الجماعة ككل؛ فلا يمكنها قياس سوى التقدم المحرز من الأفراد الداخلين في نطاق المجموعة. وبالتالي، لا يمكن استخدام القياس بناءً على هدف ثابت في قياس مدى نجاح برنامج إصلاح تعليمي والذي يسعى إلى زيادة مستوى التحصيل عند الطلاب جميعًا مقارنةً بالمعايير الجديدة التي تسعى لتقييم المهارات من خلال الاختيار من متعدد. ومع ذلك، وبينما قد يبدو هذا الأمر جذابًا من الناحية النظرية، ولكن من الناحية العملية كثيرًا ما يكون هذا عائقًا في مواجهة معدلات الفشل المفرطة، وفي بعض الأحيان يحدث تحسن فقط لمجرد الإلمام بمضمون الاختبار نفسه أو تعليمه.
عند إجراء اختبار مرجعي المعيار، يتم تحديد مستوى المرحلة الدراسية بديهيًا على المستوى الذي تحدده نسبة 50 بالمائة التي تتوسط الدرجات. وعلى الجانب الآخر، ترى المؤسسة الوطنية لدعم القراءة عند الأطفال أنه من الضروري ضمان أن جميع أطفالنا يستطيعون القراءة عند مستوى المرحلة الدراسية من الصف الثالث فما فوق، ذلك الهدف الذي لا يمكن تحقيقه باستخدام التعريف مرجعي المعيار لمستويات المرحلة الدراسية.
من بين مزايا هذا النوع من التقييم أن الطلاب والمعلمين على حد سواء يدركون ما يمكن توقعه من هذا الاختبار وكيف سيتم إجراء الاختبار وكيفية وضع الدرجات على أساسه. وبالمثل، تجري كل مدرسة من المدارس الاختبار بنفس الطريقة مما يقلل حالات عدم الدقة نتيجة الفوارق الزمنية أو الفوارق البيئية التي قد تتسبب في إرباك الطلاب. علاوةً على ذلك، قد يجعل ذلك مثل هذه التقييمات دقيقة إلى حد كبير بقدر ما كانت النتائج مدرجة، وهو بمثابة ميزة كبيرة للاختبار.
ويشير نقاد الاختبارات محكية المرجع أن القائمين على الاختبار يضعون إشارات مرجعية حول العناصر التي تكتنفها صعوبات متنوعة دون الأخذ في الاعتبار ما إذا كانت تلك العناصر متوافقة فعليًا مع معايير محتوى مستوى المرحلة الدراسية أو أنها ملائمة تنمويًا. وهكذا، تضمنت مشاكل عينة 1997 الأصلية التي نُشرت في إطار تقييم واشنطن لتعليم الطلبة مادة الرياضيات للصف الرابع على بعض المواد التي اتسمت بالصعوبة بالنسبة لكبار خريجي الكلية، أو تم حلها بسهولة بالاعتماد على الأساليب الواردة في الصف العاشر مثل المثلثات المتشابهة.
كذلك، يتغير مستوى صعوبة المواد نفسها، شأنها شأن الدرجات الفاصلة التي تحدد مستويات اجتياز الاختبار من عام لعام. علاوةً على ذلك، تختلف معدلات النجاح في اختبارات التخرج من الصف الرابع إلى السابع والعاشر في بعض الدول بشكل كبير.
ومن بين القيود المفروضة على قانون إلزامية التعليم للأطفال أنه يمكن لكل ولاية أن تختار أو تُجري اختبارها الخاص بها ولكن دون أن يكون شبيهًا بالاختبار الخاص بأي دولة أخرى. وقد أشارت نتائج الدراسة التي أجرتها راند على منطقة كنتاكي إلى وجود مؤشرات على زيادة غير طبيعية في معدلات الاجتياز والتي لم تنعكس على الدرجات العالية بالنسبة للاختبارات الأخرى مثل اختبار التقييم الوطني للتقدم التعليمي (NAEP) أو اختبار سات (SAT) والتي تم إجراؤها على نفس المجموعة الطلابية خلال نفس الفترة.
وعادةً ما يتم تحديد معايير اختبار التخرج عند مستوى يتوافق مع المتقدمين للالتحاق بالجامعة مدة 4 سنوات من الموطن الأصلي [بحاجة لمصدر]. ويكمن أحد الآثار الجانبية في أنه عندما تقبل الكلية بانضمام المهاجرين إليها والذين يتمتعون بمهارات رياضية قوية للغاية ولكن قد يعانون قصورًا في اللغة الإنجليزية، فلن تكون لديهم مثل هذه المرونة في اختبارات التخرج من المدرسة الثانوية، والتي تتطلب عادةً اجتياز كافة الأقسام، بما في ذلك اللغة. وبالتالي، فمن المعتاد بالنسبة للمؤسسات مثل جامعة واشنطن أن تقبل الطلاب الأمريكيين من أصل آسيوي أو الطلاب اللاتينيين الذين لم يتمكنوا من اجتياز القسم الخاص بالكتابة من اختبار تقييم واشنطن لتعليم الطلاب (WASL) الحكومي، غير أن هؤلاء الطلاب لن يحصلوا حتى على شهادة حتى يتم استيفاء شروط الاختبار.
وعلى الرغم من أن الاختبارات أمثال اختبار تقييم واشنطن لتعليم الطلاب (WASL) تهدف إلى أن تكون بمثابة حد أدنى بالنسبة لطلاب المدرسة الثانوية، إلا أن 27 بالمائة من طلاب الصف العاشر المتقدمين لبرنامج الانطلاق نحو البدء في ولاية واشنطن فشلوا في اجتياز الجزء الخاص بمادة الرياضيات من اختبار تقييم واشنطن لتعليم الطلاب. فهؤلاء الطلاب تقدموا لأخذ دورات تدريبية على مستوى الكلية في المدرسة الثانوية، وحققوا مستويات أعلى بكثير عن الطلاب العاديين. وقد خلصت الدراسة إلى أن درجة صعوبة هذا الاختبار مماثلة، أو أكبر من تلك الاختبارات التي تهدف إلى إلحاق الطلاب المقبولين بالفعل في الكلية.
في نفس الوقت، ليس لدى نظام الاختبار مرجعي المعيار أيٍ من هذه المشاكل حيث إنه لا يسعى لفرض أي توقعات على ما يجب على كل الطلاب معرفته أو ما هم قادرون على فعله بخلاف ما يظهره الطلاب الفعليون. ويتم اعتبار المستويات الحالية من الأداء وتفاوت المستويات أمرًا مسلمًا به، وليس كعيوب يلزم إزالتها بواسطة نظام مُعاد تصميمه. ولا يتم رفع مستوى الأهداف الخاصة بأداء الطلاب كل عام حتى يتم التأكد من إتقان جميع الطلاب لها. ولا يلزم توفر الدرجات لإظهار مدى التحسن المستمر من خلال أنظمة إدارة الجودة الشاملة. وتتمثل مساوئ الاختبار في أن التقييمات القائمة على المعايير تقيس المستوى الذي عليه الطلاب حاليًا من خلال قياس المستوى الذي يتميز به أقرانهم بالفعل بدلًا من مقارنة مستواهم بالمستوى الذي يجب أن يكون عليه كل الطلاب.
يعمل النظام القائم على التصنيف على إخراج البيانات التي تكشف أي الطلاب العاديين الذين يمكنهم الأداء عند المستوى المتوسط، وأي الطلاب يمكنهم الأداء بشكل أفضل، وأي الطلاب يمكنهم الأداء بشكل أسوأ. وهذا يتعارض بالضرورة مع المعتقدات الأساسية، سواء التي تدعو للتفاؤل أو التي لا أساس لها، والتي تقضي بوصول الجميع إلى مستوى واحد عالٍ من الأداء بشكل موحد في النظام القائم على المعايير في حالة ما إذا تم وضع حوافز وعقوبات كافية في إطار التنفيذ العملي. ويرتكز هذا الاختلاف في المعتقدات على الاختلاف الأكثر أهمية بين نظام التعليم التقليدي وبين نظام التعليم القائم على المعايير.
أمثلة
تعد اختبارات نسبة الذكاء اختبارات مرجعية المعيار، حيث يكمن هدفها في معرفة أي ممتحن أكثر ذكاءً من الممتحن الآخر.
كذلك، تعد اختبارات أداء الممثلين على المسرح ومقابلات العمل من نوع الاختبارات مرجعية المعيار، حيث إنها تهدف إلى تحديد أفضل مرشح مقارنةً بالمرشحين الآخرين، وليس تحديد عدد المرشحين الذين يمكنهم استيفاء مجموعة ثابتة من المعايير.