Nghiên cứu này trình bày cách đánh giá một đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thông
qua việc sử dụng phần mềm ConQuest. Kết quả phân tích trong bài viết đã chỉ ra một số vấn đề liên quan
đến chất lượng của một đề thi trắc nghiệm khách quan. Cụ thể như: (1) về độ khó, trong đề thi có một câu
hỏi rất dễ, thấp hơn năng lực của toàn bộ thí sinh cần phải được loại bỏ, đồng thời thiếu những câu hỏi có
khả năng đo lường năng lực của những thí sinh có năng lực cao; (2) về độ phân biệt, trong đề thi có ba
câu hỏi có độ phân biệt kém, không có ý nghĩa trong việc đo lường năng lực của thí sinh; (3) về chất
lượng các phương án nhiễu, trong đề thi có năm câu hỏi có phương án nhiễu kém chất lượng cần phải
được điều chỉnh hoặc thay thế. Bằng phương pháp này, giảng viên biên soạn đề thi sẽ phát hiện được
những câu hỏi có chất lượng tốt và đưa vào ngân hàng câu hỏi thi, đồng thời những câu hỏi kém chất
lượng sẽ được điều chỉnh hoặc bị loại bỏ ra khỏi đề thi.
13 trang |
Chia sẻ: thuyduongbt11 | Ngày: 09/06/2022 | Lượt xem: 772 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Đánh giá chất lượng đề thi trắc nghiệm khách quan thông qua việc ứng dụng mô hình Rasch và phần mềm Conquest, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC SÀI GÒN SAIGON UNIVERSITY
TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL
ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY
Số 75 (03/2021) No. 75 (03/2021)
Email: tcdhsg@sgu.edu.vn ; Website:
52
ĐÁNH GIÁ CHẤT LƯỢNG ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN
THÔNG QUA VIỆC ỨNG DỤNG MÔ HÌNH RASCH
VÀ PHẦN MỀM CONQUEST
Evaluating the quality of multiple-choice tests through applying Rasch model
and ConQuest software
ThS. Nguyễn Văn Cảnh(1), ThS. Nguyễn Quốc Tuấn(2)
(1),(2) Trường Đại học Đồng Tháp
TÓM TẮT
Nghiên cứu này trình bày cách đánh giá một đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thông
qua việc sử dụng phần mềm ConQuest. Kết quả phân tích trong bài viết đã chỉ ra một số vấn đề liên quan
đến chất lượng của một đề thi trắc nghiệm khách quan. Cụ thể như: (1) về độ khó, trong đề thi có một câu
hỏi rất dễ, thấp hơn năng lực của toàn bộ thí sinh cần phải được loại bỏ, đồng thời thiếu những câu hỏi có
khả năng đo lường năng lực của những thí sinh có năng lực cao; (2) về độ phân biệt, trong đề thi có ba
câu hỏi có độ phân biệt kém, không có ý nghĩa trong việc đo lường năng lực của thí sinh; (3) về chất
lượng các phương án nhiễu, trong đề thi có năm câu hỏi có phương án nhiễu kém chất lượng cần phải
được điều chỉnh hoặc thay thế. Bằng phương pháp này, giảng viên biên soạn đề thi sẽ phát hiện được
những câu hỏi có chất lượng tốt và đưa vào ngân hàng câu hỏi thi, đồng thời những câu hỏi kém chất
lượng sẽ được điều chỉnh hoặc bị loại bỏ ra khỏi đề thi.
Từ khóa: ConQuest, đề thi, mô hình Rasch
ABTRACTS
This study evaluates the quality of multiple-choice test, based on using the Rasch model and ConQuest
software. The analysis results in the article have pointed out some issues related to the quality of a test.
Specifically, (1) regarding difficulty, there is a very easy question in the test, which is lower than capacity
of candidates that need to be removed and the test also lacks of difficult questions to measure the
competency of highly capable candidates; (2) regarding discrimination, there are three questions with low
discrimination, which are not significant in measuring the competency of candidates; (3) regarding quality
of distracting options, there are five questions with low quality distracting options that need to be adjusted
or replaced. By this method, exam preparation teachers will discover good questions to put into the exam
questions bank, and low quality questions will be adjusted or removed from the test.
Keywords: ConQuest, test, Rasch model
1. Mở đầu
Trong những năm gần đây, trắc nghiệm
khách quan đang dần trở thành một trong
những hình thức kiểm tra đánh giá phổ biến
trong giáo dục Việt Nam. Điều này được thể
qua việc Bộ Giáo dục và Đào tạo đã sử dụng
hình thức đánh giá này với hầu hết các môn
thi trong kỳ thi trung học phổ thông quốc
gia. Bên cạnh đó, các trường đại học cũng
đang sử dụng trắc nghiệm khách quan để
Email: nvcanh@dthu.edu.vn
NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
53
đánh giá kết quả học tập của sinh viên, đặc
biệt là các học phần đại cương có nhiều sinh
viên đăng ký tham gia học tập. Mặc dù vẫn
có những hạn chế nhất định, hình thức này
vẫn có nhiều ưu điểm trong đo lường, đánh
giá kết quả học tập. Một trong những ưu
điểm nổi bật của hình thức đánh giá này là
đảm bảo tính khách quan và tiện lợi trong
quá trình chấm bài thi. Tuy nhiên để đảm
bảo đề thi chính xác và có khả năng đo
lường được đúng năng lực của thí sinh, cần
thiết phải có công cụ đánh giá chất lượng đề
thi, làm cơ sở để điều chỉnh và cải tiến chất
lượng.
Ở Việt Nam, thời gian gần đây đã có
một số nghiên cứu về việc đánh giá đề thi
trắc nghiệm khách quan với sự hỗ trợ của
các phần mềm tính toán, tiêu biểu phải kể
đến nghiên cứu của các tác giả như Nguyễn
Thị Hồng Minh và Nguyễn Đức Thiện
(2006) với việc sử dụng phương pháp
PROX [1], Nguyễn Bảo Hoàng Thanh
(2008) với việc sử dụng phần mềm Quest
[2], Đoàn Hồng Chương và cộng sự (2016)
với việc sử dụng gói “ltm” của phần mềm R
[3], Bùi Ngọc Quang (2017) với việc sử
dụng mô hình Rasch và phần mềm Quest
[4], Lê Anh Vũ và cộng sự (2017) với việc
sử dụng phương pháp lấy mẫu GIBBS [5],
Bùi Anh Kiệt và Bùi Nguyên Phương
(2018) với việc sử dụng phần mềm IATA
[6]. Trong nghiên cứu này, chúng tôi trình
bày cách đánh giá một đề thi trắc nghiệm
khách dựa vào mô hình Rasch thông qua
việc ứng dụng phần mềm ConQuest. Bên
cạnh việc hỗ trợ tính toán các tham số của
câu hỏi như độ khó và độ phân biệt, phần
mềm ConQuest còn hỗ trợ phân tích chất
lượng của các phương án nhiễu của câu hỏi
thông qua hệ số tương quan, phép kiểm định
t và hình ảnh biểu diễn xác suất trả lời cho
từng phương án theo năng lực của thí sinh.
Đây là ưu điểm của phần mềm này so với
các phần mềm khác có chức năng phân tích
câu hỏi trắc nghiệm khách quan.
2. Nội dung nghiên cứu
2.1. Giới thiệu về mô hình Rasch
Khoa học đo lường và đánh giá trong
giáo dục phát triển tương đối hoàn chỉnh từ
thập niên 1970 với sự ra đời và hoàn thiện
của lý thuyết khảo thí cổ điển (Classical
Test Theory – CTT). Việc áp dụng CTT để
đo lường và đánh giá đề thi trắc nghiệm
khách quan rất dễ thực hiện vì nó hầu như
không đòi hỏi bất kì giả thiết nào khi chạy
mô hình, nhưng phương pháp này tồn tại
một số hạn chế [7]. Hạn chế cơ bản nhất của
lý thuyết này là không tách biệt được các
đặc trưng của thí sinh với các đặc trưng của
đề trắc nghiệm, đặc trưng này chỉ có thể
được giải thích trong mối quan hệ với đặc
trưng kia và ngược lại. Cụ thể, các đặc trưng
của đề trắc nghiệm như độ khó, độ phân biệt
của câu hỏi, độ tin cậy và độ giá trị của đề
trắc nghiệm được xác định dựa vào một
nhóm thí sinh làm bài. Vì vậy, các đặc trưng
này của đề trắc nghiệm sẽ thay đổi khi được
đo lường trên một nhóm thí sinh khác. Bên
cạnh đó, năng lực của thí sinh cũng sẽ thay
đổi khi đề trắc nghiệm thay đổi, chẳng hạn
như khi thực hiện trên một đề trắc nghiệm
dễ thì thí sinh sẽ được đánh giá là có năng
lực cao, và ngược lại thí sinh được đánh giá
là có năng lực thấp khi thực hiện trên một
đề trắc nghiệm khó. Do đó, rất khó so sánh
năng lực của thí sinh khi họ phải thực hiện
trên những đề trắc nghiệm khác nhau cũng
như rất khó so sánh độ khó của các câu hỏi
trong đề thi khi chúng được trả lời bởi các
nhóm thí sinh khác nhau [8]. Trên cơ sở đó,
lý thuyết ứng đáp câu hỏi (Item Response
Theory – IRT) được ra đời nhằm khắc phục
những điểm hạn chế của CTT.
Lý thuyết ứng đáp của hỏi được xây
dựng dựa trên hai giả thiết: (1) sự ứng đáp
của một thí sinh đối với một câu hỏi có thể
được tiên đoán bằng năng lực tiềm ẩn của
thí sinh; (2) quan hệ giữa sự ứng đáp câu hỏi
SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
54
của thí sinh và năng lực tiềm ẩn làm cơ sở
cho sự đáp ứng đó có thể mô tả bằng một
hàm đặc trưng câu hỏi đồng biến [8]. Theo
đó, Rasch cho rằng việc phân tích trong đo
lường và đánh giá đề thi trắc nghiệm khách
quan chỉ có ý nghĩa khi dựa vào từng cá
nhân thí sinh, trong đó, các thuộc tính của
thí sinh và của các câu hỏi được tách riêng.
Quan điểm này của Rasch đã đánh dấu sự
chuyển tiếp từ mô hình CTT sang mô hình
IRT, đây là mô hình mô tả xác suất trả lời
đúng các câu hỏi trong đề thi trắc nghiệm
khách quan đối với sự ứng đáp của thí sinh
đối với các câu hỏi đó [9]. Dựa trên quan
điểm đó, Rasch đã giới thiệu mô hình gọi là
mô hình Rasch, mô hình này dựa trên giả
thuyết cơ bản như sau:
“Nếu một người có năng lực cao hơn
người khác thì xác suất trả lời đúng một câu
hỏi bất kì phải lớn hơn xác suất tương ứng
của người kia; tương tự như vậy, nếu một câu
hỏi khó hơn câu hỏi khác thì xác suất để một
người bất kì trả lời đúng câu hỏi đó phải nhỏ
hơn xác suất để người đó trả lời đúng câu hỏi
kia” [10].
Trên cơ sở đó, Rasch đã xây dựng một
mô hình toán học cho sự ứng đáp câu hỏi
của mỗi thí sinh. Công thức của mô hình có
dạng như sau:
(1)( 1/ , )
1
i j
i j
b
ij i j b
e
P X b
e
Trong đó, θi là năng lực của thí sinh thứ
i, bj là độ khó của câu hỏi thứ j, và Xij là trả
lời của thí sinh thứ i đối với câu hỏi thứ j.
Nếu thí sinh trả lời đúng câu hỏi thìXij=1 và
ngược lại thí sinh trả lời sai câu hỏi thì
Xij=0. Đồ thị của hàm số trong công thức
trên theo biến θi được gọi là đường cong đặc
trưng của câu hỏi và có dạng như Hình 1.
Hình 1. Đường cong đặc trưng của câu hỏi trong mô hình Rasch
Đường cong đặc trưng của câu hỏi có
độ dốc hướng lên biểu thị cho xác suất trả
lời đúng câu hỏi của thí sinh tỉ lệ thuận với
năng lực của thí sinh đó. Xác suất này sẽ tiến
dần về 1 khi năng lực của thí sinh tiến đến
dương vô cùng. Trong mô hình Rasch, nếu
năng lực θi của thí sinh bằng với độ khó câu
hỏi bj thì khả năng trả lời đúng câu hỏi của
thí sinh đó là 50%. Mức năng lực này được
gọi là ngưỡng của câu hỏi. Như vậy, độ khó
của mỗi câu hỏi chính là ngưỡng mà với
năng lực đó, khả năng trả lời đúng câu hỏi
của thí sinh là 50%. Điểm nổi bật của mô
hình Rasch là nó mô tả được mối liên hệ
giữa năng lực của mỗi thí sinh đối với các
tham số đặc trưng của các câu hỏi thông qua
sự ứng đáp của mỗi thí sinh khi trả lời các
câu hỏi trong đề thi [11].
NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
55
2.2. Giới thiệu về dữ liệu phân tích
Bài viết này dựa trên kết quả phân tích
dữ liệu thi trắc nghiệm khách quan môn
Tiếng Anh 1 trong kỳ thi kết thúc học phần
học kỳ 1, năm học 2018 - 2019 tại Trường
Đại học Đồng Tháp. Đề thi gồm 50 câu hỏi
trắc nghiệm khách quan, mỗi câu hỏi đều có
04 phương án trả lời trong đó có 01 phương
án đúng và 03 phương án nhiễu. Số lượng
thí sinh tham gia trả lời các câu hỏi trong đề
thi là 874 người.
2.3. Đánh giá chất lượng đề thi trắc
nghiệm khách quan dựa vào mô hình
Rasch và phần mềm ConQuest
Phần mềm ConQuest được viết bởi Hội
đồng nghiên cứu giáo dục Úc dùng để ứng
dụng lý thuyết ứng đáp câu hỏi IRT vào
phân tích dữ liệu đề thi và đánh giá năng lực
của thí sinh [12]. Để sử dụng phần mềm
ConQuest cần có hai file dữ liệu đầu vào
gồm file cấu hình có định dạng *.cqc và file
chứa kết quả trả lời của các thi sinh có định
dạng *.dat. Kết quả phân tích được xuất ra
từ phần mềm ConQuest sẽ phụ thuộc vào
file cấu hình nhưng cơ bản sẽ gồm các file
sau: file đánh giá từng câu hỏi có dạng *.itn;
file sơ đồ phân bố năng lực của thí sinh với
độ khó của câu hỏi, giá trị phù hợp của
MNSQ có định dạng *.shw; file thống kê
năng lực của thí sinh có định dạng *.mle.
2.3.1. Sự phù hợp của câu hỏi với mô
hình Rasch
Mức độ phù hợp của các câu hỏi trong đề
thi với mô hình Rasch được xác định dựa vào
giá trị bình phương trung bình MNSQ (Mean
Square). Câu hỏi được coi là phù hợp với mô
hình nếu giá trị MNSQ của câu hỏi nằm trong
khoảng tin cậy CI (Confidence Interval)
tương ứng. Những câu hỏi có giá trị MNSQ
trong cả 2 cột UNWEIGHTED FIT và
WEIGHTED FIT đều nằm ngoài các khoảng
CI tương ứng chứng tỏ có điều bất thường xảy
đối với câu hỏi đó, cần phải được xem xét lại.
Những bất thường xảy ra đối với câu hỏi có
khả năng là đáp án bị sai, hay nội dung câu
hỏi được thể hiện không rõ ràng gây ra sự
hiểu nhầm cho thí sinh. Kết quả thống kê cho
thấy trong đề thi này có 13 câu hỏi có giá trị
MNSQ trong cả 2 cột UNWEIGHTED FIT
và WEIGHTED FIT đều không nằm trong
khoảng tin cậy CI tưng ứng. Những câu hỏi
này thể hiện qua Bảng 1.
Bảng 1. Thống kê giá trị MNSQ của một số câu hỏi xảy ra bất thường
SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
56
Trong đề thi có 13 câu hỏi có khả năng
xảy ra bất thường do các giá trị MNSQ của
hai cột UNWEIGHTED FIT và WEIGHTED
FIT đều nằm ngoài các khoảng CI tương
ứng và được thể hiện trong Hình 2. Đó là
các câu hỏi như: câu 13, 14, 20, 27, 31, 33,
36, 39, 41, 45, 46, 47 và câu 49. Đây những
câu hỏi này cần được xem xét lại về nội
dung cũng như các phương án trả lời. Còn
lại 37 câu hỏi trong đề thi phù hợp với mô
hình Rasch.
2.3.2. Độ khó của câu hỏi
Độ khó của câu hỏi đặc trưng cho khả
năng trả lời đúng câu hỏi của thí sinh. Câu
hỏi có độ khó càng cao thì xác suất trả lời
đúng câu hỏi của thí sinh càng thấp. Độ khó
của các câu hỏi trong đề thi theo thang đo
logarit được ước lượng bằng phần mềm
ConQuest và được thể hiện tại cột ESTIMATE
trong cùng bảng ước lượng giá trị MNSQ
câu hỏi (Hình 2). Theo Baker (2001), độ khó
của câu hỏi được chia thành 05 mức như
sau: mức rất dễ nếu giá trị độ khó bé hơn -
2,0; mức dễ nếu giá trị độ khó từ -2,0 đến
dưới -0,5; mức trung bình nếu giá trị độ khó
từ -0,5 đến dưới 0,5; mức khó nếu giá trị độ
khó từ 0,5 đến dưới 2,0 và mức rất khó nếu
độ khó của câu hỏi đạt từ 2,0 trở lên [11].
Theo cách phân loại trên, kết quả thống kê
bằng phần mềm ConQuest cho thấy độ khó
của câu hỏi được phân bố theo các mức độ
như sau:
Bảng 2. Thống kê độ khó của các câu hỏi trong đề thi
Giá trị độ khó Mức độ Số lượng câu hỏi Tỷ lệ %
Dưới -2.0 Rất dễ 0 0.0
Từ -2.0 đến dưới -0.5 Dễ 16 32.0
Từ -0.5 đến dưới 0.5 Trung bình 20 40.0
Từ 0.5 đến dưới 2.0 Khó 13 26.0
Từ 2.0 trở lên Rất khó 1 2.0
Tổng cộng 50 100.0
Kết quả thống kê trong Bảng 2 cho thấy
phần lớn câu hỏi trong đề thi có độ khó tập
trung vào 3 mức độ: mức dễ (16 câu, tỷ lệ
32%), mức trung bình (20 câu, tỷ lệ 40%) và
mức khó (13 câu, 26%). Đề thi không có câu
hỏi ở mức rất dễ và chỉ có duy nhất 1 câu
hỏi ở mức rất khó.
2.3.3. Phân bố độ khó của câu hỏi và
năng lực của thí sinh
Việc phân bố độ khó của câu hỏi và năng
lực của thí sinh sẽ cho thấy mức độ phù hợp
của đề thi đối với những thí sinh dự thi. Một
đề thi có chất lượng tốt khi những câu hỏi
trong đề thi có độ khó tương ứng với năng
lực của thí sinh, kể cả những thí sinh có năng
lực thấp và những thí sinh có năng lực cao.
Những câu hỏi có độ khó vượt quá khả năng
hoặc quá thấp so với năng lực của thí sinh
cần phải được điều chỉnh hoặc loại bỏ.
Kết quả phân bố độ khó của câu hỏi
trong đề thi này so với năng lực của thí sinh
dự thi được thể hiện qua Hình 2.
NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
57
Hình 2. Biểu đồ phân bố độ khó của câu hỏi và năng lực của thí sinh
Kết quả tính toán bằng phần mềm
ConQuest đã cho thấy năng lực của thí sinh
dự thi theo thang đo logarit đạt giá trị từ -
1,575 đến 3,352, năng lực trung bình của thí
sinh là 0,809 và độ lệch chuẩn là 1,036. Bên
cạnh đó, độ khó của các câu hỏi trong đề thi
có giá trị từ -1,682 đến 2,279, độ khó trung
bình của các câu hỏi bằng 0,00 và độ lệch
chuẩn 0,908. Như vậy, đây là một đề thi khá
dễ vì có độ khó trung bình (bằng 0,00) thấp
hơn so với năng lực trung bình của thí sinh
(bằng 0,809).
Ngoài ra, kết quả thống kê trong Hình 2
còn cho thấy câu hỏi khó nhất trong đề thi là
SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
58
câu 22 với độ khó bằng 2,279 và dễ nhất là
câu 21 với độ khó bằng -1,682. Mặc dù câu
22 là câu hỏi khó nhất trong đề thi nhưng độ
khó của câu hỏi này vẫn còn thấp hơn năng
lực của một số thí sinh. Điều này cho thấy,
đề thi vẫn còn thiếu những câu hỏi khó để
có thể đánh giá được những thí sinh có năng
lực cao. Bên cạnh đó, câu 21 trong đề thi có
độ khó thấp hơn năng lực của tất cả thí sinh
dự thi. Vì vậy, câu hỏi này cần được loại bỏ
ra khỏi đề thi.
2.3.4. Đánh giá chất lượng của từng
câu hỏi trong đề thi
Bên cạnh độ khó của câu hỏi, chất
lượng của đề thi còn được thể hiện thông
qua độ phân biệt và chất lượng các phương
án nhiễu trong từng câu hỏi. Trong đó, độ
phân biệt của câu hỏi thể hiện khả năng phân
loại những thí sinh có năng lực cao và những
thí sinh có năng lực thấp trong việc trả lời
câu hỏi. Một câu hỏi có độ phân biệt tốt khi
trả lời câu hỏi đó, những thí sinh có năng lực
cao có tỷ lệ trả lời đúng cao hơn những thí
sinh có năng lực thấp. Ngược lại, những câu
hỏi có độ phân biệt kém sẽ dẫn đến các thí
sinh có năng lực cao và năng lực thấp đều
có thể trả lời đúng câu hỏi như nhau. Hay
nói cách khác, những câu hỏi có độ phân
biệt lớn thì có ý nghĩa tốt hơn trong việc
phân loại thí sinh. Ebel (1965) cho rằng các
câu hỏi trong bài thi nên có độ phân biệt đạt
từ 0,3 trở lên [13]. Bên cạnh đó, đối với các
phương án nhiễu, thí sinh có năng lực cao
phải có tỷ lệ chọn thấp hơn đối với những
thí sinh có năng lực thấp. Điều này được xác
định thông qua giá trị hệ số tương quan Pt
Bis và giá trị p của phép kiểm định t trong
kết quả thống kê bằng phần mềm ConQuest.
Cụ thể, giá trị Pt Bis > 0 cho biết số lượng
thí sinh có năng lực cao lựa chọn nhiều hơn
số lượng thí sinh có năng lực thấp và người
lại, giá trị p < 0,05 cho biết sự chênh lệch
giữa số lượng thí sinh lựa chọn các phương
án là có ý nghĩa thống kê với độ tin cậy 95%.
Như vậy, những phương án nhiễu được gọi
là có chất lượng khi hệ số tương quan Pt Bis
< 0 và giá trị p < 0,05.
Kết quả tính toán bằng phần mềm
ConQuest cho thấy một số câu hỏi trong đề
thi này có các phương án nhiễu có chất lượng
tốt. Một trong số đó là câu hỏi 1 với các số
liệu thống kê được thể hiện qua Bảng 3.
Bảng 3. Thông tin phân tích câu hỏi 1
Item 1
Cases for this item: 873 Discrimination: 0,34
Item Threshold(s): -0,70 Weighted MNSQ: 1,02
Item Delta(s): -0,70
Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1
A 0,00 45 5,15 -0,13 -3,99 (0,000) 0,24 0,76
B 0,00 76 8,71 -0,23 -7,09 (0,000) 0,08 0,77
C 0,00 69 7,90 -0,17 -5,19 (0,000) 0,21 0,63
D 1,00 683 78,24 0,34 10,84 (0,000) 0,99 1,03
NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
59
Kết quả thống kê cho thấy phương án
đúng của câu hỏi này là phương án D (giá
trị Score =1) thu hút được 683 thí sinh trả
lời. Độ khó của câu hỏi theo thang đo logarit
(Item Threshold) là -0,70 (mức dễ), độ phân
biệt của câu hỏi (Discrimination) là 0,34 lớn
hơn 0.3. Các phương án nhiễu là A, B, C lần
lượt thu hút được 45, 67, 69 thí sinh trả lời
đều có giá trị Pt Bis < 0 và phép kiểm định
t đều có giá trị p = 0,000 < 0,05. Điều này
cho thấy các phương án nhiễu của câu hỏi
đều có ý nghĩa phân biệt những thí sinh có
năng lực cao và những thí sinh có năng lực
thấp. Sự phân biệt này được thể hiện rõ hơn
qua hình biểu diễn đường xác suất trả lời các
phương án của câu hỏi trong Hình 3.
Hình 2. Đường cong đặc trưng của Câu hỏi 1
Đường biểu diễn xác suất trả lời các
phương án nhiễu A, B, C cho thấy khi
năng lực của thí sinh càng cao thì xác suất
trả lời đối với các phương này càng thấp
và tiến dần về 0 khi năng lực của thí sinh
ở mức rất cao. Điều này cho thấy đây là
một câu hỏi có các phương án nhiễu có
chất lượng tốt.
Bên cạnh những câu hỏi có phương án
nhiễu có chất lượng tốt, kết quả thống kê
cho thấy trong đề thi này có những câu hỏi
có phương án nhiễu kém chất lượng. Một
trong số đó là câu hỏi 14 với các số liệu
thống kê thể hiện qua Bảng 4.
Bảng 4. Thông tin phân tích câu hỏi 14
Item 14
Cases for this item: 871 Discrimination: 0,48
Item Threshold(s): 0,27 Weighted MNSQ: 0,94
Item Delta(s): 0,26
Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1
A 1,00 531 60,96 0,48 16,32 (0,000) 1,20 1,01
B 0,00 75 8,61 -0,06 -1,86 (0,063) 0,57 0,83
C 0,00 185 21,24 -0,42 13,61 (0,000) 0,02 0,67
D 0,00 80 9,18 -0,16 -4,88 (0,000) 0,29 0,68
SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
60
Phương án đúng của câu hỏi này là
phương án A (giá trị Score =1) thu hút được
531 thí sinh trả lời. Độ khó của câu hỏi theo
thang đo logarit (Item Threshold) là 0,27
(mức trung bình), độ phân biệt của câu hỏi
(Discrimination) là 0,48 lớn hơn 0,3. Các
phương án nhiễu là B, C, D lần lượt thu hút
được 75, 185, 80