Đánh giá chất lượng đề thi trắc nghiệm khách quan thông qua việc ứng dụng mô hình Rasch và phần mềm Conquest

Nghiên cứu này trình bày cách đánh giá một đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thông qua việc sử dụng phần mềm ConQuest. Kết quả phân tích trong bài viết đã chỉ ra một số vấn đề liên quan đến chất lượng của một đề thi trắc nghiệm khách quan. Cụ thể như: (1) về độ khó, trong đề thi có một câu hỏi rất dễ, thấp hơn năng lực của toàn bộ thí sinh cần phải được loại bỏ, đồng thời thiếu những câu hỏi có khả năng đo lường năng lực của những thí sinh có năng lực cao; (2) về độ phân biệt, trong đề thi có ba câu hỏi có độ phân biệt kém, không có ý nghĩa trong việc đo lường năng lực của thí sinh; (3) về chất lượng các phương án nhiễu, trong đề thi có năm câu hỏi có phương án nhiễu kém chất lượng cần phải được điều chỉnh hoặc thay thế. Bằng phương pháp này, giảng viên biên soạn đề thi sẽ phát hiện được những câu hỏi có chất lượng tốt và đưa vào ngân hàng câu hỏi thi, đồng thời những câu hỏi kém chất lượng sẽ được điều chỉnh hoặc bị loại bỏ ra khỏi đề thi.

13 trang | Chia sẻ: thuyduongbt11 | Lượt xem: 1033 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Đánh giá chất lượng đề thi trắc nghiệm khách quan thông qua việc ứng dụng mô hình Rasch và phần mềm Conquest, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

TRƯỜNG ĐẠI HỌC SÀI GÒN SAIGON UNIVERSITY TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY Số 75 (03/2021) No. 75 (03/2021) Email: tcdhsg@sgu.edu.vn ; Website: 52 ĐÁNH GIÁ CHẤT LƯỢNG ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN THÔNG QUA VIỆC ỨNG DỤNG MÔ HÌNH RASCH VÀ PHẦN MỀM CONQUEST Evaluating the quality of multiple-choice tests through applying Rasch model and ConQuest software ThS. Nguyễn Văn Cảnh(1), ThS. Nguyễn Quốc Tuấn(2) (1),(2) Trường Đại học Đồng Tháp TÓM TẮT Nghiên cứu này trình bày cách đánh giá một đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thông qua việc sử dụng phần mềm ConQuest. Kết quả phân tích trong bài viết đã chỉ ra một số vấn đề liên quan đến chất lượng của một đề thi trắc nghiệm khách quan. Cụ thể như: (1) về độ khó, trong đề thi có một câu hỏi rất dễ, thấp hơn năng lực của toàn bộ thí sinh cần phải được loại bỏ, đồng thời thiếu những câu hỏi có khả năng đo lường năng lực của những thí sinh có năng lực cao; (2) về độ phân biệt, trong đề thi có ba câu hỏi có độ phân biệt kém, không có ý nghĩa trong việc đo lường năng lực của thí sinh; (3) về chất lượng các phương án nhiễu, trong đề thi có năm câu hỏi có phương án nhiễu kém chất lượng cần phải được điều chỉnh hoặc thay thế. Bằng phương pháp này, giảng viên biên soạn đề thi sẽ phát hiện được những câu hỏi có chất lượng tốt và đưa vào ngân hàng câu hỏi thi, đồng thời những câu hỏi kém chất lượng sẽ được điều chỉnh hoặc bị loại bỏ ra khỏi đề thi. Từ khóa: ConQuest, đề thi, mô hình Rasch ABTRACTS This study evaluates the quality of multiple-choice test, based on using the Rasch model and ConQuest software. The analysis results in the article have pointed out some issues related to the quality of a test. Specifically, (1) regarding difficulty, there is a very easy question in the test, which is lower than capacity of candidates that need to be removed and the test also lacks of difficult questions to measure the competency of highly capable candidates; (2) regarding discrimination, there are three questions with low discrimination, which are not significant in measuring the competency of candidates; (3) regarding quality of distracting options, there are five questions with low quality distracting options that need to be adjusted or replaced. By this method, exam preparation teachers will discover good questions to put into the exam questions bank, and low quality questions will be adjusted or removed from the test. Keywords: ConQuest, test, Rasch model 1. Mở đầu Trong những năm gần đây, trắc nghiệm khách quan đang dần trở thành một trong những hình thức kiểm tra đánh giá phổ biến trong giáo dục Việt Nam. Điều này được thể qua việc Bộ Giáo dục và Đào tạo đã sử dụng hình thức đánh giá này với hầu hết các môn thi trong kỳ thi trung học phổ thông quốc gia. Bên cạnh đó, các trường đại học cũng đang sử dụng trắc nghiệm khách quan để Email: nvcanh@dthu.edu.vn NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN 53 đánh giá kết quả học tập của sinh viên, đặc biệt là các học phần đại cương có nhiều sinh viên đăng ký tham gia học tập. Mặc dù vẫn có những hạn chế nhất định, hình thức này vẫn có nhiều ưu điểm trong đo lường, đánh giá kết quả học tập. Một trong những ưu điểm nổi bật của hình thức đánh giá này là đảm bảo tính khách quan và tiện lợi trong quá trình chấm bài thi. Tuy nhiên để đảm bảo đề thi chính xác và có khả năng đo lường được đúng năng lực của thí sinh, cần thiết phải có công cụ đánh giá chất lượng đề thi, làm cơ sở để điều chỉnh và cải tiến chất lượng. Ở Việt Nam, thời gian gần đây đã có một số nghiên cứu về việc đánh giá đề thi trắc nghiệm khách quan với sự hỗ trợ của các phần mềm tính toán, tiêu biểu phải kể đến nghiên cứu của các tác giả như Nguyễn Thị Hồng Minh và Nguyễn Đức Thiện (2006) với việc sử dụng phương pháp PROX [1], Nguyễn Bảo Hoàng Thanh (2008) với việc sử dụng phần mềm Quest [2], Đoàn Hồng Chương và cộng sự (2016) với việc sử dụng gói “ltm” của phần mềm R [3], Bùi Ngọc Quang (2017) với việc sử dụng mô hình Rasch và phần mềm Quest [4], Lê Anh Vũ và cộng sự (2017) với việc sử dụng phương pháp lấy mẫu GIBBS [5], Bùi Anh Kiệt và Bùi Nguyên Phương (2018) với việc sử dụng phần mềm IATA [6]. Trong nghiên cứu này, chúng tôi trình bày cách đánh giá một đề thi trắc nghiệm khách dựa vào mô hình Rasch thông qua việc ứng dụng phần mềm ConQuest. Bên cạnh việc hỗ trợ tính toán các tham số của câu hỏi như độ khó và độ phân biệt, phần mềm ConQuest còn hỗ trợ phân tích chất lượng của các phương án nhiễu của câu hỏi thông qua hệ số tương quan, phép kiểm định t và hình ảnh biểu diễn xác suất trả lời cho từng phương án theo năng lực của thí sinh. Đây là ưu điểm của phần mềm này so với các phần mềm khác có chức năng phân tích câu hỏi trắc nghiệm khách quan. 2. Nội dung nghiên cứu 2.1. Giới thiệu về mô hình Rasch Khoa học đo lường và đánh giá trong giáo dục phát triển tương đối hoàn chỉnh từ thập niên 1970 với sự ra đời và hoàn thiện của lý thuyết khảo thí cổ điển (Classical Test Theory – CTT). Việc áp dụng CTT để đo lường và đánh giá đề thi trắc nghiệm khách quan rất dễ thực hiện vì nó hầu như không đòi hỏi bất kì giả thiết nào khi chạy mô hình, nhưng phương pháp này tồn tại một số hạn chế [7]. Hạn chế cơ bản nhất của lý thuyết này là không tách biệt được các đặc trưng của thí sinh với các đặc trưng của đề trắc nghiệm, đặc trưng này chỉ có thể được giải thích trong mối quan hệ với đặc trưng kia và ngược lại. Cụ thể, các đặc trưng của đề trắc nghiệm như độ khó, độ phân biệt của câu hỏi, độ tin cậy và độ giá trị của đề trắc nghiệm được xác định dựa vào một nhóm thí sinh làm bài. Vì vậy, các đặc trưng này của đề trắc nghiệm sẽ thay đổi khi được đo lường trên một nhóm thí sinh khác. Bên cạnh đó, năng lực của thí sinh cũng sẽ thay đổi khi đề trắc nghiệm thay đổi, chẳng hạn như khi thực hiện trên một đề trắc nghiệm dễ thì thí sinh sẽ được đánh giá là có năng lực cao, và ngược lại thí sinh được đánh giá là có năng lực thấp khi thực hiện trên một đề trắc nghiệm khó. Do đó, rất khó so sánh năng lực của thí sinh khi họ phải thực hiện trên những đề trắc nghiệm khác nhau cũng như rất khó so sánh độ khó của các câu hỏi trong đề thi khi chúng được trả lời bởi các nhóm thí sinh khác nhau [8]. Trên cơ sở đó, lý thuyết ứng đáp câu hỏi (Item Response Theory – IRT) được ra đời nhằm khắc phục những điểm hạn chế của CTT. Lý thuyết ứng đáp của hỏi được xây dựng dựa trên hai giả thiết: (1) sự ứng đáp của một thí sinh đối với một câu hỏi có thể được tiên đoán bằng năng lực tiềm ẩn của thí sinh; (2) quan hệ giữa sự ứng đáp câu hỏi SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) 54 của thí sinh và năng lực tiềm ẩn làm cơ sở cho sự đáp ứng đó có thể mô tả bằng một hàm đặc trưng câu hỏi đồng biến [8]. Theo đó, Rasch cho rằng việc phân tích trong đo lường và đánh giá đề thi trắc nghiệm khách quan chỉ có ý nghĩa khi dựa vào từng cá nhân thí sinh, trong đó, các thuộc tính của thí sinh và của các câu hỏi được tách riêng. Quan điểm này của Rasch đã đánh dấu sự chuyển tiếp từ mô hình CTT sang mô hình IRT, đây là mô hình mô tả xác suất trả lời đúng các câu hỏi trong đề thi trắc nghiệm khách quan đối với sự ứng đáp của thí sinh đối với các câu hỏi đó [9]. Dựa trên quan điểm đó, Rasch đã giới thiệu mô hình gọi là mô hình Rasch, mô hình này dựa trên giả thuyết cơ bản như sau: “Nếu một người có năng lực cao hơn người khác thì xác suất trả lời đúng một câu hỏi bất kì phải lớn hơn xác suất tương ứng của người kia; tương tự như vậy, nếu một câu hỏi khó hơn câu hỏi khác thì xác suất để một người bất kì trả lời đúng câu hỏi đó phải nhỏ hơn xác suất để người đó trả lời đúng câu hỏi kia” [10]. Trên cơ sở đó, Rasch đã xây dựng một mô hình toán học cho sự ứng đáp câu hỏi của mỗi thí sinh. Công thức của mô hình có dạng như sau: (1)( 1/ , ) 1         i j i j b ij i j b e P X b e Trong đó, θi là năng lực của thí sinh thứ i, bj là độ khó của câu hỏi thứ j, và Xij là trả lời của thí sinh thứ i đối với câu hỏi thứ j. Nếu thí sinh trả lời đúng câu hỏi thìXij=1 và ngược lại thí sinh trả lời sai câu hỏi thì Xij=0. Đồ thị của hàm số trong công thức trên theo biến θi được gọi là đường cong đặc trưng của câu hỏi và có dạng như Hình 1. Hình 1. Đường cong đặc trưng của câu hỏi trong mô hình Rasch Đường cong đặc trưng của câu hỏi có độ dốc hướng lên biểu thị cho xác suất trả lời đúng câu hỏi của thí sinh tỉ lệ thuận với năng lực của thí sinh đó. Xác suất này sẽ tiến dần về 1 khi năng lực của thí sinh tiến đến dương vô cùng. Trong mô hình Rasch, nếu năng lực θi của thí sinh bằng với độ khó câu hỏi bj thì khả năng trả lời đúng câu hỏi của thí sinh đó là 50%. Mức năng lực này được gọi là ngưỡng của câu hỏi. Như vậy, độ khó của mỗi câu hỏi chính là ngưỡng mà với năng lực đó, khả năng trả lời đúng câu hỏi của thí sinh là 50%. Điểm nổi bật của mô hình Rasch là nó mô tả được mối liên hệ giữa năng lực của mỗi thí sinh đối với các tham số đặc trưng của các câu hỏi thông qua sự ứng đáp của mỗi thí sinh khi trả lời các câu hỏi trong đề thi [11]. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN 55 2.2. Giới thiệu về dữ liệu phân tích Bài viết này dựa trên kết quả phân tích dữ liệu thi trắc nghiệm khách quan môn Tiếng Anh 1 trong kỳ thi kết thúc học phần học kỳ 1, năm học 2018 - 2019 tại Trường Đại học Đồng Tháp. Đề thi gồm 50 câu hỏi trắc nghiệm khách quan, mỗi câu hỏi đều có 04 phương án trả lời trong đó có 01 phương án đúng và 03 phương án nhiễu. Số lượng thí sinh tham gia trả lời các câu hỏi trong đề thi là 874 người. 2.3. Đánh giá chất lượng đề thi trắc nghiệm khách quan dựa vào mô hình Rasch và phần mềm ConQuest Phần mềm ConQuest được viết bởi Hội đồng nghiên cứu giáo dục Úc dùng để ứng dụng lý thuyết ứng đáp câu hỏi IRT vào phân tích dữ liệu đề thi và đánh giá năng lực của thí sinh [12]. Để sử dụng phần mềm ConQuest cần có hai file dữ liệu đầu vào gồm file cấu hình có định dạng *.cqc và file chứa kết quả trả lời của các thi sinh có định dạng *.dat. Kết quả phân tích được xuất ra từ phần mềm ConQuest sẽ phụ thuộc vào file cấu hình nhưng cơ bản sẽ gồm các file sau: file đánh giá từng câu hỏi có dạng *.itn; file sơ đồ phân bố năng lực của thí sinh với độ khó của câu hỏi, giá trị phù hợp của MNSQ có định dạng *.shw; file thống kê năng lực của thí sinh có định dạng *.mle. 2.3.1. Sự phù hợp của câu hỏi với mô hình Rasch Mức độ phù hợp của các câu hỏi trong đề thi với mô hình Rasch được xác định dựa vào giá trị bình phương trung bình MNSQ (Mean Square). Câu hỏi được coi là phù hợp với mô hình nếu giá trị MNSQ của câu hỏi nằm trong khoảng tin cậy CI (Confidence Interval) tương ứng. Những câu hỏi có giá trị MNSQ trong cả 2 cột UNWEIGHTED FIT và WEIGHTED FIT đều nằm ngoài các khoảng CI tương ứng chứng tỏ có điều bất thường xảy đối với câu hỏi đó, cần phải được xem xét lại. Những bất thường xảy ra đối với câu hỏi có khả năng là đáp án bị sai, hay nội dung câu hỏi được thể hiện không rõ ràng gây ra sự hiểu nhầm cho thí sinh. Kết quả thống kê cho thấy trong đề thi này có 13 câu hỏi có giá trị MNSQ trong cả 2 cột UNWEIGHTED FIT và WEIGHTED FIT đều không nằm trong khoảng tin cậy CI tưng ứng. Những câu hỏi này thể hiện qua Bảng 1. Bảng 1. Thống kê giá trị MNSQ của một số câu hỏi xảy ra bất thường SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) 56 Trong đề thi có 13 câu hỏi có khả năng xảy ra bất thường do các giá trị MNSQ của hai cột UNWEIGHTED FIT và WEIGHTED FIT đều nằm ngoài các khoảng CI tương ứng và được thể hiện trong Hình 2. Đó là các câu hỏi như: câu 13, 14, 20, 27, 31, 33, 36, 39, 41, 45, 46, 47 và câu 49. Đây những câu hỏi này cần được xem xét lại về nội dung cũng như các phương án trả lời. Còn lại 37 câu hỏi trong đề thi phù hợp với mô hình Rasch. 2.3.2. Độ khó của câu hỏi Độ khó của câu hỏi đặc trưng cho khả năng trả lời đúng câu hỏi của thí sinh. Câu hỏi có độ khó càng cao thì xác suất trả lời đúng câu hỏi của thí sinh càng thấp. Độ khó của các câu hỏi trong đề thi theo thang đo logarit được ước lượng bằng phần mềm ConQuest và được thể hiện tại cột ESTIMATE trong cùng bảng ước lượng giá trị MNSQ câu hỏi (Hình 2). Theo Baker (2001), độ khó của câu hỏi được chia thành 05 mức như sau: mức rất dễ nếu giá trị độ khó bé hơn - 2,0; mức dễ nếu giá trị độ khó từ -2,0 đến dưới -0,5; mức trung bình nếu giá trị độ khó từ -0,5 đến dưới 0,5; mức khó nếu giá trị độ khó từ 0,5 đến dưới 2,0 và mức rất khó nếu độ khó của câu hỏi đạt từ 2,0 trở lên [11]. Theo cách phân loại trên, kết quả thống kê bằng phần mềm ConQuest cho thấy độ khó của câu hỏi được phân bố theo các mức độ như sau: Bảng 2. Thống kê độ khó của các câu hỏi trong đề thi Giá trị độ khó Mức độ Số lượng câu hỏi Tỷ lệ % Dưới -2.0 Rất dễ 0 0.0 Từ -2.0 đến dưới -0.5 Dễ 16 32.0 Từ -0.5 đến dưới 0.5 Trung bình 20 40.0 Từ 0.5 đến dưới 2.0 Khó 13 26.0 Từ 2.0 trở lên Rất khó 1 2.0 Tổng cộng 50 100.0 Kết quả thống kê trong Bảng 2 cho thấy phần lớn câu hỏi trong đề thi có độ khó tập trung vào 3 mức độ: mức dễ (16 câu, tỷ lệ 32%), mức trung bình (20 câu, tỷ lệ 40%) và mức khó (13 câu, 26%). Đề thi không có câu hỏi ở mức rất dễ và chỉ có duy nhất 1 câu hỏi ở mức rất khó. 2.3.3. Phân bố độ khó của câu hỏi và năng lực của thí sinh Việc phân bố độ khó của câu hỏi và năng lực của thí sinh sẽ cho thấy mức độ phù hợp của đề thi đối với những thí sinh dự thi. Một đề thi có chất lượng tốt khi những câu hỏi trong đề thi có độ khó tương ứng với năng lực của thí sinh, kể cả những thí sinh có năng lực thấp và những thí sinh có năng lực cao. Những câu hỏi có độ khó vượt quá khả năng hoặc quá thấp so với năng lực của thí sinh cần phải được điều chỉnh hoặc loại bỏ. Kết quả phân bố độ khó của câu hỏi trong đề thi này so với năng lực của thí sinh dự thi được thể hiện qua Hình 2. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN 57 Hình 2. Biểu đồ phân bố độ khó của câu hỏi và năng lực của thí sinh Kết quả tính toán bằng phần mềm ConQuest đã cho thấy năng lực của thí sinh dự thi theo thang đo logarit đạt giá trị từ - 1,575 đến 3,352, năng lực trung bình của thí sinh là 0,809 và độ lệch chuẩn là 1,036. Bên cạnh đó, độ khó của các câu hỏi trong đề thi có giá trị từ -1,682 đến 2,279, độ khó trung bình của các câu hỏi bằng 0,00 và độ lệch chuẩn 0,908. Như vậy, đây là một đề thi khá dễ vì có độ khó trung bình (bằng 0,00) thấp hơn so với năng lực trung bình của thí sinh (bằng 0,809). Ngoài ra, kết quả thống kê trong Hình 2 còn cho thấy câu hỏi khó nhất trong đề thi là SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) 58 câu 22 với độ khó bằng 2,279 và dễ nhất là câu 21 với độ khó bằng -1,682. Mặc dù câu 22 là câu hỏi khó nhất trong đề thi nhưng độ khó của câu hỏi này vẫn còn thấp hơn năng lực của một số thí sinh. Điều này cho thấy, đề thi vẫn còn thiếu những câu hỏi khó để có thể đánh giá được những thí sinh có năng lực cao. Bên cạnh đó, câu 21 trong đề thi có độ khó thấp hơn năng lực của tất cả thí sinh dự thi. Vì vậy, câu hỏi này cần được loại bỏ ra khỏi đề thi. 2.3.4. Đánh giá chất lượng của từng câu hỏi trong đề thi Bên cạnh độ khó của câu hỏi, chất lượng của đề thi còn được thể hiện thông qua độ phân biệt và chất lượng các phương án nhiễu trong từng câu hỏi. Trong đó, độ phân biệt của câu hỏi thể hiện khả năng phân loại những thí sinh có năng lực cao và những thí sinh có năng lực thấp trong việc trả lời câu hỏi. Một câu hỏi có độ phân biệt tốt khi trả lời câu hỏi đó, những thí sinh có năng lực cao có tỷ lệ trả lời đúng cao hơn những thí sinh có năng lực thấp. Ngược lại, những câu hỏi có độ phân biệt kém sẽ dẫn đến các thí sinh có năng lực cao và năng lực thấp đều có thể trả lời đúng câu hỏi như nhau. Hay nói cách khác, những câu hỏi có độ phân biệt lớn thì có ý nghĩa tốt hơn trong việc phân loại thí sinh. Ebel (1965) cho rằng các câu hỏi trong bài thi nên có độ phân biệt đạt từ 0,3 trở lên [13]. Bên cạnh đó, đối với các phương án nhiễu, thí sinh có năng lực cao phải có tỷ lệ chọn thấp hơn đối với những thí sinh có năng lực thấp. Điều này được xác định thông qua giá trị hệ số tương quan Pt Bis và giá trị p của phép kiểm định t trong kết quả thống kê bằng phần mềm ConQuest. Cụ thể, giá trị Pt Bis > 0 cho biết số lượng thí sinh có năng lực cao lựa chọn nhiều hơn số lượng thí sinh có năng lực thấp và người lại, giá trị p < 0,05 cho biết sự chênh lệch giữa số lượng thí sinh lựa chọn các phương án là có ý nghĩa thống kê với độ tin cậy 95%. Như vậy, những phương án nhiễu được gọi là có chất lượng khi hệ số tương quan Pt Bis < 0 và giá trị p < 0,05. Kết quả tính toán bằng phần mềm ConQuest cho thấy một số câu hỏi trong đề thi này có các phương án nhiễu có chất lượng tốt. Một trong số đó là câu hỏi 1 với các số liệu thống kê được thể hiện qua Bảng 3. Bảng 3. Thông tin phân tích câu hỏi 1 Item 1 Cases for this item: 873 Discrimination: 0,34 Item Threshold(s): -0,70 Weighted MNSQ: 1,02 Item Delta(s): -0,70 Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1 A 0,00 45 5,15 -0,13 -3,99 (0,000) 0,24 0,76 B 0,00 76 8,71 -0,23 -7,09 (0,000) 0,08 0,77 C 0,00 69 7,90 -0,17 -5,19 (0,000) 0,21 0,63 D 1,00 683 78,24 0,34 10,84 (0,000) 0,99 1,03 NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN 59 Kết quả thống kê cho thấy phương án đúng của câu hỏi này là phương án D (giá trị Score =1) thu hút được 683 thí sinh trả lời. Độ khó của câu hỏi theo thang đo logarit (Item Threshold) là -0,70 (mức dễ), độ phân biệt của câu hỏi (Discrimination) là 0,34 lớn hơn 0.3. Các phương án nhiễu là A, B, C lần lượt thu hút được 45, 67, 69 thí sinh trả lời đều có giá trị Pt Bis < 0 và phép kiểm định t đều có giá trị p = 0,000 < 0,05. Điều này cho thấy các phương án nhiễu của câu hỏi đều có ý nghĩa phân biệt những thí sinh có năng lực cao và những thí sinh có năng lực thấp. Sự phân biệt này được thể hiện rõ hơn qua hình biểu diễn đường xác suất trả lời các phương án của câu hỏi trong Hình 3. Hình 2. Đường cong đặc trưng của Câu hỏi 1 Đường biểu diễn xác suất trả lời các phương án nhiễu A, B, C cho thấy khi năng lực của thí sinh càng cao thì xác suất trả lời đối với các phương này càng thấp và tiến dần về 0 khi năng lực của thí sinh ở mức rất cao. Điều này cho thấy đây là một câu hỏi có các phương án nhiễu có chất lượng tốt. Bên cạnh những câu hỏi có phương án nhiễu có chất lượng tốt, kết quả thống kê cho thấy trong đề thi này có những câu hỏi có phương án nhiễu kém chất lượng. Một trong số đó là câu hỏi 14 với các số liệu thống kê thể hiện qua Bảng 4. Bảng 4. Thông tin phân tích câu hỏi 14 Item 14 Cases for this item: 871 Discrimination: 0,48 Item Threshold(s): 0,27 Weighted MNSQ: 0,94 Item Delta(s): 0,26 Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1 A 1,00 531 60,96 0,48 16,32 (0,000) 1,20 1,01 B 0,00 75 8,61 -0,06 -1,86 (0,063) 0,57 0,83 C 0,00 185 21,24 -0,42 13,61 (0,000) 0,02 0,67 D 0,00 80 9,18 -0,16 -4,88 (0,000) 0,29 0,68 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) 60 Phương án đúng của câu hỏi này là phương án A (giá trị Score =1) thu hút được 531 thí sinh trả lời. Độ khó của câu hỏi theo thang đo logarit (Item Threshold) là 0,27 (mức trung bình), độ phân biệt của câu hỏi (Discrimination) là 0,48 lớn hơn 0,3. Các phương án nhiễu là B, C, D lần lượt thu hút được 75, 185, 80