Đề tài Xếp hạng các trường đại học dựa trên độ đo web và áp dụng vào bài toán xếp hạng các trường đại học Việt Nam

Chất lượng giáo dục được coi là đòn bẩy quan trọng bậc nhất để thúc đẩy sự phát triển của một quốc gia, và là nguồn đầu tư mang lại lợi nhuận lớn nhất đối với từng cá nhân. Xuất phát với mục tiêu ban đầu của việc xếp hạng các trường đại học là đáp ứng các nhu cầu thông tin về các trường đại học của cha mẹ học sinh, sinh viên và các nhà tuyển dụng lao động thì ngày nay nó đã trở thành một yếu tố chuẩn mực tại đa số các quốc gia có hệ thống giáo dục đại học lớn, môt hiện tượng toàn cầu và là mối quan tâm chung của tất cả các cộng đồng trong các quốc gia của tất cả các châu lục trên thế giới. Bắt đầu từ năm 1983, US News and World Report lần đầu tiên xếp hạng các trường đại học tại Hoa Kỳ. Tiếp sau đó là Tuần Báo Canada Macleeans (1991), rồi Tuần Báo Đức Stern (1998), Thời báo chủ nhật – Sunday Times (2001)cũng lần lượt đưa ra bảng xếp hạng cho các trường đại học nước mình. Sau đó, vào cuối thế kỉ 20, các bảng xếp hạng các trường đại học tốt nhất trong khu vực và toàn cầu cũng xuất hiện, tiêu biểu là bảng xếp hạng các trường đại học trên thế giới của trường đại học Giao thông Thượng Hải (2003), Times Higher Education Supplement của Vương Quốc Anh (2004) và của Webometrics (2004). Trong lúc đó, Việt Nam chưa có một hệ thống xếp hạng các trường đại học chính thức. Theo GS. TSKH Bành Tiến Long, Thứ trưởng Bộ Giáo dục vàĐào tạo Việt Nam, Đại học Quốc gia Hà Nội (ĐHQGHN) được xếp hạng 54khu vực và 2850 thế giới, trong đó Trường Đại học Công nghệ thuộc ĐHQGHN được xếp hạng 90 khu vực và 4217 thế giới [Long98]. Chưa hề có một công trình nghiên cứu nào thử xác định xem, nếu dùng bộ tiêu chí xếp hạng của Tin tức Hoa Kỳ, hoặc Thời báo Luân Đôn, hoặc Tuần san Châu Á, hoặc tổ chức nào khác để đánh giá các trường đại học Việt Nam. Trong hội thảo quốc tế “Xếp hạng các trường đại học:Xu thế toàn cầu và quan điểm” tại Đại học Quốc gia Hà Nội, PGS.TS Nguyễn Phương Nga đã trình bày báo cáo “Phương pháp và các tiêu chí xếp hạng của các trường đạihọc Việt Nam” với mong muốn trong năm 2009 đưa ra một bảng xếp hạng chính thức cho các trường đại học tại Việt Nam [Nga08].

pdf36 trang | Chia sẻ: hongden | Lượt xem: 1387 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đề tài Xếp hạng các trường đại học dựa trên độ đo web và áp dụng vào bài toán xếp hạng các trường đại học Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÁO CÁO CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM 2009 Đề tài: XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC DỰA TRÊN ĐỘ ĐO WEB VÀ ÁP DỤNG VÀO BÀI TOÁN XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC VIỆT NAM Người thực hiện: Trần Nam Khánh – K50HTTT Phùng Văn Huy – K50HTTT Nguyễn Tiến Thanh – K51CA Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy Cử nhân Nguyễn Thu Trang Hà Nội, 2009 1 Tóm tắt nội dung Xếp hạng các trường đại học (university ranking) nhận được rất nhiều sự quan tâm của các tổ chức xã hội và tổ chức giáo dục trên thế giới. Hiện nay, nhiều hệ thống xếp hạng dựa trên các phương pháp định tính cũng như định lượng đã được công bố. Trong đó, xếp hạng trường đại học dựa trên độ đo web được khởi xướng bởi phòng nghiên cứu Cybermetrics thuộc trung tâm nghiên cứu CSIC - trung tâm nghiên cứu lớn nhất của Tây Ban Nha - công bố vào tháng 1 và thang 7 hàng năm. Báo cáo đưa ra mô hình thực nghiệm áp dụng phương pháp “xếp hạng dựa trên độ đo web” vào bài toán xếp hạng các trường đại học Việt Nam. Thực nghiệm ban đầu cho kết quả khả quan của mô hình. 2 Mục lục 1. Giới thiệu ................................................................................................................ 4 2. Khái quát về Webometrics ...................................................................................... 5 2.1. Xếp hạng trang web ........................................................................................... 5 2.2. Xếp hạng các thực thể trên web ........................................................................ 7 2.3. Khái quát về Webometrics .............................................................................. 10 3. Một số hệ thống xếp hạng trường đại học điển hình ............................................ 13 3.1. Phương pháp chung ......................................................................................... 13 3.1.1. Thu thập dữ liệu .................................................................................... 13 3.1.2. Xác định các tiêu chí đánh giá, tính điểm và đánh trọng số cho từng tiêu chí. ............................................................................................................... 13 3.1.3. Tổng hợp và công bố kết quả ................................................................ 15 3.2. Các hệ thống xếp hạng quốc gia...................................................................... 15 3.2.1. Mỹ - US News and World Report (USNWR) ...................................... 15 3.2.2. Anh - Times Higher Education Supplement (THES) ........................... 15 3.2.3. Australia - Good Universities Giude (GUG) ........................................ 16 3.2.4. Canada - Macleans Raking ................................................................... 16 3.3. Các hệ thống xếp hạng quốc tế........................................................................ 17 3.3.1. Hệ thống xếp hạng học thuật các trường đại học trên thế giới của trường đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU) ....... 17 3.3.2. Hệ thống xếp hạng các trường đại học quốc tế của Times Higher Education Supplemen (THES).............................................................................. 18 4. Hệ thống xếp hạng trường đại học dựa trên độ đo Web ....................................... 19 4.1. Giới thiệu ......................................................................................................... 19 4.2. Phương pháp luận ............................................................................................ 20 4.2.1. Thu thập dữ liệu .................................................................................... 20 4.2.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số .......................... 21 5. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các trường đại học Việt Nam ................................................................................................................ 22 5.1. Xác định các chỉ số .......................................................................................... 23 5.1.1. Chỉ số nhận diện (V – Visibility) .......................................................... 23 5.1.2. Chỉ số kích thước (Size – S) ................................................................. 26 5.1.3. Chỉ số phong phú tài liệu (Rich files - R) ............................................. 26 5.1.4. Chỉ số bài báo khoa học (Scholar – Sc) ................................................ 26 5.2. Xác định trọng số cho các chỉ số ..................................................................... 27 6. Bảng xếp hạng - Phân tích đánh giá ..................................................................... 28 7. Kết luận và định hướng nghiên cứu ...................................................................... 30 3 Danh sách hình vẽ Hình 1. Đồ thị biểu diễn liên kết web Hình 2. Mô hình chung của tìm kiếm thực thể Hình 3. Một thuật toán xếp hạng thực thể. Hình 4. Mô hình thực nghiệm chung Hình 5. Đồ thị web các trường đại học Hình 6. Sử dụng máy tìm kiếm để xác định liên kết đến (inlinks) Hình 7. Mô hình mở rộng phương pháp 2 Danh sách bảng biểu Bảng 1.Các tiêu chí và trọng số trong xếp hạng của SJTU Bảng 2. Bảng xếp hạng 5 trường hàng đầu theo TJTU (2008) Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008) Bảng 4: So sánh về độ bao phủ của Webometrics với ARWU và THES Bảng 5: Bảng xếp hạng 10 trường hàng đầu thế giới theo Webometrics Bảng 6: Các câu truy vấn trong xác định chỉ số V Bảng 7. Các câu truy vấn xác định chỉ số S Bảng 8: Câu truy vấn xác định chỉ số R Bảng 9: Trọng số cho các chỉ số S, V, R, Sc Bảng 10. Bảng xếp hạng các trường đại học Việt Nam Bảng 11. Danh sách các trường Việt Nam được Webometrics xếp hạng Danh sách biểu đồ Biểu đồ 1: Mối quan hệ giữa các độ đo Biểu đồ 2. So sánh kết quả kết quả thực nghiệm và webometrics 4 1. Giới thiệu Chất lượng giáo dục được coi là đòn bẩy quan trọng bậc nhất để thúc đẩy sự phát triển của một quốc gia, và là nguồn đầu tư mang lại lợi nhuận lớn nhất đối với từng cá nhân. Xuất phát với mục tiêu ban đầu của việc xếp hạng các trường đại học là đáp ứng các nhu cầu thông tin về các trường đại học của cha mẹ học sinh, sinh viên và các nhà tuyển dụng lao động thì ngày nay nó đã trở thành một yếu tố chuẩn mực tại đa số các quốc gia có hệ thống giáo dục đại học lớn, môt hiện tượng toàn cầu và là mối quan tâm chung của tất cả các cộng đồng trong các quốc gia của tất cả các châu lục trên thế giới. Bắt đầu từ năm 1983, US News and World Report lần đầu tiên xếp hạng các trường đại học tại Hoa Kỳ. Tiếp sau đó là Tuần Báo Canada Macleeans (1991), rồi Tuần Báo Đức Stern (1998), Thời báo chủ nhật – Sunday Times (2001) cũng lần lượt đưa ra bảng xếp hạng cho các trường đại học nước mình. Sau đó, vào cuối thế kỉ 20, các bảng xếp hạng các trường đại học tốt nhất trong khu vực và toàn cầu cũng xuất hiện, tiêu biểu là bảng xếp hạng các trường đại học trên thế giới của trường đại học Giao thông Thượng Hải (2003), Times Higher Education Supplement của Vương Quốc Anh (2004) và của Webometrics (2004). Trong lúc đó, Việt Nam chưa có một hệ thống xếp hạng các trường đại học chính thức. Theo GS. TSKH Bành Tiến Long, Thứ trưởng Bộ Giáo dục và Đào tạo Việt Nam, Đại học Quốc gia Hà Nội (ĐHQGHN) được xếp hạng 54 khu vực và 2850 thế giới, trong đó Trường Đại học Công nghệ thuộc ĐHQGHN được xếp hạng 90 khu vực và 4217 thế giới [Long98]. Chưa hề có một công trình nghiên cứu nào thử xác định xem, nếu dùng bộ tiêu chí xếp hạng của Tin tức Hoa Kỳ, hoặc Thời báo Luân Đôn, hoặc Tuần san Châu Á, hoặc tổ chức nào khác để đánh giá các trường đại học Việt Nam. Trong hội thảo quốc tế “Xếp hạng các trường đại học: Xu thế toàn cầu và quan điểm” tại Đại học Quốc gia Hà Nội, PGS.TS Nguyễn Phương Nga đã trình bày báo cáo “Phương pháp và các tiêu chí xếp hạng của các trường đại học Việt Nam” với mong muốn trong năm 2009 đưa ra một bảng xếp hạng chính thức cho các trường đại học tại Việt Nam [Nga08]. Báo cáo này tập trung vào việc nghiên cứu phương pháp sử dụng độ đo web trong xếp hạng các trường đại học trên thế giới, được Phòng nghiên cứu Cybermetrics thuộc trung tâm nghiên cứu CSIC (Tây Ban Nha) khởi xướng. Cuối cùng là áp dụng phương pháp trên để xây dựng mô hình thực nghiệm cho việc xếp hạng các trường đại học Việt Nam. Dữ liệu về website các trường đại học Việt Nam được lấy về từ trang chủ của Bộ Giáo dục và Đào tạo Việt Nam (có bổ sung sửa đổi). Phần còn lại của báo cáo sẽ được chức thành năm mục. Mục đầu sẽ trình bày khái quát về Webometrics. Mục thứ hai sẽ giới thiệu về phương pháp chung thực hiện trong xếp hạng trường đại học và các hệ thống xếp hạng quốc gia, quốc tế. Tiếp theo 5 báo cáo trình bày phương pháp xếp hạng trường đại học dựa trên độ đo web - webometrics. Mục thứ tư sẽ trình bày mô hình thực nghiệm áp dụng phương pháp trong xếp hạng các trường đại học tại Việt Nam. Mục cuối cùng sẽ đưa ra kết quả - bảng xếp hạng- phân tích đánh giá kết quả và định hướng nghiên cứu 2. Khái quát về Webometrics 2.1. Xếp hạng trang web Ngày nay với sự phát triển của Internet, người dùng đã có được một nguồn tài nguyên tri thức phong phú, đa dạng. Tuy nhiên, do số lượng các trang web quá lớn, con người không có đủ thời gian cũng như kiên nhẫn để mà có thể ghé thăm qua từng trang cho tới khi tìm ra thông tin mình mong muốn. Chính vì lý do đó máy tìm kiếm ra đời với cách thức hoạt động khá đơn giản và thân thiện: người dùng đưa ra từ khóa về thông tin mong muốn, máy sẽ liệt kê ra các trang liên quan. Song thực sự thì lượng kết quả máy cho là phù hợp với truy vấn của người dùng cũng không hề nhỏ! Do đó, đặt ra yêu cầu xếp hạng các trang để máy hiển thị kết quả trả về tốt hơn cho người dùng. Các trang web trên Internet được xây dựng và liên kết với nhau. Nếu coi mỗi trang web là một điểm, và mỗi liên kết từ một trang web này tới một trang web khác là một tia, thì ta có thể biểu diễn được tập hợp các trang web, mối quan hệ giữa chúng bằng một đồ thị G - gọi là đồ thị Web. Đồ thị G là đồ thị có hướng. Mỗi đỉnh pi của G tương ứng với một trang. Cung pi -> pj cho biết rằng trang ứng với đỉnh pi có liên kết tới trang ứng với đỉnh pj. Kí hiệu N(p) là số liên kết vào p. B(p) là số liên kết ra từ p. Trong tính toán, G được biểu diễn bằng ma trận. Có hai dạng ma trận thường được sử dụng đó là ma trận kề A và ma trận chuyển P. Dưới đây là một ví dụ của đồ thị G để minh họa, làm rõ cách biểu diễn G bằng ma trận Hình 1. Đồ thị biểu diễn liên kết web P P P P 6 Ma trận kề A: aij = 1 nếu trang i có liên kết tới j, bằng 0 trong các trường hợp khác (ko tính tự liên kết, tức aii = 0 với mọi i) 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 0 1 0 1 1 0 0 1 0 0 0 0 0 0 0 0 a a a a a a a a a a a a a a a a            =            Ma trận chuyển P: pij = 1/B(i) nếu trang i có liên kết trỏ tới j, bằng 0 trong các trường hợp khác 1 1 2 211 12 13 14 1 1 2 221 22 23 24 31 32 33 34 41 42 43 44 0 0 0 0 0 0 0 0 0 0 0 0 p p p p p p p p p p p p p p p p            =            Do tính chất đặc thù có khả năng liên kết giữa các trang web, nên sự xếp hạng các trang web ở mức toàn cục luôn có việc phân tích liên kết trên đồ thị web. Nội dung dưới đây sẽ trình bày khái quát về 2 phương pháp xếp hạng dựa trên liên kết phổ biến PageRank và HITS Phương pháp PageRank Là phương pháp tính hạng được phát triển tại đại học Stanford bởi Lary Page (cũng bởi vậy mà có tên PageRank) và tiếp đó bởi cùng Sergey Brin. Sau này trở thành thương hiệu của Google [PBMW98]. Ý tưởng: Độ quan trọng của một trang thừa hưởng một phần độ quan trọng từ trang liên kết đến nó. Công thức tính hạng trang pi Trong đó: N là tổng số trang, d là hệ số hãm (qua thực nghiệm, tác giả công bố chọn 0.85), M(pi) là tập các trang liên kết tới pi, L(pj) là số trang pj liên kết đến. Ưu điểm của PageRank: đơn giản, tính toán nhanh, đáng tin; không phụ thuộc vào truy vấn của người dùng, nội dung của trang web; có thể tính toán ngoại tuyến với đầu vào là cấu trúc đồ thị web. Dĩ nhiên trên thực tế Google không chỉ sử dụng nguyên PageRank “cổ điển” để xếp hạng trang. Phương pháp HITS (Hyperlink-Induced Topic Search – KleinBerg) Ý tưởng: Độ quan trọng của một trang web được xác định dựa trên 2 trọng số authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt 7 là trang có nhiều liên kết tới. 2 trọng số này có quan hệ qua lại với nhau: trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub cao trỏ tới thì trọng số authority càng cao. Quá trình tính toán: Từ câu truy vấn, xác định tập nhân, mở rộng thành tập cơ sở S gồm n trang. Ban đầu khởi tạo trọng số hub và authority cho mỗi trang bằng 1. ai=hi=1. Sau đó tiến hành tính ai và hi theo công thức ( ) i j j B i a h ∈ = ∑ và ( ) i j j N i h a ∈ = ∑ Ưu điểm: Áp dụng với tập nhỏ, tính toán trực tuyến Minh họa áp dụng PageRank vào xếp hạng các blog ở Việt Nam Bài toán: Blog ngày càng phát triển và trở nên phổ biến đối với mọi người. Xếp hạng các blogger để đánh giá sự “nổi tiếng”, “đóng góp” của họ với cộng đồng, ưu tiên hiển thị các bài viết mới “chất lượng” của họ trên máy tìm kiếm blog. Nhận xét: Mạng blog là một loại của mạng xã hội. Chúng ta có thể mô hình hóa bằng đồ thị G có hướng. Mỗi đỉnh ứng với một blogger. Cung AB chỉ ra rằng blogger A có lời bình - nhận xét cho bài viết của B, và được đánh trọng số là tổng số lời bình, nhận xét của A cho các bài viết của B. Khi đó dễ dang nhận thấy “liên kết thông qua comment” giữa các blogger khá giống “liên kết” giữa các trang web. Vì thế chúng ta có thể áp dụng PageRank sửa đổi để tính toán phục vụ việc xếp hạng. Sự sửa đổi ở đây chính là ở trọng số lời bình - nhận xét. Công thức áp dụng tính hạng cho blogger i PR(i) = Trong đó: N là tổng số blogger, α là hệ số hãm (0.85), Nj,i là số lời bình - nhận xét của j cho i, Nj là số lời bình – nhận xét của j cho tất cả các blogger 2.2. Xếp hạng các thực thể trên web Các máy tìm kiếm hiện nay: Google, Yahoo hay Live Search đều tâp trung tìm kiếm dựa từ khóa mà không quan tâm đến dữ liệu. Cụ thể hơn thì các máy tìm kiếm hiện nay có 2 hạn chế chính: § Indirect Input and Output. Người dùng không thể miêu tả chính xác những gì họ cần do đó khi tìm kiếm người dùng có thể tìm vào những trang web mà không có thông tin họ mong muốn. Tiếp đó, người dùng không thể trực tiếp lấy những gì họ muốn. Vì họ phải chọn lọc qua một danh sách các trang để tìm kết quả. § Singular Matching Mechanism. Máy tìm kiếm hiện nay tìm mỗi trang một cách rất đơn giản chỉ bằng cách so sánh văn bản (text) 8 trên từng trang. Mặc dù thực thể kết quả có thể chứa trong nhiều trang khác nhau. Do đó, tìm kiếm thực thể được đưa ra để giải quyết các giới hạn trên: § Input: Người dùng có thể đưa ra một cách rõ ràng loại dữ liệu nào mà họ đang tìm kiếm. Họ chỉ đơn giản chỉ rõ thực thể đích là gì và từ khóa nào xuất hiện trong ngữ cảnh đó. Eg: o Q1: (amazon customer service #phone) o Q2: (#professor #university #research=’database’) o Q3 ow (sigmod 2006 #pdf_file #ppt_file) o Q4 (title=’hamlet’ #image #price) Có 2 phần chính trong câu truy vấn: o Context pattern (Mẫu ngữ cảnh)– thực thể đích xuất hiện như thế nào? Q1: #phone sẽ xuất hiện trong các từ khóa với pattern mặc định. Chúng ta cũng có thể chỉ rõ ra các mẫu như Q3 sử dụng ow (order window)- từ khóa phải xuất hiện trước #pdf_file #ppt_file. o Content restriction (Giới hạn về nội dung). Chúng ta có thể giới hạn domain cho vùng tìm kiếm như Q2 chỉ nghiên cứu trong lĩnh vực database (sử dụng “=” hoặc “contain”) Output: Người dùng nhận được kết quả như họ mong đợi. Hình 2. Mô hình chung của tìm kiếm thực thể 9 Xếp hạng thực thể là cốt lõi của máy tìm kiếm thực thể. Do đó, xếp hạng thực thể đang nhận được sự quan tâm nghiên cứu của các nhà khoa học. Các nhân tố chung ảnh hưởng đến việc xếp hạng: - R-Contextual: Xác suất (từ khóa, thể hiện) sẽ khác nhau trong các ngữ cảnh khác nhau.Chúng phụ thuộc vào các yếu tố: o Pattern: Từ khóa và các thể hiện sẽ có một quan hệ thông thường nhât định. Ví dụ: Tên công ty thường xuất hiện trước số điện thoại. o Proximity: (Từ khóa và thể hiện) sẽ có xác suất không giống nhau trong trang web. Sự kết hợp sẽ mạnh hơn khi chúng ở gần nhau hơn. Ví dụ hình trên hiển nhiên thể hiện e1 sẽ là thích hợp hơn với từ khóa Amazon so với thể hiện e6 - R-Holistic: Một thể hiện có thể xuất hiện cùng với từ khóa nhiều lần trong một trang. Tất cả việc matchings sẽ được tổng hợp lại cho việc đánh giá xác suất sự thích hợp của chúng - R-Uncertainty: Việc trích chọn thực thể luôn luôn là không hoàn hảo. Do đó luôn phải có một xác suất cho chúng. - R-Associative: Chúng ta phải cẩn thận để phân biệt giữa việc kết hợp đúng (từ khóa, thể hiện) và sự ngẫu nhiên. Do đó chúng ta cũng cần phải kiểm tra lại tính hợp lệ của các kết hợp R-Discriminative: Các thể hiện match trên trang phổ biến hơn sẽ được đánh giá cao hơn so với các thể hiện trên trang ít phổ biến hơn. Giả sử chúng ta có tập tài liệu D = {d1, d2,,dn} và câu truy vấn q(t). T là khoảng thời gian quan sát và nghiên cứu câu truy vấn q(t) trong tập tài liệu. Chúng ta có công thức xác định xác suất tính độ phù hợp của q(t) trong D: Dựa vào Score(q(t)) chúng ta đưa ra xếp hạng cho kết quả trả về. Tao Cheng, Xifeng Yan, Kevin Chen-Chuan Chang [TXK07] đã đưa ra mô hình Impression để xác định công thức (1) và đưa ra thuật toán cho việc xác định xếp hạng thực thể 10 Hình 3. Một thuật toán xếp hạng thực thể. 2.3. Khái quát về Webometrics Bắt đầu từ một mạng tài liệu toàn cầu phục vụ cho các mục đích học thuật, ngày nay Web đã trở thành một lĩnh vực nghiên cứu quan trọng của bibiometrics, scientometrics và infometrics. Biểu đồ 1: Mối quan hệ giữa các độ đo Webometrics và Cybermetrics hiện tại là hai thuật ngữ được sử dụng rộng rãi nhất trong trong lĩnh vực nghiên cứu khoa học thư viện và thông tin (LIS). Mối quan hệ giữa chúng được thể thiện trên Biểu đồ 1 nhưng thường được sử dụng với nghĩa tương đương nhau. Cần phân biệt giữa nghiên cứu về Web và nghiên cứu về tất cả những ứng dụng Web. Theo đó, thuật ngữ “webometrics” được định nghĩa bởi Björneborn and Ingwersen [BI04] là “Nghiên cứu các thống kê định lượng của việc xây dựng và sử 11 dụng các tài nguyên thông tin, cấu trúc và công nghệ trên Web trên cơ sở của phương pháp bibliometric và informetrics” (nguyên văn tiếng Anh "The study of the quantitative aspects of the construction and use of information resources, structures and technologies on the Web drawing on bibliometric and informetric approaches"). Định nghĩa này vì vậy bao trùm tất các các thống kê định lượng cả về mặt xây dựng (construction side) và mặt sử dụng (usage side) của Web bao gồm 4 lĩnh vực chính của các nghiên cứu webometric hiện tại: (1) Phân tích nội dung trang Web; (2) Phân tích cấu trúc liên kết Web; (3) Phân tích sử dụng Web (bao gồm các file log các hành vi tìm kiếm và truy cập trang web của người sử dụng); (4) Phân tích công nghệ Web (bao gồm hiệu năng, hoạt động của các máy tìm kiếm). Định nghĩa trên đây đặt webometrics như là một thuật ngữ LIS đặc trưng song song với bibliometrics và informetrics [BI04]. Điều này được nhấn mạnh bởi công thức “Web drawing on bibliometric and informetric approaches” bởi “drawing on” chỉ rõ một sự kế thừa không giới hạn sự phát triển bất cứ một phương pháp Web đặc biệt nào, bao gồm sự hợp nhất các phương pháp nghiên cứu về Web trong khoa học máy
Tài liệu liên quan