Chất lượng giáo dục được coi là đòn bẩy quan trọng bậc nhất để thúc đẩy sự
phát triển của một quốc gia, và là nguồn đầu tư mang lại lợi nhuận lớn nhất đối với
từng cá nhân. Xuất phát với mục tiêu ban đầu của việc xếp hạng các trường đại học là
đáp ứng các nhu cầu thông tin về các trường đại học của cha mẹ học sinh, sinh viên và
các nhà tuyển dụng lao động thì ngày nay nó đã trở thành một yếu tố chuẩn mực tại đa
số các quốc gia có hệ thống giáo dục đại học lớn, môt hiện tượng toàn cầu và là mối
quan tâm chung của tất cả các cộng đồng trong các quốc gia của tất cả các châu lục
trên thế giới.
Bắt đầu từ năm 1983, US News and World Report lần đầu tiên xếp hạng các
trường đại học tại Hoa Kỳ. Tiếp sau đó là Tuần Báo Canada Macleeans (1991), rồi
Tuần Báo Đức Stern (1998), Thời báo chủ nhật – Sunday Times (2001)cũng lần lượt
đưa ra bảng xếp hạng cho các trường đại học nước mình. Sau đó, vào cuối thế kỉ 20,
các bảng xếp hạng các trường đại học tốt nhất trong khu vực và toàn cầu cũng xuất
hiện, tiêu biểu là bảng xếp hạng các trường đại học trên thế giới của trường đại học
Giao thông Thượng Hải (2003), Times Higher Education Supplement của Vương
Quốc Anh (2004) và của Webometrics (2004).
Trong lúc đó, Việt Nam chưa có một hệ thống xếp hạng các trường đại học
chính thức. Theo GS. TSKH Bành Tiến Long, Thứ trưởng Bộ Giáo dục vàĐào tạo
Việt Nam, Đại học Quốc gia Hà Nội (ĐHQGHN) được xếp hạng 54khu vực và 2850
thế giới, trong đó Trường Đại học Công nghệ thuộc ĐHQGHN được xếp hạng 90 khu
vực và 4217 thế giới [Long98]. Chưa hề có một công trình nghiên cứu nào thử xác
định xem, nếu dùng bộ tiêu chí xếp hạng của Tin tức Hoa Kỳ, hoặc Thời báo Luân
Đôn, hoặc Tuần san Châu Á, hoặc tổ chức nào khác để đánh giá các trường đại học
Việt Nam. Trong hội thảo quốc tế “Xếp hạng các trường đại học:Xu thế toàn cầu và
quan điểm” tại Đại học Quốc gia Hà Nội, PGS.TS Nguyễn Phương Nga đã trình bày
báo cáo “Phương pháp và các tiêu chí xếp hạng của các trường đạihọc Việt Nam” với
mong muốn trong năm 2009 đưa ra một bảng xếp hạng chính thức cho các trường đại
học tại Việt Nam [Nga08].
36 trang |
Chia sẻ: hongden | Lượt xem: 1399 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Xếp hạng các trường đại học dựa trên độ đo web và áp dụng vào bài toán xếp hạng các trường đại học Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÁO CÁO CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC
SINH VIÊN NĂM 2009
Đề tài:
XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC DỰA TRÊN ĐỘ ĐO WEB VÀ
ÁP DỤNG VÀO BÀI TOÁN XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC
VIỆT NAM
Người thực hiện:
Trần Nam Khánh – K50HTTT
Phùng Văn Huy – K50HTTT
Nguyễn Tiến Thanh – K51CA
Giáo viên hướng dẫn:
PGS.TS Hà Quang Thụy
Cử nhân Nguyễn Thu Trang
Hà Nội, 2009
1
Tóm tắt nội dung
Xếp hạng các trường đại học (university ranking) nhận được rất nhiều sự quan
tâm của các tổ chức xã hội và tổ chức giáo dục trên thế giới. Hiện nay, nhiều hệ thống
xếp hạng dựa trên các phương pháp định tính cũng như định lượng đã được công bố.
Trong đó, xếp hạng trường đại học dựa trên độ đo web được khởi xướng bởi phòng
nghiên cứu Cybermetrics thuộc trung tâm nghiên cứu CSIC - trung tâm nghiên cứu
lớn nhất của Tây Ban Nha - công bố vào tháng 1 và thang 7 hàng năm. Báo cáo đưa
ra mô hình thực nghiệm áp dụng phương pháp “xếp hạng dựa trên độ đo web” vào
bài toán xếp hạng các trường đại học Việt Nam. Thực nghiệm ban đầu cho kết quả khả
quan của mô hình.
2
Mục lục
1. Giới thiệu ................................................................................................................ 4
2. Khái quát về Webometrics ...................................................................................... 5
2.1. Xếp hạng trang web ........................................................................................... 5
2.2. Xếp hạng các thực thể trên web ........................................................................ 7
2.3. Khái quát về Webometrics .............................................................................. 10
3. Một số hệ thống xếp hạng trường đại học điển hình ............................................ 13
3.1. Phương pháp chung ......................................................................................... 13
3.1.1. Thu thập dữ liệu .................................................................................... 13
3.1.2. Xác định các tiêu chí đánh giá, tính điểm và đánh trọng số cho từng tiêu
chí. ............................................................................................................... 13
3.1.3. Tổng hợp và công bố kết quả ................................................................ 15
3.2. Các hệ thống xếp hạng quốc gia...................................................................... 15
3.2.1. Mỹ - US News and World Report (USNWR) ...................................... 15
3.2.2. Anh - Times Higher Education Supplement (THES) ........................... 15
3.2.3. Australia - Good Universities Giude (GUG) ........................................ 16
3.2.4. Canada - Macleans Raking ................................................................... 16
3.3. Các hệ thống xếp hạng quốc tế........................................................................ 17
3.3.1. Hệ thống xếp hạng học thuật các trường đại học trên thế giới của trường
đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU) ....... 17
3.3.2. Hệ thống xếp hạng các trường đại học quốc tế của Times Higher
Education Supplemen (THES).............................................................................. 18
4. Hệ thống xếp hạng trường đại học dựa trên độ đo Web ....................................... 19
4.1. Giới thiệu ......................................................................................................... 19
4.2. Phương pháp luận ............................................................................................ 20
4.2.1. Thu thập dữ liệu .................................................................................... 20
4.2.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số .......................... 21
5. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các trường đại
học Việt Nam ................................................................................................................ 22
5.1. Xác định các chỉ số .......................................................................................... 23
5.1.1. Chỉ số nhận diện (V – Visibility) .......................................................... 23
5.1.2. Chỉ số kích thước (Size – S) ................................................................. 26
5.1.3. Chỉ số phong phú tài liệu (Rich files - R) ............................................. 26
5.1.4. Chỉ số bài báo khoa học (Scholar – Sc) ................................................ 26
5.2. Xác định trọng số cho các chỉ số ..................................................................... 27
6. Bảng xếp hạng - Phân tích đánh giá ..................................................................... 28
7. Kết luận và định hướng nghiên cứu ...................................................................... 30
3
Danh sách hình vẽ
Hình 1. Đồ thị biểu diễn liên kết web
Hình 2. Mô hình chung của tìm kiếm thực thể
Hình 3. Một thuật toán xếp hạng thực thể.
Hình 4. Mô hình thực nghiệm chung
Hình 5. Đồ thị web các trường đại học
Hình 6. Sử dụng máy tìm kiếm để xác định liên kết đến (inlinks)
Hình 7. Mô hình mở rộng phương pháp 2
Danh sách bảng biểu
Bảng 1.Các tiêu chí và trọng số trong xếp hạng của SJTU
Bảng 2. Bảng xếp hạng 5 trường hàng đầu theo TJTU (2008)
Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008)
Bảng 4: So sánh về độ bao phủ của Webometrics với ARWU và THES
Bảng 5: Bảng xếp hạng 10 trường hàng đầu thế giới theo Webometrics
Bảng 6: Các câu truy vấn trong xác định chỉ số V
Bảng 7. Các câu truy vấn xác định chỉ số S
Bảng 8: Câu truy vấn xác định chỉ số R
Bảng 9: Trọng số cho các chỉ số S, V, R, Sc
Bảng 10. Bảng xếp hạng các trường đại học Việt Nam
Bảng 11. Danh sách các trường Việt Nam được Webometrics xếp hạng
Danh sách biểu đồ
Biểu đồ 1: Mối quan hệ giữa các độ đo
Biểu đồ 2. So sánh kết quả kết quả thực nghiệm và webometrics
4
1. Giới thiệu
Chất lượng giáo dục được coi là đòn bẩy quan trọng bậc nhất để thúc đẩy sự
phát triển của một quốc gia, và là nguồn đầu tư mang lại lợi nhuận lớn nhất đối với
từng cá nhân. Xuất phát với mục tiêu ban đầu của việc xếp hạng các trường đại học là
đáp ứng các nhu cầu thông tin về các trường đại học của cha mẹ học sinh, sinh viên và
các nhà tuyển dụng lao động thì ngày nay nó đã trở thành một yếu tố chuẩn mực tại đa
số các quốc gia có hệ thống giáo dục đại học lớn, môt hiện tượng toàn cầu và là mối
quan tâm chung của tất cả các cộng đồng trong các quốc gia của tất cả các châu lục
trên thế giới.
Bắt đầu từ năm 1983, US News and World Report lần đầu tiên xếp hạng các
trường đại học tại Hoa Kỳ. Tiếp sau đó là Tuần Báo Canada Macleeans (1991), rồi
Tuần Báo Đức Stern (1998), Thời báo chủ nhật – Sunday Times (2001) cũng lần lượt
đưa ra bảng xếp hạng cho các trường đại học nước mình. Sau đó, vào cuối thế kỉ 20,
các bảng xếp hạng các trường đại học tốt nhất trong khu vực và toàn cầu cũng xuất
hiện, tiêu biểu là bảng xếp hạng các trường đại học trên thế giới của trường đại học
Giao thông Thượng Hải (2003), Times Higher Education Supplement của Vương
Quốc Anh (2004) và của Webometrics (2004).
Trong lúc đó, Việt Nam chưa có một hệ thống xếp hạng các trường đại học
chính thức. Theo GS. TSKH Bành Tiến Long, Thứ trưởng Bộ Giáo dục và Đào tạo
Việt Nam, Đại học Quốc gia Hà Nội (ĐHQGHN) được xếp hạng 54 khu vực và 2850
thế giới, trong đó Trường Đại học Công nghệ thuộc ĐHQGHN được xếp hạng 90 khu
vực và 4217 thế giới [Long98]. Chưa hề có một công trình nghiên cứu nào thử xác
định xem, nếu dùng bộ tiêu chí xếp hạng của Tin tức Hoa Kỳ, hoặc Thời báo Luân
Đôn, hoặc Tuần san Châu Á, hoặc tổ chức nào khác để đánh giá các trường đại học
Việt Nam. Trong hội thảo quốc tế “Xếp hạng các trường đại học: Xu thế toàn cầu và
quan điểm” tại Đại học Quốc gia Hà Nội, PGS.TS Nguyễn Phương Nga đã trình bày
báo cáo “Phương pháp và các tiêu chí xếp hạng của các trường đại học Việt Nam” với
mong muốn trong năm 2009 đưa ra một bảng xếp hạng chính thức cho các trường đại
học tại Việt Nam [Nga08].
Báo cáo này tập trung vào việc nghiên cứu phương pháp sử dụng độ đo web
trong xếp hạng các trường đại học trên thế giới, được Phòng nghiên cứu Cybermetrics
thuộc trung tâm nghiên cứu CSIC (Tây Ban Nha) khởi xướng. Cuối cùng là áp dụng
phương pháp trên để xây dựng mô hình thực nghiệm cho việc xếp hạng các trường đại
học Việt Nam. Dữ liệu về website các trường đại học Việt Nam được lấy về từ trang
chủ của Bộ Giáo dục và Đào tạo Việt Nam (có bổ sung sửa đổi).
Phần còn lại của báo cáo sẽ được chức thành năm mục. Mục đầu sẽ trình bày
khái quát về Webometrics. Mục thứ hai sẽ giới thiệu về phương pháp chung thực hiện
trong xếp hạng trường đại học và các hệ thống xếp hạng quốc gia, quốc tế. Tiếp theo
5
báo cáo trình bày phương pháp xếp hạng trường đại học dựa trên độ đo web -
webometrics. Mục thứ tư sẽ trình bày mô hình thực nghiệm áp dụng phương pháp
trong xếp hạng các trường đại học tại Việt Nam. Mục cuối cùng sẽ đưa ra kết quả -
bảng xếp hạng- phân tích đánh giá kết quả và định hướng nghiên cứu
2. Khái quát về Webometrics
2.1. Xếp hạng trang web
Ngày nay với sự phát triển của Internet, người dùng đã có được một nguồn tài
nguyên tri thức phong phú, đa dạng. Tuy nhiên, do số lượng các trang web quá lớn,
con người không có đủ thời gian cũng như kiên nhẫn để mà có thể ghé thăm qua từng
trang cho tới khi tìm ra thông tin mình mong muốn. Chính vì lý do đó máy tìm kiếm ra
đời với cách thức hoạt động khá đơn giản và thân thiện: người dùng đưa ra từ khóa về
thông tin mong muốn, máy sẽ liệt kê ra các trang liên quan. Song thực sự thì lượng kết
quả máy cho là phù hợp với truy vấn của người dùng cũng không hề nhỏ! Do đó, đặt
ra yêu cầu xếp hạng các trang để máy hiển thị kết quả trả về tốt hơn cho người dùng.
Các trang web trên Internet được xây dựng và liên kết với nhau. Nếu coi mỗi
trang web là một điểm, và mỗi liên kết từ một trang web này tới một trang web khác là
một tia, thì ta có thể biểu diễn được tập hợp các trang web, mối quan hệ giữa chúng
bằng một đồ thị G - gọi là đồ thị Web. Đồ thị G là đồ thị có hướng. Mỗi đỉnh pi của G
tương ứng với một trang. Cung pi -> pj cho biết rằng trang ứng với đỉnh pi có liên kết
tới trang ứng với đỉnh pj.
Kí hiệu N(p) là số liên kết vào p. B(p) là số liên kết ra từ p. Trong tính toán, G
được biểu diễn bằng ma trận. Có hai dạng ma trận thường được sử dụng đó là ma trận
kề A và ma trận chuyển P. Dưới đây là một ví dụ của đồ thị G để minh họa, làm rõ
cách biểu diễn G bằng ma trận
Hình 1. Đồ thị biểu diễn liên kết web
P P
P P
6
Ma trận kề A: aij = 1 nếu trang i có liên kết tới j, bằng 0 trong các trường hợp khác (ko
tính tự liên kết, tức aii = 0 với mọi i)
11 12 13 14
21 22 23 24
31 32 33 34
41 42 43 44
0 1 0 1
1 0 0 1
0 0 0 0
0 0 0 0
a a a a
a a a a
a a a a
a a a a
=
Ma trận chuyển P: pij = 1/B(i) nếu trang i có liên kết trỏ tới j, bằng 0 trong các trường
hợp khác
1 1
2 211 12 13 14
1 1
2 221 22 23 24
31 32 33 34
41 42 43 44
0 0
0 0
0 0 0 0
0 0 0 0
p p p p
p p p p
p p p p
p p p p
=
Do tính chất đặc thù có khả năng liên kết giữa các trang web, nên sự xếp hạng
các trang web ở mức toàn cục luôn có việc phân tích liên kết trên đồ thị web. Nội dung
dưới đây sẽ trình bày khái quát về 2 phương pháp xếp hạng dựa trên liên kết phổ biến
PageRank và HITS
Phương pháp PageRank
Là phương pháp tính hạng được phát triển tại đại học Stanford bởi Lary Page
(cũng bởi vậy mà có tên PageRank) và tiếp đó bởi cùng Sergey Brin. Sau này trở thành
thương hiệu của Google [PBMW98].
Ý tưởng: Độ quan trọng của một trang thừa hưởng một phần độ quan trọng từ
trang liên kết đến nó.
Công thức tính hạng trang pi
Trong đó: N là tổng số trang, d là hệ số hãm (qua thực nghiệm, tác giả công bố
chọn 0.85), M(pi) là tập các trang liên kết tới pi, L(pj) là số trang pj liên kết đến.
Ưu điểm của PageRank: đơn giản, tính toán nhanh, đáng tin; không phụ thuộc
vào truy vấn của người dùng, nội dung của trang web; có thể tính toán ngoại tuyến với
đầu vào là cấu trúc đồ thị web. Dĩ nhiên trên thực tế Google không chỉ sử dụng nguyên
PageRank “cổ điển” để xếp hạng trang.
Phương pháp HITS (Hyperlink-Induced Topic Search – KleinBerg)
Ý tưởng: Độ quan trọng của một trang web được xác định dựa trên 2 trọng số
authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt
7
là trang có nhiều liên kết tới. 2 trọng số này có quan hệ qua lại với nhau: trang trỏ tới
trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub
cao trỏ tới thì trọng số authority càng cao.
Quá trình tính toán: Từ câu truy vấn, xác định tập nhân, mở rộng thành tập cơ
sở S gồm n trang. Ban đầu khởi tạo trọng số hub và authority cho mỗi trang bằng 1.
ai=hi=1. Sau đó tiến hành tính ai và hi theo công thức
( )
i j
j B i
a h
∈
= ∑ và
( )
i j
j N i
h a
∈
= ∑
Ưu điểm: Áp dụng với tập nhỏ, tính toán trực tuyến
Minh họa áp dụng PageRank vào xếp hạng các blog ở Việt Nam
Bài toán: Blog ngày càng phát triển và trở nên phổ biến đối với mọi người. Xếp
hạng các blogger để đánh giá sự “nổi tiếng”, “đóng góp” của họ với cộng đồng, ưu tiên
hiển thị các bài viết mới “chất lượng” của họ trên máy tìm kiếm blog.
Nhận xét: Mạng blog là một loại của mạng xã hội. Chúng ta có thể mô hình hóa
bằng đồ thị G có hướng. Mỗi đỉnh ứng với một blogger. Cung AB chỉ ra rằng blogger
A có lời bình - nhận xét cho bài viết của B, và được đánh trọng số là tổng số lời bình,
nhận xét của A cho các bài viết của B. Khi đó dễ dang nhận thấy “liên kết thông qua
comment” giữa các blogger khá giống “liên kết” giữa các trang web. Vì thế chúng ta
có thể áp dụng PageRank sửa đổi để tính toán phục vụ việc xếp hạng. Sự sửa đổi ở đây
chính là ở trọng số lời bình - nhận xét.
Công thức áp dụng tính hạng cho blogger i
PR(i) =
Trong đó: N là tổng số blogger, α là hệ số hãm (0.85), Nj,i là số lời bình - nhận
xét của j cho i, Nj là số lời bình – nhận xét của j cho tất cả các blogger
2.2. Xếp hạng các thực thể trên web
Các máy tìm kiếm hiện nay: Google, Yahoo hay Live Search đều tâp trung tìm
kiếm dựa từ khóa mà không quan tâm đến dữ liệu. Cụ thể hơn thì các máy tìm kiếm
hiện nay có 2 hạn chế chính:
§ Indirect Input and Output. Người dùng không thể miêu tả chính
xác những gì họ cần do đó khi tìm kiếm người dùng có thể tìm vào
những trang web mà không có thông tin họ mong muốn. Tiếp đó,
người dùng không thể trực tiếp lấy những gì họ muốn. Vì họ phải
chọn lọc qua một danh sách các trang để tìm kết quả.
§ Singular Matching Mechanism. Máy tìm kiếm hiện nay tìm mỗi
trang một cách rất đơn giản chỉ bằng cách so sánh văn bản (text)
8
trên từng trang. Mặc dù thực thể kết quả có thể chứa trong nhiều
trang khác nhau.
Do đó, tìm kiếm thực thể được đưa ra để giải quyết các giới hạn trên:
§ Input: Người dùng có thể đưa ra một cách rõ ràng loại dữ liệu nào
mà họ đang tìm kiếm. Họ chỉ đơn giản chỉ rõ thực thể đích là gì
và từ khóa nào xuất hiện trong ngữ cảnh đó. Eg:
o Q1: (amazon customer service #phone)
o Q2: (#professor #university
#research=’database’)
o Q3 ow (sigmod 2006 #pdf_file #ppt_file)
o Q4 (title=’hamlet’ #image #price)
Có 2 phần chính trong câu truy vấn:
o Context pattern (Mẫu ngữ cảnh)– thực thể đích xuất hiện
như thế nào? Q1: #phone sẽ xuất hiện trong các từ khóa với pattern
mặc định. Chúng ta cũng có thể chỉ rõ ra các mẫu như Q3 sử dụng
ow (order window)- từ khóa phải xuất hiện trước #pdf_file #ppt_file.
o Content restriction (Giới hạn về nội dung). Chúng ta có thể
giới hạn domain cho vùng tìm kiếm như Q2 chỉ nghiên cứu trong lĩnh
vực database (sử dụng “=” hoặc “contain”)
Output: Người dùng nhận được kết quả như họ mong đợi.
Hình 2. Mô hình chung của tìm kiếm thực thể
9
Xếp hạng thực thể là cốt lõi của máy tìm kiếm thực thể. Do đó, xếp hạng thực
thể đang nhận được sự quan tâm nghiên cứu của các nhà khoa học. Các nhân tố chung
ảnh hưởng đến việc xếp hạng:
- R-Contextual: Xác suất (từ khóa, thể hiện) sẽ khác nhau trong các ngữ cảnh
khác nhau.Chúng phụ thuộc vào các yếu tố:
o Pattern: Từ khóa và các thể hiện sẽ có một quan hệ thông thường
nhât định. Ví dụ: Tên công ty thường xuất hiện trước số điện thoại.
o Proximity: (Từ khóa và thể hiện) sẽ có xác suất không giống nhau
trong trang web. Sự kết hợp sẽ mạnh hơn khi chúng ở gần nhau hơn.
Ví dụ hình trên hiển nhiên thể hiện e1 sẽ là thích hợp hơn với từ khóa
Amazon so với thể hiện e6
- R-Holistic: Một thể hiện có thể xuất hiện cùng với từ khóa nhiều lần trong
một trang. Tất cả việc matchings sẽ được tổng hợp lại cho việc đánh giá xác
suất sự thích hợp của chúng
- R-Uncertainty: Việc trích chọn thực thể luôn luôn là không hoàn hảo. Do đó
luôn phải có một xác suất cho chúng.
- R-Associative: Chúng ta phải cẩn thận để phân biệt giữa việc kết hợp đúng
(từ khóa, thể hiện) và sự ngẫu nhiên. Do đó chúng ta cũng cần phải kiểm tra
lại tính hợp lệ của các kết hợp
R-Discriminative: Các thể hiện match trên trang phổ biến hơn sẽ được đánh
giá cao hơn so với các thể hiện trên trang ít phổ biến hơn.
Giả sử chúng ta có tập tài liệu D = {d1, d2,,dn} và câu truy vấn q(t). T là
khoảng thời gian quan sát và nghiên cứu câu truy vấn q(t) trong tập tài liệu. Chúng ta
có công thức xác định xác suất tính độ phù hợp của q(t) trong D:
Dựa vào Score(q(t)) chúng ta đưa ra xếp hạng cho kết quả trả về. Tao Cheng,
Xifeng Yan, Kevin Chen-Chuan Chang [TXK07] đã đưa ra mô hình Impression để xác
định công thức (1) và đưa ra thuật toán cho việc xác định xếp hạng thực thể
10
Hình 3. Một thuật toán xếp hạng thực thể.
2.3. Khái quát về Webometrics
Bắt đầu từ một mạng tài liệu toàn cầu phục vụ cho các mục đích học thuật, ngày
nay Web đã trở thành một lĩnh vực nghiên cứu quan trọng của bibiometrics,
scientometrics và infometrics.
Biểu đồ 1: Mối quan hệ giữa các độ đo
Webometrics và Cybermetrics hiện tại là hai thuật ngữ được sử dụng rộng rãi
nhất trong trong lĩnh vực nghiên cứu khoa học thư viện và thông tin (LIS). Mối quan
hệ giữa chúng được thể thiện trên Biểu đồ 1 nhưng thường được sử dụng với nghĩa
tương đương nhau. Cần phân biệt giữa nghiên cứu về Web và nghiên cứu về tất cả
những ứng dụng Web.
Theo đó, thuật ngữ “webometrics” được định nghĩa bởi Björneborn and
Ingwersen [BI04] là “Nghiên cứu các thống kê định lượng của việc xây dựng và sử
11
dụng các tài nguyên thông tin, cấu trúc và công nghệ trên Web trên cơ sở của phương
pháp bibliometric và informetrics” (nguyên văn tiếng Anh "The study of the
quantitative aspects of the construction and use of information resources, structures
and technologies on the Web drawing on bibliometric and informetric approaches").
Định nghĩa này vì vậy bao trùm tất các các thống kê định lượng cả về mặt xây
dựng (construction side) và mặt sử dụng (usage side) của Web bao gồm 4 lĩnh vực
chính của các nghiên cứu webometric hiện tại: (1) Phân tích nội dung trang Web; (2)
Phân tích cấu trúc liên kết Web; (3) Phân tích sử dụng Web (bao gồm các file log các
hành vi tìm kiếm và truy cập trang web của người sử dụng); (4) Phân tích công nghệ
Web (bao gồm hiệu năng, hoạt động của các máy tìm kiếm).
Định nghĩa trên đây đặt webometrics như là một thuật ngữ LIS đặc trưng song
song với bibliometrics và informetrics [BI04]. Điều này được nhấn mạnh bởi công
thức “Web drawing on bibliometric and informetric approaches” bởi “drawing on” chỉ
rõ một sự kế thừa không giới hạn sự phát triển bất cứ một phương pháp Web đặc biệt
nào, bao gồm sự hợp nhất các phương pháp nghiên cứu về Web trong khoa học máy