Web ngữ nghĩa (hay Semantic Web) là thế hệ mở rộng của Web hiện tại được
đưa ra bởi Tim Berners-Leevào khoảng năm 1998. Mục tiêu ban đầu của Semantic
Web là để hỗ trợ người dùng tìm kiếm thông tin trên mạng một cách nhanh chóng,
chuẩn xác và thông minh hơn so với các công cụ tìm kiếm truyền thống.
Theo định nghĩa của tổ chức World Wide Web Consortium (W3C), web ngữ
nghĩa là sự mở rộng của WWWhiện tại bằng cách thêm vào các mô tả ý nghĩa (hay
ngữ nghĩa) của thông tin dưới dạng mà chương trình mà máy tính có thể hiểu được
và do vậy cho phép xử lí thông tin có hiệu quả hơn. Web ngữ nghĩa cố gắng làm sao
để máy tính hiểu được các khái niệm, mối quan hệ giữa các khái niệm, các thuộc
tính và các tiến trình của chúng. Trong trường hợp này, máy tính có khả năng ra kết
luận và trích xuất ra thông tin mới và có giá trị từ các dữ liệu đã tồn tại. Web ngữ
nghĩa không phải là Trí tuệ nhân tạo (AI), nhưng nó có thể xem là một loại web
thông minh, hay thế hệ phát triển tiếp theo của web. Nền tảng cơ bản làm nên web
ngữ nghĩa là các siêu dữ liệu (metadata) và bản thể luận. Siêu dữ liệu có thể hiểu
đơn giản là dữ liệu về dữ liệu, còn bản thể luận định nghĩa về các từ vựng được sử
dụng trong các miền ứng dụng khác nhau. Các siêu dữ liệu có thể dùng để biểu diễn
cho mọi loại tài nguyên (thực thể hoặc các khái niệm). Một cách để biểu diễn các
khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả
tài nguyên RDF (Resource Description Framework).
Các tài liệu số (tài nguyên) thường đường lưu trữ và truy cập qua các cổng
thông tin và các thư viện số. Các thư viện số ngoài chức năng lưu trữ các tài liệu số,
còn có chức năng cho phép người sử dụng tìm kiếm các tài liệu có liên quan một
cách nhanh nhất. Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên
mục, phân loại và hỗ trợ tìm kiếm các tài liệu số. Trong cách biểu diễn bởi các siêu
dữ liệu, các tài liệu số được “cấu trúc hóa” vào các siêu dữ liệu. Bất kì thông tin nào
trong các thư viện số cũng có thể được biểu diễn bởi các siêu dữ liệu, với cách biểu
diễn này sẽ thuận lợi cho việc quản lívà người dùng dễ dàng tìm kiếm ra các tài liệu
gốc. Ngoài ra, cách tiếp cận này cho phép các thư viện số dễ dàng chia sẻ các tài
nguyên với nhau dựa trên một chuẩn đặc tả chung.Việc tích hợp ngữ nghĩa vào các
ix
thư viện số dựa trên kiến trúc của Web ngữ nghĩa làm cho thư viện số có nhiều ưu
điểm hơn so với cách tiếp cận thông thường.
Luận văn này tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, dựa trên
cách tiếp cận web ngữ nghĩa,tìm hiểu cách tích hợp ngữ nghĩa vào các thư viên số.
Cấu trúc của luận văn gồm 3 chương:
Chương 1:Tổng quan về Web ngữ nghĩa
Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, các thành phần cơ bản
làm nên web ngữ nghĩa.
Chương 2: Tiếp cận Web ngữ trong lưu trữ và quản lí tài liệu số
Tìm hiểu một trong những cách quản lí tài liệu số đó là thư viện số. Nghiên
cứu cách tích hợp ngữ nghĩa vào các tài nguyêntrong thư viện số: cơ chế biên mục
và phân loại dựa trên ngữ nghĩa
Chương 3: Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm
JeromeDL
Giới thiệu phần mềm mã nguồn mở JeromeDL trong việc xây dựng các thư
viện số ngữ nghĩa.
68 trang |
Chia sẻ: oanhnt | Lượt xem: 1632 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận văn Ứng dụng web ngữ nghĩa trong lưu trữvà quản lí các tài liệu số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lương Đỗ Long
ỨNG DỤNG WEB NGỮ NGHĨA TRONG
LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ
LUẬN VĂN THẠC SĨ KHOA HỌC
HÀ NỘI - 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lương Đỗ Long
ỨNG DỤNG WEB NGỮ NGHĨA TRONG
LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ KHOA HỌC
Cán bộ hướng dẫn khoa học:
PGS. TS Đỗ Trung Tuấn
HÀ NỘI - 2011
i
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn: “ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU
TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ” là kết quả nghiên cứu của riêng tôi,
không sao chép của riêng ai. Các số liệu và bảng biểu là hoàn toàn chính xác và nội
dung luận văn có tham khảo và sử dụng các tài liệu, thông tin đuợc đăng tải trên các
tác phẩm, tạp chí và các trang web theo danh mục tài liệu của luận văn.
Hà nội, ngày 02 tháng 05 năm 2011
Tác giả luận văn
Lương Đỗ Long
ii
LỜI CẢM ƠN
Trước tiên tôi xin chân thành cảm ơn PGS.TS Đỗ Trung Tuấn, người thầy đã
hướng dẫn tận tình, chỉ bảo thẳng thắn và đã động viên tôi rất nhiều để tôi hoàn
thành bản luận văn này.
Tôi xin chân thành cảm ơn các thầy, cô giáo của Trường Đại học Công nghệ
đặc biệt là các thầy, cô giáo trong bộ môn Hê thống Thông tin đã giảng dạy, động
viên và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và làm luận văn.
Sau cùng, tôi xin đuợc gửi lời cám đến các bạn đồng nghiệp, các bạn học viên
cao học khóa 15 - những người đã động viên, giúp đỡ tôi trong suốt quá trình học
tập và thực hiện luận văn này.
Hà nội, Mùa hè năm 2011
Tác giả luận văn
Lương Đỗ Long
iii
MỤC LỤC
Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA .................................................1
1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu.....................................................1
1.1.1. Khái niệm................................................................................................1
1.1.2. Siêu dữ liệu .............................................................................................2
1.2. Kiến trúc Web ngữ nghĩa ...............................................................................3
1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên và Bản thể luận........................................8
1.3.1 Ngôn ngữ mô tả tài nguyên RDF ..............................................................8
1.3.2 Bản thể luận ...........................................................................................15
1.3.3 Lược đồ RDF và truy vấn RDF...............................................................16
Kết luận..............................................................................................................23
Chương 2. TIẾP CẬN WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ TÀI
LIỆU SỐ................................................................................................................24
2.1 Web ngữ nghĩa và thư viện số.......................................................................24
2.1.1 Thư viện số ngữ nghĩa ............................................................................24
2.1.2. Tổ chức tri thức trong thư viện ..............................................................26
2.1.3. Web ngữ nghĩa trong thư viện số ...........................................................26
2.2. Kiến trúc của thư viện số ngữ nghĩa.............................................................30
2.3. Bản thể luận cho thư viện số ngữ nghĩa .......................................................31
2.3.1. Bản thể luận biểu ghi thư mục ...............................................................31
2.3.2. Bản thể luận cho cấu trúc nội dung ........................................................33
2.3.3. Cơ bản về sự phân loại ..........................................................................34
2.3.4. Xây dựng Bản thể luận ..........................................................................36
2.4. Thư viện số ngữ nghĩa và mạng xã hội.........................................................37
2.5. Tìm kiếm trong thư viện ngữ nghĩa..............................................................38
iv
2.5.1. Tìm kiếm dựa trên sự phân loại .............................................................38
2.5.2. Tìm kiếm ngữ nghĩa ..............................................................................38
Kết luận..............................................................................................................40
Chương 3. Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm JeromeDL...........41
3.1 Giới thiệu phần mềm JeromeDL...................................................................41
3.2. Kiến trúc và Bản thể luận trong JeromeDL ..................................................42
3.2.1. Kiến trúc của JeromeDL ........................................................................42
3.2.2. Bản thể luận trong JeromeDL ................................................................44
3.3. Truy vấn trong JeromeDL............................................................................48
3.4. Sử dụng JeromeDL ......................................................................................51
Kết luận..............................................................................................................53
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN..............................................................54
TÀI LIỆU THAM KHẢO......................................................................................56
v
Bảng kí hiệu thuật ngữ viết tắt
Tên viết tắt Tiếng Việt Tiếng Anh
WWW Mạng toàn cầu World Wide Web
W3C Tổ chức Mạng toàn cầu World Wide Web Consortium
RDF Cơ cấu mô tả tài nguyên Resource Description Framework
RDFS Lược đồ Cơ cấu mô tả tài nguyên
Resource Description Framework
Scheme
XML Ngôn ngữ đánh dấu mở rộng eXtensible Markup Language
vi
Danh mục hình ảnh
Hình 1.1. Kiến trúc của Web ngữ nghĩa ..........................................................................................4
Hình 1.2. Đồ thị RDF...................................................................................................................11
Hình 1.3. Quan hệ kế thừa............................................................................................................17
Hình 1.4. Không gian miền và giới hạn của thuộc tính RDFS .......................................................20
Hình 2.1. Các thành phần hỗ trợ thư viện số ngữ nghĩa .................................................................26
Hình 2.2. Biểu diễn cấu trúc tài liệu dưới dạng RDF.....................................................................29
Hình 2.3. Kiến trúc thư viện số ngữ nghĩa ....................................................................................31
Hình 2.4. Bản thể luận BibTeX ....................................................................................................32
Hình 2.5. Một dạng cây phân cấp .................................................................................................35
Hình 2.6. Một Bản thể luận Cys ...................................................................................................35
Hình 2.7. Quá trình tìm kiếm trong thư viện số ngữ nghĩa ............................................................39
Hình 2.8. Quá trình chia sẻ dữ liệu RDF.......................................................................................40
Hình 3.1. Giao diện của JeromeDL ..............................................................................................42
Hình 3.2. Kiến trúc của JeromeDL ...............................................................................................43
Hình 3.3. Bản thể luận MarcOnt...................................................................................................44
Hình 3.4. Bản thể luận cấu trúc nội dung ......................................................................................46
Hình 3.5. Mạng xã hội trong JeromeDL .......................................................................................48
Hình 3.6. Các bước trong truy vấn JeromeDL...............................................................................49
Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa ......................................................................52
Hình 3.8. Giao diện chức năng xuất bản tài liệu............................................................................53
vii
Danh mục bảng biểu
Bảng 1. Các lớp trong RDFS........................................................................................................18
Bảng 2. Các thuộc tính trong RDFS .............................................................................................19
Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt...................................................45
Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung ......................................47
viii
MỞ ĐẦU
Web ngữ nghĩa (hay Semantic Web) là thế hệ mở rộng của Web hiện tại được
đưa ra bởi Tim Berners-Lee vào khoảng năm 1998. Mục tiêu ban đầu của Semantic
Web là để hỗ trợ người dùng tìm kiếm thông tin trên mạng một cách nhanh chóng,
chuẩn xác và thông minh hơn so với các công cụ tìm kiếm truyền thống.
Theo định nghĩa của tổ chức World Wide Web Consortium (W3C), web ngữ
nghĩa là sự mở rộng của WWW hiện tại bằng cách thêm vào các mô tả ý nghĩa (hay
ngữ nghĩa) của thông tin dưới dạng mà chương trình mà máy tính có thể hiểu được
và do vậy cho phép xử lí thông tin có hiệu quả hơn. Web ngữ nghĩa cố gắng làm sao
để máy tính hiểu được các khái niệm, mối quan hệ giữa các khái niệm, các thuộc
tính và các tiến trình của chúng. Trong trường hợp này, máy tính có khả năng ra kết
luận và trích xuất ra thông tin mới và có giá trị từ các dữ liệu đã tồn tại. Web ngữ
nghĩa không phải là Trí tuệ nhân tạo (AI), nhưng nó có thể xem là một loại web
thông minh, hay thế hệ phát triển tiếp theo của web. Nền tảng cơ bản làm nên web
ngữ nghĩa là các siêu dữ liệu (metadata) và bản thể luận. Siêu dữ liệu có thể hiểu
đơn giản là dữ liệu về dữ liệu, còn bản thể luận định nghĩa về các từ vựng được sử
dụng trong các miền ứng dụng khác nhau. Các siêu dữ liệu có thể dùng để biểu diễn
cho mọi loại tài nguyên (thực thể hoặc các khái niệm). Một cách để biểu diễn các
khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả
tài nguyên RDF (Resource Description Framework).
Các tài liệu số (tài nguyên) thường đường lưu trữ và truy cập qua các cổng
thông tin và các thư viện số. Các thư viện số ngoài chức năng lưu trữ các tài liệu số,
còn có chức năng cho phép người sử dụng tìm kiếm các tài liệu có liên quan một
cách nhanh nhất. Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên
mục, phân loại và hỗ trợ tìm kiếm các tài liệu số. Trong cách biểu diễn bởi các siêu
dữ liệu, các tài liệu số được “cấu trúc hóa” vào các siêu dữ liệu. Bất kì thông tin nào
trong các thư viện số cũng có thể được biểu diễn bởi các siêu dữ liệu, với cách biểu
diễn này sẽ thuận lợi cho việc quản lí và người dùng dễ dàng tìm kiếm ra các tài liệu
gốc. Ngoài ra, cách tiếp cận này cho phép các thư viện số dễ dàng chia sẻ các tài
nguyên với nhau dựa trên một chuẩn đặc tả chung. Việc tích hợp ngữ nghĩa vào các
ix
thư viện số dựa trên kiến trúc của Web ngữ nghĩa làm cho thư viện số có nhiều ưu
điểm hơn so với cách tiếp cận thông thường.
Luận văn này tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, dựa trên
cách tiếp cận web ngữ nghĩa, tìm hiểu cách tích hợp ngữ nghĩa vào các thư viên số.
Cấu trúc của luận văn gồm 3 chương:
Chương 1: Tổng quan về Web ngữ nghĩa
Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, các thành phần cơ bản
làm nên web ngữ nghĩa.
Chương 2: Tiếp cận Web ngữ trong lưu trữ và quản lí tài liệu số
Tìm hiểu một trong những cách quản lí tài liệu số đó là thư viện số. Nghiên
cứu cách tích hợp ngữ nghĩa vào các tài nguyên trong thư viện số: cơ chế biên mục
và phân loại dựa trên ngữ nghĩa
Chương 3: Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm
JeromeDL
Giới thiệu phần mềm mã nguồn mở JeromeDL trong việc xây dựng các thư
viện số ngữ nghĩa.
1
Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
Trong chương này, sẽ giới thiệu công nghệ cơ bản được sử dụng trong luận
văn, bao gồm định nghĩa về web ngữ nghĩa, những nồ lực trong việc xây dựng web
ngữ nghĩa từ web hiện tại, giới thiệu kiến trúc web ngữ nghĩa của tổ chức World
WideWeb Consortium (W3C). Tìm hiểu về Bản thể luận và ngôn ngữ bản thể luận.
1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu
1.1.1. Khái niệm
Sau khi ra đời của Internet và World Wide Web (WWW), rất nhiều những nỗ
lực đã được thực hiện và các công nghệ được phát triển nhằm mục đích làm cho
World Wide Web tốt hơn, nhanh hơn, và thông minh hơn. Nhiều công nghệ, kiến
nghị sau khi xuất hiện đã trở thành chuẩn chung chỉ trong một thời gian ngắn. Một
trong những nỗ lực này là web ngữ nghĩa. Web ngữ nghĩa có thể được xem là sự mở
rộng của web hiện tại. Web ngữ nghĩa không phải là Trí tuệ nhân tạo, nhưng có thể
xem là một dạng web thông minh.
Web ngữ nghĩa là sự mở rộng của WWW bằng cách thêm vào các mô tả ngữ
nghĩa của thông tin dưới dạng mà chương trình máy tính có thể “hiểu” và do vậy
cho phép xử lý thông tin hiệu quả hơn [3]. Xét về mặt bản chất, Semantic Web ngữ
nghĩa chỉ là một công cụ để con người cũng như máy tính sử dụng để biểu diễn
thông tin, hay nói chính xác hơn thì Web ngữ nghĩa chỉ là một dạng dữ liệu trên
Web. Khác với các dạng thức dữ liệu được trình bày trong HTML, dữ liệu trong
Semantic Web được đánh dấu, phân lớp, mô hình hóa, được bổ sung thêm các thuộc
tính, các mối liên hệ… theo các lĩnh vực cụ thể, qua đó giúp cho các phần mềm
máy tính có thể hiểu được dữ liệu và tự động xử lý được những dữ liệu đó.
Có thể kể ra đây những ưu điểm của web ngữ nghĩa so với web hiện tại:
Máy tính có thể hiểu được thông tin trên Web: Web ngữ nghĩa định nghĩa
các khái niệm và bổ sung quan hệ dưới dạng máy tính có thể hiểu được. Do
2
đó, việc tìm kiếm, đánh giá, xử lý, tích hợp thông tin có thể được tiến hành
một cách tự động.
Thông tin được tìm kiếm nhanh chóng và chính xác hơn: Với Web ngữ
nghĩa, máy tính có thể xác định một thực thể thuộc lớp hay thuộc tính cụ thể
nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp không gian tìm kiếm và cho
kết quả nhanh, chính xác hơn.
Khả năng suy luận thông minh: Dựa vào các luật suy diễn trên cơ sở tri thức
về các thực thể, máy tính có khả năng sinh ra những kết luận mới.
Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong
Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách
hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa
chúng. Cách liên kết này đôi khi còn được gọi là liên kết bằng siêu dữ liệu.
Trong web ngữ nghĩa, với sự trợ giúp của các công nghệ khác, chúng ta có thể
trợ giúp cho máy tính hiểu được các khái niệm, mối quan hệ giữa chúng, xử lí
nhanh chóng, chính xác các truy vấn từ người dùng.
1.1.2. Siêu dữ liệu
Một trong những nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu.
Siêu dữ liệu dùng để mô tả tài nguyên thông tin, còn gọi là dữ liệu về dữ liệu. Mỗi
thực thể hay khái niệm có thể có một hay nhiều siêu dữ liệu. Cho ví dụ, một khóa
luận tốt nghiện có [một tác giả], [tên khóa luận], [cán bộ hướng dẫn], ... là các siêu
dữ liệu về khóa luận. Chúng ta có thể đơn giản hóa việc phân loại và truy vấn dữ
liệu bằng cách dùng các siêu dữ liệu.
Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể được
thể hiện ở một trong hai cách sau:
Các phần tử metadata được chứa trong một biểu ghi tách biệt bên ngoài
đối tượng mô tả.
Các phần tử metadata có thể được nhúng (gắn) vào bên trong tài
nguyên mà nó mô tả.
Trước đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tượng mô
tả, như vậy siêu dữ liệu được lưu trữ một cách tách biệt bên ngoài đối tương mô tả.
3
Với tài liệu số, siêu dữ liệu của chúng được nhúng (gắn) trong bản thân tài
nguyên hoặc liên kết với tài nguyên mà nó mô tả như trong trường hợp các thẻ meta
của tài liệu HTML
i. Sơ đồ siêu dữ liệu
Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu được thiết kế cho mô tả
một dạng tài nguyên thông tin cụ thể. Như vậy siêu dữ liệu là sơ đồ hình thức được
xác định để mô tả tài nguyên thông tin cho đối tượng số hoặc không số. Thí dụ tập
hợp yếu tố siêu dữ liệu Dublin Core có sơ đồ bao gồm 15 yếu tố cơ bản để mô tả tài
nguyên thông tin.
ii. Ngữ nghĩa
Định nghĩa các yếu tố hoặc ý nghĩa đực gán cho các yếu tố siêu dữ liệu thì
được gọi là ngữ nghĩa của sơ đồ. Mỗi sơ đồ siêu dữ liệu có ngữ nghĩa và cú pháp
được quy định riêng. Ví dụ trong yếu tố siêu dữ liệu Dublin Core yếu tố “Creator” –
dùng để xác định là tác giả của tài liệu, hoặc yếu tố “Title” – được hiểu là nhan đề
của tài liệu.
iii. Nội dung
Giá trị (dữ liệu) của từng yếu tố được gọi là nội dung. Đó chính là giá trị của
mỗi yếu tố siêu dữ liệu. Nhờ các sơ đồ dữ liệu, các chương trình xử lý tự động sẽ
nhận biết đoạn dữ liệu nào sẽ thuộc thành phần nào, chẳng hạn đoạn dữ liệu này
được nhận biết là nhan đề, đoạn dữ liệu kia được nhận biết là tác giả của tài liệu.
1.2. Kiến trúc Web ngữ nghĩa
Để có được những khả năng như đã đề cập ở phần trên, web ngữ nghĩa cần có
một hạ tầng chặt chẽ với nhiều lớp hỗ trợ. Dưới đây là kiến trúc tổng quát nhất của
web ngữ nghĩa do tổ chức W3C đề xuất:
4
Hình 1.1. Kiến trúc của Web ngữ nghĩa
i. Unicode và định danh tài nguyên thống nhất
Tầng thấp nhất là tài nguyên (một đối tượng, một thực thể hay một khái niệm,
v.v...), chúng được mô tả bằng các định danh tài nguyên thống nhất - Uniform
Resource Identifier (URI). Mục đích của tầng này là xác định tính duy nhất của mỗi
tài nguyên. Một tài nguyên có duy nhất một URI, tập con của URI là định vị tài
nguyên thống nhất: Uniform Resource Locator (URL), nó chứa phương thức truy
cập và vị trí của tài liệu trên mạng. Một tập con khác của URI là tên tài nguyên
thống nhất : Uniform Resource Name (URN), cho phép xác định một tài nguyên mà
không cần phải chứa địa chỉ và phương thức truy cập đến nó, ví dụ chỉ số ISBN là
một URN. Việc sử dụng URI là rất quan trọng, vì nó cho phép xây dựng một hệ
thống phân tán, trong đó các tài nguyên nằm ở nhiều nơi khác nhau trên mạng. Một
biến thể khác của URI là định danh tài nguyên được quốc tế hóa: Internationalized
Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh
[1].
Để mã hóa các thông tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây là
chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế. Nó cho phép tất cả các ngôn
ngữ của tất cả các nước có thể được mã hóa thống nhất, tránh hiện tượng mỗi quốc
gia lại sử dụng một chuẩn mã hóa riêng, gây khó khăn cho trao đổi dữ liệu.
5
ii. Biểu diễn XML
Tầng tiếp theo là Ngôn ngữ đánh dẫu mở rộng: Extensible Markup Language
(XML), nó được dùng để biểu diễn dữ liệu mà máy tính có thể hiểu và xử lí dữ liệu
được. XML là công nghệ chính và là chuẩn của web hiện tại và trong tương lai. Với
XML, máy tính có thể tích hợp và tương tác trao đổi dữ liệu với nhau. XML cung
cấp một phương tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu
cây cho thông tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text,
chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin thành
một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và
các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định
nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự đ