Truy vấn thông tin địa lý (Geographic Information Retrieval - GIR) được xem như là một phân nhánh của lĩnh vực truy vấn thông tin truyền thống (Information Retrieval -IR). GIR bao gồm tất cả các vấn đề liên quan đến truy vấn thông tin nhưng đặc biệt quan tâm nhiều hơn đến các đặc trưng của thông tin địa lý trong việc lập chỉ mục, cũng như là tìm kiếm và xếp hạng kết quả.
11 trang |
Chia sẻ: vietpd | Lượt xem: 1336 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Luận văn Các hướng tiếp cận để giải quyết vấn đề trong việc xây dựng hệ thống GIR cho Việt Nam, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
9
Chương 1: Tổng quan về hệ thống truy vấn thông tin địa lý
1.1 Giới thiệu:
Truy vấn thông tin địa lý (Geographic Information Retrieval - GIR) được xem như là
một phân nhánh của lĩnh vực truy vấn thông tin truyền thống (Information Retrieval -
IR). GIR bao gồm tất cả các vấn đề liên quan đến truy vấn thông tin nhưng đặc biệt
quan tâm nhiều hơn đến các đặc trưng của thông tin địa lý trong việc lập chỉ mục, cũng
như là tìm kiếm và xếp hạng kết quả. GIR không giới hạn ở các đối tượng địa lý tự
nhiên như sông hồ, tỉnh thành hoặc quốc gia, v.v… mà nó bao gồm tất cả những thông
tin nào mà ẩn chứa trong đó là các mối quan hệ với những địa danh, những vùng không
gian có thật. Những thông tin chứa đựng mối quan hệ với một không gian địa lý
thường được gọi là thông tin địa lý. Thông tin địa lý tồn tại dưới nhiều hình thức bao
gồm các dữ liệu bản đồ có cấu trúc, dữ liệu khảo sát đất đai, ảnh viễn thám, ảnh vệ
tinh, v.v… hoặc bất kỳ một nguồn dữ liệu phi cấu trúc nào.
Tìm kiếm thông tin dựa trên vị trí địa lý có một ý nghĩa vô cùng quan trọng và cần thiết
trong cuộc sống. Ví dụ như các nhà khoa học tìm kiếm các thông tin về sự biến đổi môi
trường theo thời gian của một khu vực nào đó, thông tin về đời sống hoang dã trong
một vùng nào đó hoặc tình hình phát triển dân số của một thành phố nào đó họ sẽ giới
hạn phạm vi tìm kiếm chỉ trong vùng mà họ quan tâm. Hoặc như khách du lịch trước
khi đi tham quan một đất nước, một thành phố, họ sẽ muốn biết các thông tin liên quan
đến nơi mà họ sắp đến, ở nơi đó có những danh lam thắng cảnh, những địa điểm vui
chơi, khách sạn, nhà hàng nào, giá cả như thế nào, có những gì hấp dẫn họ hay không,
v.v... cũng muốn giới hạn phạm vi tìm kiếm chỉ là những thành phố/quốc gia mà họ sắp
đến chứ không phải là một thành phố/quốc gia nào khác. Việc giới hạn phạm vi tìm
kiếm ấy sẽ làm cho việc tìm kiếm trở nên nhanh hơn, và các kết quả sẽ phù hợp hơn
với nhu cầu tìm kiếm của người dùng. Bên cạnh đó, sự phổ biến của hệ thống định vị
10
toàn cầu (GPS – Global Positioning System) trong các thiết bị cầm tay như điện thoại
di động, PDA, và thậm chí là các máy quay phim, chụp hình cũng đã đặt ra một yêu
cầu về việc tìm kiếm các thông tin liên quan đến những đối tượng nằm xung quanh
thiết bị. Trong trường hợp đó, các thông tin sẽ được truyền tải đến các thiết bị dựa trên
vị trí của thiết bị. Ví dụ như một người cầm trên tay một máy di động có GPS thực hiện
câu lệnh tìm kiếm những điểm đặt ATM nằm cách người đó trong vòng 1km trở lại,
v.v…
Như vậy, nhiệm vụ của một hệ truy vấn thông tin địa lý là làm sao để hỗ trợ người
dùng một cách tốt nhất trong việc trả lời các câu truy vấn liên quan đến địa danh hoặc
các đối tượng thông tin bất kỳ trong mối quan hệ không gian với một nơi chốn, vị trí
địa lý nào đó.
1.2 Các đặc điểm của thông tin địa lý:
Hầu hết các thông tin mà ta hay gặp ở bất cứ nơi đâu từ một kho lưu trữ dữ liệu cho
đến Internet đều là những thông tin ít nhiều có liên quan đến địa lý mặc dù phần lớn
chúng không ở dạng tọa độ để có thể định vị được trên bản đồ mà chỉ là những tên gọi
(địa danh hay cụm từ chỉ địa danh). Vị trí địa lý và vùng không gian xác định một nơi
nào đó thường được gọi là dấu vết địa lý (Geographic Footprint) và được xác định bởi
(các) tọa độ kinh vĩ độ của chúng. Truy vấn thông tin địa lý đòi hỏi các tên địa danh và
các cụm từ trực tiếp hoặc gián tiếp chỉ địa danh trong tài liệu hoặc câu truy vấn phải
được xử lý, phân tích sao cho có thể xác định được vị trí chính xác của nó để từ đó có
thể đánh chỉ mục phục vụ cho tìm kiếm hoặc xác định được chính xác nơi tìm kiếm
trong câu truy vấn. Từ đây, yêu cầu đặt ra cho hệ thống là cần phải giải quyết tốt những
vấn đề gặp phải trong việc sử dụng tên địa danh và cụm từ chỉ địa danh trong các tài
liệu hay câu truy vấn, mà cụ thể là vấn đề về sự nhập nhằng ngữ nghĩa, sự lẫn lộn giữa
các cách gọi tên, sự thiếu chính xác, rõ ràng về một địa danh, v.v… Các vấn đề đó có
thể được gây ra bời một trong các nguyên nhân sau:
11
Thứ nhất, trong thực tế luôn tồn tại việc nhiều nơi, hay chính xác hơn là nhiều
đối tượng địa lý có cùng một tên gọi. Ví dụ như ở Việt Nam có đến ít nhất 10
tỉnh đều có huyện tên là Châu Thành, hay như tên Hai Bà Trưng thì cũng có
Quận Hai Bà Trưng và Đường Hai Bà Trưng. Chính thực tế đó làm phát sinh
vấn đề là làm thế nào để biết được một tên gọi nào đó thực sự là nói về đối
tượng địa lý nào trong thế giới thực.
Thứ hai là tên gọi của các đối tượng thỉnh thoảng vẫn được gọi bằng các cách
gọi mang đậm chất địa phương thay vì được gọi theo tên phổ thông mà ai cũng
biết. Điều này yêu cầu hệ thống phải có một lượng tri thức nhất định về các mối
liên hệ giữa các cách gọi khác nhau ấy cũng như là ngữ cảnh hoặc môi trường
văn hóa mà tên địa danh đó được sử dụng để có thể liên kết chính xác nó đến vị
trí địa lý thật sự của nó.
Thứ ba là tên của một số địa danh theo thời gian có thể đã bị thay đổi, ví dụ như
đường Kinh Dương Vương (Quận 6) hiện nay ngày trước có tên là Hùng
Vương. Điều này cũng có thể gây ra nhầm lẫn và hệ thống cần phải xác định
được ngữ cảnh cũng như là thời điểm mà tài liệu nhắc đến để có những phân
tích chính xác.
Thứ tư là vùng giới hạn của một địa danh có thể bị thay đổi, mở rộng ra hay thu
hẹp lại theo giời gian. Ví dụ như hiện tại Hà Nội đã sáp nhập với Hà Tây, vậy
thì đường ranh giới của Hà Nội sẽ được mở rộng ra, trong khi Hà Tây thì biến
mất và tất nhiên nếu hệ thống tìm kiếm các thông tin mà vị trí thuộc Hà Nội vào
thời điểm hiện tại thì sẽ phải tìm luôn các thông tin liên quan đến Hà Tây (cũ).
Điều này yêu cầu hệ thống cần phải lưu ý về thời điểm thực hiện tìm kiếm và
phải có tri thức về những sự thay đổi trên.
12
Thứ năm là đường ranh giới của các đối tượng đôi khi không rõ ràng. Do đó, khi
người ta quan tâm đến vùng nào đó thì hệ thống có thể sẽ không biết được chính
xác vùng tìm kiếm giới hạn ở những đâu.
Cuối cùng là khi cùng đề cập đến một địa danh nào đó nhưng tài liệu lại dùng
đến những cách viết khác nhau để chỉ địa danh đó (ví dụ như Thành Phố Hồ Chí
Minh và Sài Gòn) hoặc là viết tắt (TPHCM cho Thành Phố Hồ Chí Minh) hay
viết sai chính tả (Hà Nội viết thành Hà Nôi), v.v…
1.3 Ảnh hưởng của các phương pháp nhận thức không gian:
Hình thức thể hiện chính qui của thông tin địa lý hầu như đều dưới dạng hình học
Euclide. Tuy nhiên cái cách mà người ta suy nghĩ và lý giải về thông tin địa lý thì lại
khác các hình thức chính qui ấy.
Theo [14], con người xây dựng nên những tri thức không gian về những gì xung quanh
họ bằng hai cách khác nhau: quan sát thực tế và quan sát trên bản đồ. Tri thức không
gian từ quan sát thực tế dựa trên việc khám phá những vùng không gian theo các
phương hướng cụ thể. Thông qua việc đó, con người sẽ có tri thức về đối tượng từ
những góc nhìn khác nhau và dần dần hình thành những nhận thức về không gian địa
lý, về các thực thể trong không gian địa lý (Đây là cái gì? Những gì ở xung quanh chỗ
của tôi? v.v…). Những tri thức về không gian có được từ việc di chuyển trong một
vùng nào đó để thu thập thường được gọi là những tri thức học bằng “chân” (learn by
foot). Bên cạnh đó, tồn tại song song với hình thức quan sát thực tế ấy là hình thức thu
thập tri thức không gian dựa trên việc quan sát bản đồ. Phương pháp này bao gồm việc
nhìn vào bản đồ và rút ra những tri thức tổng quan về các đối tượng trên đó ở trong thế
giới thực. Cả hai cách tiếp cận trên đều hướng đến tri thức không gian tuy nhiên thông
tin có được bằng phương pháp quan sát thực tế lại không dễ dàng chuyển đổi thành
13
thông tin có dạng giống như những thông tin có được bằng phương pháp quan sát bản
đồ hoặc những phương pháp tương tự khác.
Ngành khoa học về cách nắm bắt tri thức không gian của con người được gọi là “Địa lý
tự nhiên” (Naïve geography) và được công nhận là một ngành nghiên cứu độc lập.
“Địa lý tự nhiên nắm bắt và truyền tải cách thức con người suy nghĩ và lý giải về
không gian, thời gian một cách có ý thức và không ý thức. Tự nhiên ở đây có nghĩa là
cái gì đó thuộc về bản năng và có tính tự phát”. Địa lý tự nhiên có những vấn đề rất
quan trọng cần chú ý đến trong việc thể hiện các tri thức không gian bằng từ ngữ.
Những vấn đề đó là:
Thứ nhất, con người thường đặt thời gian và khoảng cách địa lý trong cùng một
mối quan hệ. Nhận thức về khoảng cách giữa A và B khi di chuyển bằng đường
bộ sẽ phải khác với khoảng cách ấy nếu di chuyển bằng đường hàng không. Và
tương tự, nếu như thời gian để đi từ A đến B khác với thời gian để đi từ B đến A
thì khoảng cách giữa A và B có thể hiểu là khoảng cách không đối xứng. Những
điều này có nghĩa là các thể hiện về khoảng cách đề cập trong nội dung tài liệu
có thể sẽ bị sai lệch nếu như khoảng cách đó được ước tính dựa trên nhận thức
của con người trong một không gian nhất định.
Thứ hai: vấn đề Topology và các độ đo liên quan đến khoảng cách . Con người
sẽ tổ chức không gian tốt hơn khi sử dụng đến các mối quan hệ topo như quan
hệ bao gồm (cái gì chứa cái gì), quan hệ trùng hợp (cái gì có vị trí giống như cái
gì), quan hệ lân cận (cái gì ở kế cái gì), và các quan hệ bên trái/bên phải (bên
phải cái này là cái gì), v.v… Các quan hệ topo có thể được xem như là thông tin
cấp cao nhất trong khi đó quan hệ về các độ đo khoảng cách giữa các đối tượng
là những thông tin ở cấp thứ hai trong cơ cấu tổ chức không gian địa lý của con
người. Thông thường các sai phạm nếu có là từ quan hệ khoảng cách, rất hiếm
14
khi từ quan hệ topo. Điều đó cho thấy rằng các quan hệ topo giữa những thực
thể được mô tả trong văn bản sẽ đáng tin cậy hơn các con số về khoảng cách
giữa những thực thể đó.
Thứ ba, con người hay sử dụng cách định hướng theo Đông – Tây – Nam - Bắc.
Khi con người cho biết hướng hay nói về vị trí của một đối tượng nào đó so với
một đối tượng khác trong không gian họ hay dùng đến một trong các hướng
Đông – Tây – Nam – Bắc. Điều này có nghĩa là nếu một đối tượng nằm ở phía
Nam – Tây Nam so với một đối tượng khác thì người ta cũng chỉ mô tả đơn giản
là “phía Nam”. Nó cho thấy rằng con người có xu hướng thể hiện quan hệ giữa
những đối tượng khác nhau chỉ bằng 4 phương hướng cơ bản. Chính việc này có
thể sẽ dẫn đến những sai lầm trong việc xác định vị trí đối tượng và yêu cầu con
người phải thống nhất cách định hướng trong không gian.
Như vậy, thực tế là con người nhìn nhận về các thực thể không gian và quan hệ giữa
chúng hoàn toàn khác so với các mô hình chính thống của thế giới dựa trên tọa độ kinh
vĩ độ, khoảng cách chính xác hay phương hướng chính xác. Điều đó hàm ý rằng các tài
liệu được viết bởi con người có thể sẽ không chính xác và dễ lẫn lộn khi chúng đề cập
đến không gian địa lý, vị trí địa lý của đối tượng. Đó là điều mà bất kỳ một hệ GIR nào
cũng cần phải lưu ý và cũng là điều khiến cho các hệ GIR trở nên khó đánh giá.
1.4 Vai trò của từ điển địa lý và Ontology:
Việc phải xác định ý nghĩa của tên địa danh và các vấn đề liên quan đến những cách
thể hiện thông tin địa lý khác nhau của con người cho thấy rõ ràng là những tài liệu liên
kết với một không gian nào đó dựa vào tên địa danh hoặc cụm từ chỉ địa danh là hoàn
toàn không có tính đảm bảo một cách chắc chắn và vùng không gian mà tài liệu chỉ đến
cũng chỉ chính xác với một xác suất phần trăm nào đó.
15
Để chuyển đổi từ tên địa danh thành tọa độ địa lý, theo phương pháp truyền thống,
người ta sử dụng đến một hay nhiều các từ điển địa lý. Từ điển địa lý chính là một
danh sách các tên địa danh cùng với vị rí địa lý của chúng cũng như là những thông tin
mô tả về địa danh đó. [14] xác định 3 thành phần chính của một từ điển địa lý gồm:
tên, vị trí và kiểu đối tượng.
Hình 1-1: Các thành phần chính của từ điển địa lý.
Tên địa danh chính là tên gọi chỉ về một vùng không gian địa lý nào đó (ví dụ: Hà
Nội), vị trí địa lý là tọa độ của một điểm, đường hay vùng được gọi bởi tên địa danh,
và sau cùng, loại đối tượng chính là loại hình tự nhiên của một vị trí địa lý được gọi
bởi tên địa danh (ví dụ: sông hồ, rừng, khu dân cư, v.v…). Vị trí địa lý mà tên địa danh
nhắc đến có thể ở dưới dạng một điểm hay một hình chữ nhật bao hay một đa giác, và
tất cả đều được thể hiện bởi các tọa độ. Mỗi một dạng thể hiện vị trí ấy đều tồn tại
những vấn đề về độ chính xác cũng như là dữ liệu cần phải lưu trữ và xử lý. Có 3 dạng
thể hiện như sau:
16
Dùng một điểm để thể hiện tâm của một vùng thì chỉ cần lưu trữ một lượng dữ
liệu nhỏ. Tuy nhiên, nếu chỉ có tâm của một vùng thì người ta sẽ không thể biết
được hình dạng và kích thước của vùng đó.
Hình 1-2: TP. Hồ Chí Minh được thể hiện bằng một điểm tâm của vùng.
Dùng hình chữ nhật bao để thể hiện thì yêu cầu khung bao phải lớn hơn vùng
địa lý được thể hiện bên trong nó. Điều này sẽ dẫn đến việc khung bao có thể
bao luôn cả những vùng lân cận.
Hình 1-3: TP. Hồ Chí Minh được thể hiện bằng một khung bao chữ nhật.
17
Cách thể hiện vùng chính xác nhất là dùng đa giác. Đa giác sẽ bao quanh vùng
bằng cách đỉnh và các đường thẳng nối giữa các đỉnh đó. Điều này sẽ đủ để thể
hiện gần như chính xác đối tượng vùng mà ta quan tâm với hình dạng cũng như
là kích thước. Tuy nhiên, đây lại là cách thể hiện đòi hỏi nhiều nhất lượng dữ
liệu phải lưu trữ và xử lý. Vì vậy trong một số trường hợp mà độ chính xác gần
như tuyệt đối của vùng không phải là một yêu cầu quan trọng thì người ta sẽ
lược bỏ bớt một số đỉnh (và tất nhiên là cả cạnh) của đa giác để giảm thiểu
lượng dữ liệu cần lưu trữ và xử lý.
Hình 1-4: TP. Hồ Chí Minh được thể hiện bởi một đa giác – ranh giới của vùng.
Trong các nghiên cứu gần đây, người ta đã nhận thấy cần có những từ điển địa lý tốt
hơn so với các kiểu từ điển địa lý truyền thống. Một trong số những trở ngại chính của
loại từ điển địa lý truyền thống là nó không thể hiện các mối quan hệ về mặt không
gian cũng như ngữ nghĩa giữa các đối tượng. Quan hệ không gian có thể giúp cho
người dùng khi muốn tìm kiếm liên quan đến một vùng lân cận với một vùng cụ thể đã
xác định trước đó, cung cấp khả năng xếp hạng kết quả dựa trên khoảng cách không
gian. Quan hệ về ngữ nghĩa có thể giúp cho người dùng tìm thấy được thông tin nhờ
vào các quan hệ về ngữ nghĩa giữa các tên địa danh chẳng hạn như các cách gọi khác
18
nhau về một địa danh, v.v… Chính từ những hạn chế đó, người ta cho ra đời cái gọi là
ontology địa lý (Geographic Ontology). Ontology địa lý cũng là một dạng từ điển địa
lý nhưng có thêm thông tin về các mối quan hệ không gian giữa những địa danh với
nhau nhằm hỗ trợ tốt hơn trong việc xử lý các truy vấn của người dùng.
1.5 Tìm kiếm thông tin địa lý:
Có 2 cách để người dùng đặc tả các ràng buộc về mặt địa lý trong yêu cầu tìm kiếm của
họ. Thứ nhất là để cho người dùng chỉ ra một hay nhiều tên địa danh như là những từ
khóa trong câu truy vấn cùng với những từ khóa khác của câu truy vấn. Khi phân tích
câu truy vấn, hệ thống truy vấn thông tin địa lý hoặc hệ thống truy vấn thông tin
(GIR/IR) sẽ xem các tên địa danh mà hệ thống phát hiện được như là những từ khóa
đặc biệt của hệ GIR/IR nhằm cho biết giới hạn địa lý mà người dùng muốn tìm kiếm
thông tin. Ngoài ra, còn có cách thứ hai là để cho người dùng đặc tả các ràng buộc về
địa lý trong câu truy vấn bằng cách vẽ chúng thành các bản đồ trực quan.
Những kiểu câu truy vấn tổng quát mà một hệ GIR luôn gặp là điểm trong vùng (Point
in Polygon) dùng để tìm thông tin về vùng chứa hay vùng xung quanh hoặc vùng có
liên quan của một vị trí địa lý nào đó; câu truy vấn theo vùng (Region Queries) dùng để
tìm kiếm các thông tin về bất cứ cái gì nằm trong vùng; câu truy vấn theo khoảng cách
và vùng đệm (Distance and Buffer Zone Queries) dùng để tìm các thông tin kèm theo
ràng buộc về khoảng cách với những đối tượng địa lý (điểm, đường, đa giác).
Việc tìm ra các phương pháp kết hợp hiệu quả những kiểu câu truy vấn nói trên với
những câu truy vấn theo khái niệm như trong IR truyền thống có thể tạo ra những máy
tìm kiếm hiệu quả, đầy sức mạnh không chỉ có thể giúp người dùng tìm kiếm các thông
tin dựa vào từ khóa mà còn thêm vào đó khả năng khoanh vùng địa lý nhằm giới hạn
tìm kiếm chỉ trong vùng quan tâm. Khi đó, các vùng địa lý ấy sẽ được vẽ lên trên bản
đồ bằng điểm, khung bao chữ nhật hay đa giác, còn các kết quả tìm thấy cũng sẽ được
chấm lên bản đồ nếu cần thiết.
19
1.6 Hệ thống truy vấn thông tin địa lý Việt Nam:
Hệ thống GIR Việt Nam như tên gọi của nó sẽ là một hệ thống GIR phục vụ riêng cho
đối tượng người dùng chủ yếu là người Việt Nam, với những câu truy vấn bằng tiếng
Việt, và thông tin sẽ mang tính cục bộ Việt Nam hơn. Cũng như mọi hệ IR hay GIR,
một hệ GIR Việt Nam cũng được cấu thành từ những thành phần chính là các thành
phần lập chỉ mục, thành phần phân tích truy vấn, thành phần tìm kiếm và xếp hạng kết
quả. Tuy nhiên, khi bắt tay vào vấn đề, những khó khăn mang tính đặc trưng sẽ dần
dần hiện ra chứ không đơn giản chỉ là những vấn đề chung mà mọi hệ IR/GIR đều gặp
phải. Phần tiếp theo của luận văn, sẽ là phần trình bày các công việc quan trọng trong
quá trình xây dựng một hệ thống GIR Việt Nam cùng với những trở ngại và các hướng
giải quyết nhằm tạo ra một hệ thống có hiệu suất cao.