Luận văn Các hướng tiếp cận để giải quyết vấn đề trong việc xây dựng hệ thống GIR cho Việt Nam

Truy vấn thông tin địa lý (Geographic Information Retrieval - GIR) được xem như là một phân nhánh của lĩnh vực truy vấn thông tin truyền thống (Information Retrieval -IR). GIR bao gồm tất cả các vấn đề liên quan đến truy vấn thông tin nhưng đặc biệt quan tâm nhiều hơn đến các đặc trưng của thông tin địa lý trong việc lập chỉ mục, cũng như là tìm kiếm và xếp hạng kết quả.

pdf11 trang | Chia sẻ: vietpd | Lượt xem: 1336 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Luận văn Các hướng tiếp cận để giải quyết vấn đề trong việc xây dựng hệ thống GIR cho Việt Nam, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
9 Chương 1: Tổng quan về hệ thống truy vấn thông tin địa lý 1.1 Giới thiệu: Truy vấn thông tin địa lý (Geographic Information Retrieval - GIR) được xem như là một phân nhánh của lĩnh vực truy vấn thông tin truyền thống (Information Retrieval - IR). GIR bao gồm tất cả các vấn đề liên quan đến truy vấn thông tin nhưng đặc biệt quan tâm nhiều hơn đến các đặc trưng của thông tin địa lý trong việc lập chỉ mục, cũng như là tìm kiếm và xếp hạng kết quả. GIR không giới hạn ở các đối tượng địa lý tự nhiên như sông hồ, tỉnh thành hoặc quốc gia, v.v… mà nó bao gồm tất cả những thông tin nào mà ẩn chứa trong đó là các mối quan hệ với những địa danh, những vùng không gian có thật. Những thông tin chứa đựng mối quan hệ với một không gian địa lý thường được gọi là thông tin địa lý. Thông tin địa lý tồn tại dưới nhiều hình thức bao gồm các dữ liệu bản đồ có cấu trúc, dữ liệu khảo sát đất đai, ảnh viễn thám, ảnh vệ tinh, v.v… hoặc bất kỳ một nguồn dữ liệu phi cấu trúc nào. Tìm kiếm thông tin dựa trên vị trí địa lý có một ý nghĩa vô cùng quan trọng và cần thiết trong cuộc sống. Ví dụ như các nhà khoa học tìm kiếm các thông tin về sự biến đổi môi trường theo thời gian của một khu vực nào đó, thông tin về đời sống hoang dã trong một vùng nào đó hoặc tình hình phát triển dân số của một thành phố nào đó họ sẽ giới hạn phạm vi tìm kiếm chỉ trong vùng mà họ quan tâm. Hoặc như khách du lịch trước khi đi tham quan một đất nước, một thành phố, họ sẽ muốn biết các thông tin liên quan đến nơi mà họ sắp đến, ở nơi đó có những danh lam thắng cảnh, những địa điểm vui chơi, khách sạn, nhà hàng nào, giá cả như thế nào, có những gì hấp dẫn họ hay không, v.v... cũng muốn giới hạn phạm vi tìm kiếm chỉ là những thành phố/quốc gia mà họ sắp đến chứ không phải là một thành phố/quốc gia nào khác. Việc giới hạn phạm vi tìm kiếm ấy sẽ làm cho việc tìm kiếm trở nên nhanh hơn, và các kết quả sẽ phù hợp hơn với nhu cầu tìm kiếm của người dùng. Bên cạnh đó, sự phổ biến của hệ thống định vị 10 toàn cầu (GPS – Global Positioning System) trong các thiết bị cầm tay như điện thoại di động, PDA, và thậm chí là các máy quay phim, chụp hình cũng đã đặt ra một yêu cầu về việc tìm kiếm các thông tin liên quan đến những đối tượng nằm xung quanh thiết bị. Trong trường hợp đó, các thông tin sẽ được truyền tải đến các thiết bị dựa trên vị trí của thiết bị. Ví dụ như một người cầm trên tay một máy di động có GPS thực hiện câu lệnh tìm kiếm những điểm đặt ATM nằm cách người đó trong vòng 1km trở lại, v.v… Như vậy, nhiệm vụ của một hệ truy vấn thông tin địa lý là làm sao để hỗ trợ người dùng một cách tốt nhất trong việc trả lời các câu truy vấn liên quan đến địa danh hoặc các đối tượng thông tin bất kỳ trong mối quan hệ không gian với một nơi chốn, vị trí địa lý nào đó. 1.2 Các đặc điểm của thông tin địa lý: Hầu hết các thông tin mà ta hay gặp ở bất cứ nơi đâu từ một kho lưu trữ dữ liệu cho đến Internet đều là những thông tin ít nhiều có liên quan đến địa lý mặc dù phần lớn chúng không ở dạng tọa độ để có thể định vị được trên bản đồ mà chỉ là những tên gọi (địa danh hay cụm từ chỉ địa danh). Vị trí địa lý và vùng không gian xác định một nơi nào đó thường được gọi là dấu vết địa lý (Geographic Footprint) và được xác định bởi (các) tọa độ kinh vĩ độ của chúng. Truy vấn thông tin địa lý đòi hỏi các tên địa danh và các cụm từ trực tiếp hoặc gián tiếp chỉ địa danh trong tài liệu hoặc câu truy vấn phải được xử lý, phân tích sao cho có thể xác định được vị trí chính xác của nó để từ đó có thể đánh chỉ mục phục vụ cho tìm kiếm hoặc xác định được chính xác nơi tìm kiếm trong câu truy vấn. Từ đây, yêu cầu đặt ra cho hệ thống là cần phải giải quyết tốt những vấn đề gặp phải trong việc sử dụng tên địa danh và cụm từ chỉ địa danh trong các tài liệu hay câu truy vấn, mà cụ thể là vấn đề về sự nhập nhằng ngữ nghĩa, sự lẫn lộn giữa các cách gọi tên, sự thiếu chính xác, rõ ràng về một địa danh, v.v… Các vấn đề đó có thể được gây ra bời một trong các nguyên nhân sau: 11  Thứ nhất, trong thực tế luôn tồn tại việc nhiều nơi, hay chính xác hơn là nhiều đối tượng địa lý có cùng một tên gọi. Ví dụ như ở Việt Nam có đến ít nhất 10 tỉnh đều có huyện tên là Châu Thành, hay như tên Hai Bà Trưng thì cũng có Quận Hai Bà Trưng và Đường Hai Bà Trưng. Chính thực tế đó làm phát sinh vấn đề là làm thế nào để biết được một tên gọi nào đó thực sự là nói về đối tượng địa lý nào trong thế giới thực.  Thứ hai là tên gọi của các đối tượng thỉnh thoảng vẫn được gọi bằng các cách gọi mang đậm chất địa phương thay vì được gọi theo tên phổ thông mà ai cũng biết. Điều này yêu cầu hệ thống phải có một lượng tri thức nhất định về các mối liên hệ giữa các cách gọi khác nhau ấy cũng như là ngữ cảnh hoặc môi trường văn hóa mà tên địa danh đó được sử dụng để có thể liên kết chính xác nó đến vị trí địa lý thật sự của nó.  Thứ ba là tên của một số địa danh theo thời gian có thể đã bị thay đổi, ví dụ như đường Kinh Dương Vương (Quận 6) hiện nay ngày trước có tên là Hùng Vương. Điều này cũng có thể gây ra nhầm lẫn và hệ thống cần phải xác định được ngữ cảnh cũng như là thời điểm mà tài liệu nhắc đến để có những phân tích chính xác.  Thứ tư là vùng giới hạn của một địa danh có thể bị thay đổi, mở rộng ra hay thu hẹp lại theo giời gian. Ví dụ như hiện tại Hà Nội đã sáp nhập với Hà Tây, vậy thì đường ranh giới của Hà Nội sẽ được mở rộng ra, trong khi Hà Tây thì biến mất và tất nhiên nếu hệ thống tìm kiếm các thông tin mà vị trí thuộc Hà Nội vào thời điểm hiện tại thì sẽ phải tìm luôn các thông tin liên quan đến Hà Tây (cũ). Điều này yêu cầu hệ thống cần phải lưu ý về thời điểm thực hiện tìm kiếm và phải có tri thức về những sự thay đổi trên. 12  Thứ năm là đường ranh giới của các đối tượng đôi khi không rõ ràng. Do đó, khi người ta quan tâm đến vùng nào đó thì hệ thống có thể sẽ không biết được chính xác vùng tìm kiếm giới hạn ở những đâu.  Cuối cùng là khi cùng đề cập đến một địa danh nào đó nhưng tài liệu lại dùng đến những cách viết khác nhau để chỉ địa danh đó (ví dụ như Thành Phố Hồ Chí Minh và Sài Gòn) hoặc là viết tắt (TPHCM cho Thành Phố Hồ Chí Minh) hay viết sai chính tả (Hà Nội viết thành Hà Nôi), v.v… 1.3 Ảnh hưởng của các phương pháp nhận thức không gian: Hình thức thể hiện chính qui của thông tin địa lý hầu như đều dưới dạng hình học Euclide. Tuy nhiên cái cách mà người ta suy nghĩ và lý giải về thông tin địa lý thì lại khác các hình thức chính qui ấy. Theo [14], con người xây dựng nên những tri thức không gian về những gì xung quanh họ bằng hai cách khác nhau: quan sát thực tế và quan sát trên bản đồ. Tri thức không gian từ quan sát thực tế dựa trên việc khám phá những vùng không gian theo các phương hướng cụ thể. Thông qua việc đó, con người sẽ có tri thức về đối tượng từ những góc nhìn khác nhau và dần dần hình thành những nhận thức về không gian địa lý, về các thực thể trong không gian địa lý (Đây là cái gì? Những gì ở xung quanh chỗ của tôi? v.v…). Những tri thức về không gian có được từ việc di chuyển trong một vùng nào đó để thu thập thường được gọi là những tri thức học bằng “chân” (learn by foot). Bên cạnh đó, tồn tại song song với hình thức quan sát thực tế ấy là hình thức thu thập tri thức không gian dựa trên việc quan sát bản đồ. Phương pháp này bao gồm việc nhìn vào bản đồ và rút ra những tri thức tổng quan về các đối tượng trên đó ở trong thế giới thực. Cả hai cách tiếp cận trên đều hướng đến tri thức không gian tuy nhiên thông tin có được bằng phương pháp quan sát thực tế lại không dễ dàng chuyển đổi thành 13 thông tin có dạng giống như những thông tin có được bằng phương pháp quan sát bản đồ hoặc những phương pháp tương tự khác. Ngành khoa học về cách nắm bắt tri thức không gian của con người được gọi là “Địa lý tự nhiên” (Naïve geography) và được công nhận là một ngành nghiên cứu độc lập. “Địa lý tự nhiên nắm bắt và truyền tải cách thức con người suy nghĩ và lý giải về không gian, thời gian một cách có ý thức và không ý thức. Tự nhiên ở đây có nghĩa là cái gì đó thuộc về bản năng và có tính tự phát”. Địa lý tự nhiên có những vấn đề rất quan trọng cần chú ý đến trong việc thể hiện các tri thức không gian bằng từ ngữ. Những vấn đề đó là:  Thứ nhất, con người thường đặt thời gian và khoảng cách địa lý trong cùng một mối quan hệ. Nhận thức về khoảng cách giữa A và B khi di chuyển bằng đường bộ sẽ phải khác với khoảng cách ấy nếu di chuyển bằng đường hàng không. Và tương tự, nếu như thời gian để đi từ A đến B khác với thời gian để đi từ B đến A thì khoảng cách giữa A và B có thể hiểu là khoảng cách không đối xứng. Những điều này có nghĩa là các thể hiện về khoảng cách đề cập trong nội dung tài liệu có thể sẽ bị sai lệch nếu như khoảng cách đó được ước tính dựa trên nhận thức của con người trong một không gian nhất định.  Thứ hai: vấn đề Topology và các độ đo liên quan đến khoảng cách . Con người sẽ tổ chức không gian tốt hơn khi sử dụng đến các mối quan hệ topo như quan hệ bao gồm (cái gì chứa cái gì), quan hệ trùng hợp (cái gì có vị trí giống như cái gì), quan hệ lân cận (cái gì ở kế cái gì), và các quan hệ bên trái/bên phải (bên phải cái này là cái gì), v.v… Các quan hệ topo có thể được xem như là thông tin cấp cao nhất trong khi đó quan hệ về các độ đo khoảng cách giữa các đối tượng là những thông tin ở cấp thứ hai trong cơ cấu tổ chức không gian địa lý của con người. Thông thường các sai phạm nếu có là từ quan hệ khoảng cách, rất hiếm 14 khi từ quan hệ topo. Điều đó cho thấy rằng các quan hệ topo giữa những thực thể được mô tả trong văn bản sẽ đáng tin cậy hơn các con số về khoảng cách giữa những thực thể đó.  Thứ ba, con người hay sử dụng cách định hướng theo Đông – Tây – Nam - Bắc. Khi con người cho biết hướng hay nói về vị trí của một đối tượng nào đó so với một đối tượng khác trong không gian họ hay dùng đến một trong các hướng Đông – Tây – Nam – Bắc. Điều này có nghĩa là nếu một đối tượng nằm ở phía Nam – Tây Nam so với một đối tượng khác thì người ta cũng chỉ mô tả đơn giản là “phía Nam”. Nó cho thấy rằng con người có xu hướng thể hiện quan hệ giữa những đối tượng khác nhau chỉ bằng 4 phương hướng cơ bản. Chính việc này có thể sẽ dẫn đến những sai lầm trong việc xác định vị trí đối tượng và yêu cầu con người phải thống nhất cách định hướng trong không gian. Như vậy, thực tế là con người nhìn nhận về các thực thể không gian và quan hệ giữa chúng hoàn toàn khác so với các mô hình chính thống của thế giới dựa trên tọa độ kinh vĩ độ, khoảng cách chính xác hay phương hướng chính xác. Điều đó hàm ý rằng các tài liệu được viết bởi con người có thể sẽ không chính xác và dễ lẫn lộn khi chúng đề cập đến không gian địa lý, vị trí địa lý của đối tượng. Đó là điều mà bất kỳ một hệ GIR nào cũng cần phải lưu ý và cũng là điều khiến cho các hệ GIR trở nên khó đánh giá. 1.4 Vai trò của từ điển địa lý và Ontology: Việc phải xác định ý nghĩa của tên địa danh và các vấn đề liên quan đến những cách thể hiện thông tin địa lý khác nhau của con người cho thấy rõ ràng là những tài liệu liên kết với một không gian nào đó dựa vào tên địa danh hoặc cụm từ chỉ địa danh là hoàn toàn không có tính đảm bảo một cách chắc chắn và vùng không gian mà tài liệu chỉ đến cũng chỉ chính xác với một xác suất phần trăm nào đó. 15 Để chuyển đổi từ tên địa danh thành tọa độ địa lý, theo phương pháp truyền thống, người ta sử dụng đến một hay nhiều các từ điển địa lý. Từ điển địa lý chính là một danh sách các tên địa danh cùng với vị rí địa lý của chúng cũng như là những thông tin mô tả về địa danh đó. [14] xác định 3 thành phần chính của một từ điển địa lý gồm: tên, vị trí và kiểu đối tượng. Hình 1-1: Các thành phần chính của từ điển địa lý. Tên địa danh chính là tên gọi chỉ về một vùng không gian địa lý nào đó (ví dụ: Hà Nội), vị trí địa lý là tọa độ của một điểm, đường hay vùng được gọi bởi tên địa danh, và sau cùng, loại đối tượng chính là loại hình tự nhiên của một vị trí địa lý được gọi bởi tên địa danh (ví dụ: sông hồ, rừng, khu dân cư, v.v…). Vị trí địa lý mà tên địa danh nhắc đến có thể ở dưới dạng một điểm hay một hình chữ nhật bao hay một đa giác, và tất cả đều được thể hiện bởi các tọa độ. Mỗi một dạng thể hiện vị trí ấy đều tồn tại những vấn đề về độ chính xác cũng như là dữ liệu cần phải lưu trữ và xử lý. Có 3 dạng thể hiện như sau: 16  Dùng một điểm để thể hiện tâm của một vùng thì chỉ cần lưu trữ một lượng dữ liệu nhỏ. Tuy nhiên, nếu chỉ có tâm của một vùng thì người ta sẽ không thể biết được hình dạng và kích thước của vùng đó. Hình 1-2: TP. Hồ Chí Minh được thể hiện bằng một điểm tâm của vùng.  Dùng hình chữ nhật bao để thể hiện thì yêu cầu khung bao phải lớn hơn vùng địa lý được thể hiện bên trong nó. Điều này sẽ dẫn đến việc khung bao có thể bao luôn cả những vùng lân cận. Hình 1-3: TP. Hồ Chí Minh được thể hiện bằng một khung bao chữ nhật. 17  Cách thể hiện vùng chính xác nhất là dùng đa giác. Đa giác sẽ bao quanh vùng bằng cách đỉnh và các đường thẳng nối giữa các đỉnh đó. Điều này sẽ đủ để thể hiện gần như chính xác đối tượng vùng mà ta quan tâm với hình dạng cũng như là kích thước. Tuy nhiên, đây lại là cách thể hiện đòi hỏi nhiều nhất lượng dữ liệu phải lưu trữ và xử lý. Vì vậy trong một số trường hợp mà độ chính xác gần như tuyệt đối của vùng không phải là một yêu cầu quan trọng thì người ta sẽ lược bỏ bớt một số đỉnh (và tất nhiên là cả cạnh) của đa giác để giảm thiểu lượng dữ liệu cần lưu trữ và xử lý. Hình 1-4: TP. Hồ Chí Minh được thể hiện bởi một đa giác – ranh giới của vùng. Trong các nghiên cứu gần đây, người ta đã nhận thấy cần có những từ điển địa lý tốt hơn so với các kiểu từ điển địa lý truyền thống. Một trong số những trở ngại chính của loại từ điển địa lý truyền thống là nó không thể hiện các mối quan hệ về mặt không gian cũng như ngữ nghĩa giữa các đối tượng. Quan hệ không gian có thể giúp cho người dùng khi muốn tìm kiếm liên quan đến một vùng lân cận với một vùng cụ thể đã xác định trước đó, cung cấp khả năng xếp hạng kết quả dựa trên khoảng cách không gian. Quan hệ về ngữ nghĩa có thể giúp cho người dùng tìm thấy được thông tin nhờ vào các quan hệ về ngữ nghĩa giữa các tên địa danh chẳng hạn như các cách gọi khác 18 nhau về một địa danh, v.v… Chính từ những hạn chế đó, người ta cho ra đời cái gọi là ontology địa lý (Geographic Ontology). Ontology địa lý cũng là một dạng từ điển địa lý nhưng có thêm thông tin về các mối quan hệ không gian giữa những địa danh với nhau nhằm hỗ trợ tốt hơn trong việc xử lý các truy vấn của người dùng. 1.5 Tìm kiếm thông tin địa lý: Có 2 cách để người dùng đặc tả các ràng buộc về mặt địa lý trong yêu cầu tìm kiếm của họ. Thứ nhất là để cho người dùng chỉ ra một hay nhiều tên địa danh như là những từ khóa trong câu truy vấn cùng với những từ khóa khác của câu truy vấn. Khi phân tích câu truy vấn, hệ thống truy vấn thông tin địa lý hoặc hệ thống truy vấn thông tin (GIR/IR) sẽ xem các tên địa danh mà hệ thống phát hiện được như là những từ khóa đặc biệt của hệ GIR/IR nhằm cho biết giới hạn địa lý mà người dùng muốn tìm kiếm thông tin. Ngoài ra, còn có cách thứ hai là để cho người dùng đặc tả các ràng buộc về địa lý trong câu truy vấn bằng cách vẽ chúng thành các bản đồ trực quan. Những kiểu câu truy vấn tổng quát mà một hệ GIR luôn gặp là điểm trong vùng (Point in Polygon) dùng để tìm thông tin về vùng chứa hay vùng xung quanh hoặc vùng có liên quan của một vị trí địa lý nào đó; câu truy vấn theo vùng (Region Queries) dùng để tìm kiếm các thông tin về bất cứ cái gì nằm trong vùng; câu truy vấn theo khoảng cách và vùng đệm (Distance and Buffer Zone Queries) dùng để tìm các thông tin kèm theo ràng buộc về khoảng cách với những đối tượng địa lý (điểm, đường, đa giác). Việc tìm ra các phương pháp kết hợp hiệu quả những kiểu câu truy vấn nói trên với những câu truy vấn theo khái niệm như trong IR truyền thống có thể tạo ra những máy tìm kiếm hiệu quả, đầy sức mạnh không chỉ có thể giúp người dùng tìm kiếm các thông tin dựa vào từ khóa mà còn thêm vào đó khả năng khoanh vùng địa lý nhằm giới hạn tìm kiếm chỉ trong vùng quan tâm. Khi đó, các vùng địa lý ấy sẽ được vẽ lên trên bản đồ bằng điểm, khung bao chữ nhật hay đa giác, còn các kết quả tìm thấy cũng sẽ được chấm lên bản đồ nếu cần thiết. 19 1.6 Hệ thống truy vấn thông tin địa lý Việt Nam: Hệ thống GIR Việt Nam như tên gọi của nó sẽ là một hệ thống GIR phục vụ riêng cho đối tượng người dùng chủ yếu là người Việt Nam, với những câu truy vấn bằng tiếng Việt, và thông tin sẽ mang tính cục bộ Việt Nam hơn. Cũng như mọi hệ IR hay GIR, một hệ GIR Việt Nam cũng được cấu thành từ những thành phần chính là các thành phần lập chỉ mục, thành phần phân tích truy vấn, thành phần tìm kiếm và xếp hạng kết quả. Tuy nhiên, khi bắt tay vào vấn đề, những khó khăn mang tính đặc trưng sẽ dần dần hiện ra chứ không đơn giản chỉ là những vấn đề chung mà mọi hệ IR/GIR đều gặp phải. Phần tiếp theo của luận văn, sẽ là phần trình bày các công việc quan trọng trong quá trình xây dựng một hệ thống GIR Việt Nam cùng với những trở ngại và các hướng giải quyết nhằm tạo ra một hệ thống có hiệu suất cao.

Các file đính kèm theo tài liệu này:

  • pdf4.pdf
  • pdf1.pdf
  • pdf2.pdf
  • pdf3.pdf
  • pdf5.pdf
  • pdf6.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10.pdf
Tài liệu liên quan