Khóa luận Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên ontology

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
--------  
Nguyễn Quốc Đại  
PHƢƠNG PHÁP XÂY DỰNG  
HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT  
DỰA TRÊN ONTOLOGY  
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
HÀ NỘI – 2009  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
--------  
Nguyễn Quốc Đại  
PHƢƠNG PHÁP XÂY DỰNG  
HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT  
DỰA TRÊN ONTOLOGY  
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành:  
Công nghệ thông tin  
Giảng viên hƣớng dẫn: TS. Phạm Bảo Sơn  
HÀ NỘI – 2009  
To My Family  
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology  
Nguyễn Quốc Đại  
Lời cảm ơn  
Đầu tiên, em xin gửi lời cám ơn chân thành nhất tới TS. Phạm Bảo Sơn. Thầy đã  
hướng dẫn, chỉ bảo và truyền đạt những kinh nghiệm giúp em hoàn thành khóa luận.  
Em cũng xin gửi lời cám ơn tới TS. Bùi Thế Duy. Thầy đã tạo điều kiện thuận lợi  
và có những ý kiến đóng góp cho em.  
Tôi xin cám ơn các bạn Nguyễn Quốc Đạt, Nguyễn Bá Đạt, Trần Bình Giang,  
Phạm Đức Đăng. Các bạn đã giúp đỡ, cũng như chia sẻ những nghiên cứu để tôi có thể  
áp dụng trong khóa luận.  
Tôi cũng xin cám ơn các bạn NThị Thảo, Tạ Thị Bích Hin, Nguyễn Hà  
Phương đã giúp đỡ tôi khi khó khăn.  
Cuối cùng, con xin gửi lời cám ơn sâu sắc nhất tới bố mẹ. Bố mẹ đã sinh thành,  
nuôi dưỡng, quan tâm và chăm sóc cho con. Con xin cám ơn bố mẹ!  
Hà Nội, 24-5-2009  
Nguyễn Quốc Đại  
i
 
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology  
Nguyễn Quốc Đại  
Tóm tắt  
Hỏi đáp (question answering) là nhiệm vụ tự động trả lời câu hỏi dưới dạng ngôn  
ngữ tự nhiên. Nghiên cứu các hệ thống hỏi đáp đang nhận được nhiều quan tâm trên  
thế giới. Các nghiên cứu hiện nay sử dụng nhiều phương pháp xử lý ngôn ngữ tự nhiên  
cùng với Ontology được sử dụng làm cơ sở tri thức. Nhu cầu tìm kiếm thông tin tiếng  
Việt dưới dạng hỏi đáp là rất lớn nhưng các hệ thống hỏi đáp cho tiếng Việt còn chưa  
có nhiều nghiên cứu ứng dụng cụ thể.  
Chúng tôi giới thiệu một hệ thống hỏi đáp tiếng Việt dựa trên Ontology. Hệ thống  
này có thể áp dụng đối với nhiều miền ứng dụng cụ thể. Chúng tôi thiết kế một  
Ontology thử nghiệm. Sử dụng Ontology này, chúng tôi đưa ra cách trích rút câu trả  
lời cho hệ thống hỏi đáp này. Các đánh giá cho thấy hệ thống làm việc tốt khi trả lời  
các câu hỏi được đưa ra.  
Keywords: hỏi đáp, ánh xạ Ontology, trích chọn câu trả lời.  
ii  
 
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology  
Nguyễn Quốc Đại  
Mục lục  
iii  
 
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology  
Nguyễn Quốc Đại  
iv  
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology  
Nguyễn Quốc Đại  
Danh sách từ viết tắt  
STT  
Kí hiu  
NLP  
Từ tiếng Anh  
Natural Language Processing Xử lý ngôn ngữ tự nhiên  
Question Answering Hỏi đáp  
Ngữ nghĩa  
1
2
3
QA  
API  
Application program interface Giao diện chương trình ứng dụng  
vi  
 
Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology  
Nguyễn Quốc Đại  
Danh sách hình vẽ  
vii  
 
Chương 1. Giới thiệu  
Nguyễn Quốc Đại  
Chƣơng 1.  
Giới thiệu  
Trong tìm kiếm thông tin, hỏi đáp (Question Answering QA) là nhiệm vụ tự  
động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. Các câu hỏi trong một miền ứng  
dụng cụ thể có thể được trả lời thông qua các kỹ thuật xử lý ngôn ngữ tự nhiên. Nhưng  
các hệ thống gặp phải vấn đề: làm thế nào mô tả được tri thức trong miền ứng dụng.  
Các nghiên cứu hiện nay tập trung vào sử dụng Ontology làm cơ sở tri thức, do  
Ontology có khả năng mô tả một tập các khái niệm trong miền cụ thể và các mối quan  
hệ giữa các khái niệm. Hiện nay, nhu cầu tìm kiếm thông tin tiếng Việt dưới dạng hỏi  
đáp là rất lớn nhưng các hệ thống hỏi đáp cho tiếng Việt còn chưa có nhiều nghiên cứu  
ứng dụng cụ thể.  
Trong khóa luận này, chúng tôi đề xuất ―Phƣơng pháp xây dựng hệ thống hỏi  
đáp tiếng Việt dựa trên Ontology‖. Phương pháp của chúng tôi có thể áp dụng cho  
nhiu miền tri thức. Dựa vào phương pháp của mình, chúng tôi xây dựng một hệ thống  
thử nghiệm trên miền tri thức trường đại học, cụ thể là miền tri thức vĐi học  
Công Nghệ. Chúng tôi thiết kế một Ontology thử nghiệm cho miền tri thức này. Các  
câu hỏi liên quan đến miền này sau khi đã phân tích [1], được ánh xạ vào trong  
Ontology đã thiết kế. Rồi từ đó, chúng tôi hình thành nên các bộ mô tả tương ứng với  
Ontology. Tiếp đến, chúng tôi trích chọn ra câu trả lời ngữ nghĩa tốt nhất có thể cho  
câu hỏi của người dùng. Những kết luận và đánh giá về hệ thống hỏi đáp tiếng Việt  
cho thấy hệ thống hoạt động tốt với các câu hỏi được hỏi.  
Phần còn lại của khóa luận được chia thành:  
Chƣơng 2: Chúng tôi giới thiệu tổng quan về hệ thống hỏi đáp dựa trên  
Ontology, và những khái niệm liên quan. Ngoài ra, chúng tôi đưa ra một vài tìm hiểu  
đối với các hệ thống hỏi đáp hiện nay.  
1
 
Chương 1. Giới thiệu  
Nguyễn Quốc Đại  
Chƣơng 3: Chúng tôi giới thiệu các khái niệm cơ bản vOntology, ngôn ngữ  
Web Ontology (Web Ontology Language – OWL). Đồng thời, chúng tôi cũng giới  
thiệu về Sesame, được sử dụng để lưu trữ các Ontology OWL cho miền ứng dụng cụ  
thể.  
Chƣơng 4: Chúng tôi đưa ra kiến trúc của hệ thống, các thành phần xử lý cho hệ  
thống. Tiếp đến, chúng tôi giới thiệu cách thiết kế một Ontology OWL cho một miền  
tri thức trường Đại học Công Nghệ. Dựa vào Ontology này, chúng tôi mô tả chi tiết để  
trích rút câu trả lời ngữ nghĩa tốt nhất có thể cho một câu hỏi.  
Chƣơng 5: Chúng tôi đưa ra những đánh giá thực nghiệm của hệ thống.  
Chƣơng 6: Kết luận lại nội dung khóa luận, và những kết quả mà hệ thống hỏi  
đáp tiếng Việt dựa trên Ontology đã đạt được.  
2
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
Chƣơng 2.  
Tổng quan về hỏi đáp  
2.1 Tng quan về hệ thống hỏi đáp dựa trên Ontology  
Trong tìm kiếm thông tin, hỏi đáp (Question Answering – QA) là nhiệm vụ tự  
động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. Để tìm câu trả lời cho một câu hỏi,  
một chương trình máy tính có thể sử dụng một cơ sở dữ liệu tiền cấu trúc hoặc sử dụng  
một tập các văn bản ngôn ngữ tự nhiên.  
Trong khoa học máy tính, Ontology là biểu diễn hình thức của một tập các khái  
niệm trong miền cụ thể và các mối quan hệ giữa các khái niệm. Ontology được dùng  
để suy luận các thuộc tính trong miền, có thể được dùng để định nghĩa miền [56].  
Đa số các phương pháp phổ biến trong việc xác định thông tin cần thiết là sử  
dụng công cụ tìm kiếm. Với câu hỏi đầu vào, các công cụ này đưa ra câu trả lời đơn  
giản với việc so khớp các từ khóa. Xử lý ngôn ngữ tự nhiên (Natural Language  
Processing NLP) được sử dụng để nhận ra cấu trúc cú pháp và ngữ nghĩa của câu  
hỏi, và các tài liệu thích hợp chứa đựng các câu trả lời cho câu hỏi sẽ được trả lại. Đấy  
là đối với các câu hỏi đơn giản, nhưng các công cụ này sẽ khó có thể thực hiện được  
với các câu hỏi phức tạp gồm các câu hỏi how, why hoặc what.  
Vấn đề chính ở đây là các ứng dụng hỏi đáp duy trì việc hoàn thiện công cụ tìm  
kiếm dựa vào từ khóa cho đến khi đòi hỏi NLP hiểu cấu trúc ngữ nghĩa cũng như cấu  
trúc cú pháp của câu hỏi. Việc biểu diễn rõ ràng các ngữ nghĩa của dữ liệu trong miền  
ứng dụng cụ thể tạo khả năng cung cấp một dịch vụ ở mức độ mới.  
Phân tích và nghiên cứu những suy luận trong Ontology cho hệ thống hỏi đáp tạo  
khả năng mô tả ngữ nghĩa cho miền ứng dụng. Trong Ontology, các thuật ngữ cùng  
với quan hệ được định nghĩa rõ ràng trong miền cụ thể đã cho phép chia sẻ và sử dụng  
lại tri thức. Với ưu điểm được đưa ra, Ontology được sử dụng để miêu tả một miền  
3
   
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
ứng dụng cụ thể. Các khái niệm và các mối quan hệ được định nghĩa trong miền cùng  
với ý nghĩa của chúng được sử dụng một cách nhất quán trong miền cụ thể đó.  
Hình 2.1. Tng quan về hệ thống hỏi đáp dựa trên Ontologies [2]  
Dựa vào kiến trúc trong hình 2.1, Ontology xác định các khái niệm có liên quan,  
bằng phương pháp tiếp cận lai, hoặc kết hợp các phương pháp cú pháp và các phương  
pháp thống kê được sử dụng để trích ra các khái niệm từ các tài liệu.  
Phương pháp dựa vào cú pháp phát hiện mẫu các danh từ ghép và miền cấu trúc  
cụ thể. Phát hiện mẫu phù hợp với các phương pháp trích chọn khái niệm khác. Các  
cách tiếp cận thống kê cho việc trích chọn khái niệm thường nhận biết sự xuất hiện của  
các từ vựng trong một hoặc nhiều tập các tài liệu xác định. Một khái niệm xuất hiện  
nhiu trong một tài liệu, thì khái niệm này có ý nghĩa và được trích chọn.  
Gán nhãn từ loại được dùng để cải tiến việc nhận dạng các khái niệm. Các từ  
được gán nhãn luôn dựa vào độ ưu tiên được trích chọn. Các từ loại khác chẳng hạn  
như giới từ liên kết, giới từ nhận dạng sẽ bị loại trừ vì chúng không mang thông tin về  
miền khái niệm. Các khái niệm được hình thức hóa sẽ thích hợp để dễ dàng cấu trúc  
4
 
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
nên Ontology. Tuy nhiên, các khái niệm được tách riêng là vô nghĩa do không thể  
truyền đạt nội dung quan trọng. Do đó, việc trích chọn quan hệ giữa các khái niệm  
dưới dạng quan hệ chủ thể -quan hệ - đối tượng.  
Mối quan hệ ngữ nghĩa có thể được nhận biết với sự hỗ trợ của WordNet.  
WordNet là một cơ sở dữ liệu từ vng trực tuyến cùng với một tập các nghĩa. Wordnet  
được sử dụng để tìm kiếm quan hệ (liên kết is-a part-of) giữa các khái niệm đối với  
các từ đồng âm, các từ đồng nghĩa để giảm sự dư thừa về nhãn. Quan hệ thường biểu  
diễn dưới dạng các động từ, có thể được trích ra bởi so khớp động từ và các khái  
niệm trong câu.  
5
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
2.2 Khái niệm về hỏi đáp (Question Answering – QA)  
2.2.1 Khái niệm hỏi đáp  
Trong tìm kiếm thông tin, hỏi đáp (Question Answering – QA) là nhiệm vụ tự  
động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. Để tìm câu trả lời cho một câu hỏi,  
một chương trình máy tính có thể sử dụng một cơ sở dữ liệu tiền cấu trúc hoặc sử dụng  
một tập các văn bản ngôn ngữ tự nhiên.  
Nghiên cu QA nhằm mục đích xử lý các loại câu hỏi: sự kiện, danh sách, định  
nghĩa, các câu hỏi như thế nào, tại sao, các câu hỏi mang tính giả thuyết, các câu hỏi  
hạn chế về ngữ nghĩa và câu hỏi sử dụng đa ngôn ngữ. Có hai khái niệm trong hỏi đáp  
là hỏi đáp miền đóng và hỏi đáp miền mở.  
Hỏi đáp miền đóng (closed-domain) xử lý các câu hỏi trong một miền cụ thể, và  
có thể xem như một nhiệm vụ đơn giản vì các hệ thống xử lý ngôn ngữ tự nhiên  
(Natural Language Processing – NLP) có khả năng khai thác tri thức miền cụ thể được  
biểu diễn bởi Ontologies.  
Hỏi đáp miền mở (open-domain) xử lý các câu hỏi có nội dung về mọi thứ và chỉ  
có thể dựa trên các Ontology tổng quát và tri thức tổng hợp từ khắp nơi trên thế giới.  
Nói cách khác, các hệ thống này thường lưu trữ một lượng lớn dữ diệu có sẵn để từ đó  
trích chọn ra đáp án cho câu hỏi tìm kiếm.  
Hỏi đáp (Question Answering – QA) cần sử dụng nhiều phương pháp NLP phức  
tạp hơn các tìm kiếm thông tin phục hồi tài liệu. Do đó, các công cụ tìm kiếm ngôn  
ngữ tự nhiên được đánh giá vượt xa các công cụ tìm kiếm hiện nay.  
Trong mục 2.3, chúng tôi đưa ra tổng quan một số hệ thống hỏi đáp được phân  
loại dựa trên miền đóng và miền mở.  
2.2.2 Kiến trúc hỏi đáp  
Hệ thống QA đầu tiên phát triển vào những năm 1960 [64]. Các hệ thng này về  
cơ bản là các giao diện ngôn ngữ tự nhiên đối với các hệ chuyên gia - những hệ thống  
được xây dựng riêng cho từng miền ứng dụng cụ thể. Nguợc lại, các hệ thống QA  
ngày nay lại sử dụng các tài liệu văn bản làm nguồn tri thức cơ bản và kết hợp với  
6
     
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
nhiu kỹ thuật NLP khác nhau để tìm ra các câu trả lời. Các hệ thống QA hiện nay  
thường bao gồm một module phân loại câu hỏi, giúp xác định loại câu hỏi và loại câu  
trả lời tương ứng. Sau khi phân tích câu hỏi, hệ thống sẽ sử dụng một số module áp  
dụng các kỹ thuật NLP phức tạp lên một lượng văn bản đã được giảm bớt nhờ module  
phân tích câu hỏi. Tiếp theo, một module phục hồi tài liệu sử dụng các công cụ tìm  
kiếm, module này dùng để nhận dạng tài liệu hoặc đoạn văn bản trong tập tài liệu có  
khả năng chứa câu trả lời trong đó. Sau đó, một bộ lọc sẽ chọn sẵn một đoạn văn bản  
ngắn có chứa chuỗi kí tự cùng kiểu với câu trả lời được chờ đợi. Ví dụ, nếu câu hỏi là:  
“Who invented Penicillin?”  
Bộ lọc trả lại văn bản có chứa tên người. Cuối cùng, một module trích chọn câu  
trả lời tìm kiếm thêm các liên kết trong văn bản để quyết định xem trong số các đáp án  
đã đuợc lọc ra thì đâu là đáp án thực sự.  
2.2.3 Các phƣơng pháp hỏi đáp  
Hỏi đáp (Question Answering – QA) phụ thuộc rất nhiều vào tập tài liệu tìm kiếm  
có tốt hay không. Nếu hệ thống không tìm ra được các tài liệu có chứa câu trả lời thì  
gần như không có hệ thống QA nào thực hiện được. Vì vậy, quy mô tập tài liệu càng  
lớn thì càng có ích cho quá trình trả lời câu hỏi, trừ trường hợp lĩnh vực mà câu hỏi đề  
cập đến khác hoàn toàn so với tài liệu sẵn có.  
Trong các tập dữ liệu lớn, khái niệm về dư thừa dữ liệu là số lượng lớn thông tin  
có khả năng được diễn đạt theo nhiều cách khác nhau trong các tài liệu và ngữ cảnh  
khác nhau. Điều này dẫn đến 2 lợi ích sau:  
(1) Thông tin thích hợp xuất hiện duới nhiều hình thức khác nhau sẽ giúp hệ  
thống QA thực hiện các kỹ thuật NLP phức tạp một cách dễ dàng hơn.  
(2) Các câu trả lời đúng có thể được lọc ra bởi câu trả lời thích hợp sẽ xuất hiện  
nhiu lần hơn trong các tài liệu so với các trường hợp trả lời không chính xác.  
Phân tích bề nổi: Một vài phương pháp trả lời câu hỏi sử dụng các kỹ thuật dựa  
vào tkhóa để xác định vị trí của các đoạn văn bản hay câu đáng chú ý trong các tài  
liệu đuợc tìm kiếm. Sau đó, hệ thống tìm kiếm dựa trên sự có mặt của đáp án cần tìm  
đang nằm trong những đoạn văn bản hay câu đó. Việc sắp xếp các đáp án được thực  
hiện ngay sau đó dựa vào các đặc điểm cú pháp của câu hay đoạn văn bản, chẳng hạn  
7
 
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
dựa vào trật tự từ, vị trí của câu hay đoạn, và những điểm tương đồng khác của các câu  
hay đoạn này so với câu hỏi tìm kiếm.  
Khi sử dụng những tập dữ liệu lớn với sự dư thừa dữ liệu tốt, nhiều hệ thống  
dùng các mẫu để tìm ra đáp án cuối. Nếu đặt ra câu hỏi:  
“What is a cat?”  
Hệ thống sẽ tìm ra chuỗi con “What is a X?” và rồi thực hiện quá trình tìm kiếm  
các tài liệu bắt đầu với “X is a Y”. Phương pháp này thường làm việc tốt đối với các  
câu hỏi đơn giản nhằm tìm kiếm các thông tin thực tế như tên, ngày tháng, địa điểm và  
số luợng.  
Phân tích chiều sâu: Những trường hợp phương pháp dựa vào từ khóa không  
đáp ứng được, thì hệ thng dùng các xử lý phức tạp như phân tích cú pháp, phân tích  
ngữ nghĩa và ngữ cảnh của câu hỏi. Dựa vào đó, hệ thống tách ra hoặc cấu tạo nên câu  
trả lời. Những kỹ thuật này có thể bao gồm kỹ thuật nhận dạng thực thể có tên, phương  
pháp nhận biết mối quan hệ, phân tích từ đồng nghĩa, các kỹ thuật biến đổi cú pháp,  
phương pháp loại bỏ nhập nhằng về nghĩa của từ, phương pháp biến đổi hình thái  
logic,… Những hệ thống này cũng sử dụng tri thức trong các Ontology để suy luận  
thông qua các khái niệm và các liên kết ngữ nghĩa.  
Nhiều dạng câu hỏi khó như dạng câu hỏi why, how, các câu hỏi giả định, câu hỏi  
giới hạn về không gian và thời gian, các câu hỏi hội thoại, các câu hỏi nhập nhằng cần  
tất cả những phương pháp phân tích chiều sâu như trên để hệ thống nhận biết câu hỏi.  
Tương tự như vậy, những đoạn văn bản phức tạp hoặc nhập nhằng cũng cần được áp  
dụng nhiều phương pháp NLP để nhận ra được nội dung văn bản.  
Hỏi đáp (QA) thống kê giới thiệu các module xử lý câu hỏi dựa vào thống kê và  
trích chọn ra câu trả lời. Nhiu công cụ NLP như kỹ thuật nhận dạng thực thể có tên,  
phân tích cú pháp, gán nhãn từ loại, nhận dạng ranh giới câu và phục hồi tài liệu có thể  
sử dụng như là các ứng dụng thống kê.  
Mục dưới đây, chúng tôi tìm hiểu một số hệ thống hỏi đáp dựa vào phân loại  
miền đóng, miền mở, giới thiệu vài hệ thống hỏi đáp có sử dụng Ontology. Chúng tôi  
mô tả qua một số ưu nhược điểm của các hệ thống đó, đồng thời cũng giới thiệu qua  
các phương pháp mà các hệ thống này sử dụng để tìm kiếm câu trả lời cho câu hỏi.  
8
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
2.3 Giao diện ngôn ngữ tự nhiên miền đóng  
Giao diện ngôn tự nhiên (Natural Language Interface) miền đóng là các hệ thống  
hỏi đáp dựa trên cơ sở dữ liệu. Các câu hỏi được đặt ra dưới dạng ngôn ngữ tự nhiên,  
từ đó truy vấn vào cơ sở dữ liệu. Phần lớn các hệ thống NLIDB (Natural Language  
Interface to Database) đầu tiên được tạo ra với mt cơ sở dữ liệu đặc biệt. Do vậy, các  
thống hỏi đáp này không thể sửa đổi dễ dàng để sử dụng kèm với các cơ sở dữ liệu  
khác, và cũng khó áp dụng đối với các min ng dụng khác. Một vài hệ thng NLIDB  
sử dụng kỹ thuật so khớp mẫu, Androutsopoulos [6] đưa ra ví dụ câu hỏi có chứa từ  
capital‖ theo sau tên nước, thì hệ thống này đưa ra tên thủ đô tương ứng với tên nước  
đó, từ đó tìm câu trả lời cho câu hỏi:  
“what is the capital of Italy?”,  
print the capital of Italy”, hoc  
“Could you please tell me the capital of Italy”.  
Các phương pháp thường sử dụng trong các hệ thống khác thường dựa vào tính  
tương đồng về ngữ nghĩa hoặc dựa vào thống kê. Ví dụ, FAQ Finder [12] là một hệ  
thống trả lời câu hỏi ngôn ngữ tự nhiên, trong đó nó sẽ sử dụng các file có sẵn của  
FAQ để làm cơ sở tri thức (Knowledge Base – KB). Hệ thống này cũng sử dụng  
WordNet để nâng cao khả năng tìm kiếm câu trả lời thích hợp cho các câu hỏi được  
đưa ra. FAQ Finder [12] sử dụng hai phương pháp đo: sự tương đồng vngữ nghĩa và  
sự tương đồng dựa vào thống kê. Tuy nhiên, phương pháp thống kê có vkhông hữu  
ích vì phương pháp này thuờng chỉ có ích đối với các tài liệu dài với lượng dữ liệu lớn,  
đủ các từ cho so sánh thống kê [12]. Còn phương pháp đo tương đồng về ngữ nghĩa  
lại dựa vào các mối liên hệ giữa câu hỏi của người dùng và câu trả lời. Mối quan hệ  
ngữ nghĩa có thể được nhận biết với sự hỗ trợ của WordNet. WordNet là một cơ sở dữ  
liệu từ vựng trực tuyến cùng với một tập các nghĩa. Wordnet được sử dụng để tìm  
kiếm quan hệ (liên kết is-a part-of) giữa các khái niệm đối với các từ đồng âm, các  
từ đồng nghĩa. Vấn đề chính trong phương pháp đo tương đồng về ngữ nghĩa không  
thể xử lý được các từ vn không có trong KB.  
Các thế hệ NLIDB tiếp theo sử dụng ngôn ngữ biểu diễn trung gian. Ngôn ngữ  
này phản ánh được nghĩa của câu hỏi người dùng dựa theo ngôn ngữ bậc cao và độc  
lập với cấu trúc cơ sở dữ liệu [6]. Chẳng hạn, hệ thống ngôn ngữ tự nhiên đối với cơ  
9
 
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
sở dữ liệu dựa trên ngữ nghĩa học hình thức [19], đã tạo ra phân biệt rõ ràng giữa thao  
tác đầu và thao tác cuối trong quá trình xử lý ngôn ngữ tự nhiên (Natural Language –  
NL). Thao tác đầu cung cấp một ánh xạ giữa các câu tiếng Anh tới các biểu thức ngữ  
nghĩa học, và thao tác cuối ánh xạ các biểu thức này vào trong các biểu thức ý nghĩa  
đối với miền câu hỏi. TEAM [41] là một hệ thống NLIDB thí nghiệm, linh hoạt được  
phát triển vào những năm 1980. Hệ thống hỏi đáp TEAM, bao gồm hai thành phần  
chính: (1) thành phần ánh xạ các biểu thức NL thành các biểu diễn hình thức, (2) thành  
phần chuyển đổi những biểu diễn này thành các câu lệnh đối với cơ sở dữ liệu. TEAM  
[41] to ra sự phân tách giữa quá trình ngôn ngữ và quá trình ánh xạ lên KB.  
PRECISE [47] là chương trình ánh xạ các câu hỏi tới truy vấn SQL tương ứng  
bởi việc nhận dạng các lớp câu hỏi đơn giản. Các câu hỏi là một tập các cặp thuộc tính  
– giá trị cùng với một quan hệ. Mỗi thuộc tính trong cơ sở dữ liệu được liên kết với  
một wh-value (what, when, where,…). Trong chương trình PRECISE, một bộ từ vựng  
được sử dụng để tìm các từ đồng nghĩa. Tuy nhiên, trong chương trình PRECISE, việc  
tìm một ánh xạ dựa theo từ vng cho cơ sở dữ liệu đòi hỏi mọi từ vng phải riêng biệt  
với nhau. Hệ thống này không thể phân tích được ngữ nghĩa các câu hỏi có chứa các từ  
mà hệ thống chưa biết, vì thế chương trình không thể xử lý được câu hỏi này. Nói cách  
khác, chương trình PRECISE sẽ không trả lời các câu hỏi mà chứa những từ không có  
sẵn trong từ điển của nó.  
2.4 Các hệ thống QA miền mở  
Các ứng dụng QA dành cho văn bản thường gồm 2 bước, được trích dẫn bởi  
Hirschman [26]: (1) Nhận dạng các kiểu ngữ nghĩa của đối tượng được tìm kiếm bởi  
câu hỏi, (2) Xác định các ràng buộc bổ sung cho đối tượng trả lời. Các ràng có thể là  
các từ khóa (số lượng từ khóa có thể được khuếch đại do việc sử dụng các từ đồng  
nghĩa hoặc các biến thể hình thái) dùng để so khớp đối với các câu trả lời. Các ràng  
buộc cũng có thể là các mối quan hệ cú pháp hoặc ngữ nghĩa giữa một đối tượng trả  
lời và các đối tượng khác trong câu hỏi. Do vậy, nhiều hệ thống khác đã hình thành  
phân cấp loại câu hỏi dựa vào dạng câu trả lời tìm kiếm.  
Trong chương trình LASSO [45], phân cấp loại câu hỏi được hình thành từ việc  
phân tích dữ liệu huấn luyện TREC-8 (Text Retrieval Conference 8). Khi nhận được  
10  
 
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
một câu hỏi, LASSO tự động tìm kiếm: (a) loại câu hỏi (what, why, who, how, where),  
(b) loại câu trả lời (person, location…), (c) trọng tâm câu hỏi, là thông tin chính được  
yêu cầu bởi câu hỏi. Ngoài ra, phân cấp loại câu hỏi còn giúp nhận dạng từ khóa trong  
câu hỏi. Đôi khi, nhiều từ có trong câu hỏi sẽ không xuất hiện lại trong câu trả lời. Các  
hệ thống miền mở cố gắng tìm kiếm các từ đồng nghĩa, cùng với các biến thể hình thái  
của từ đồng nghĩa đó cho các thuật ngữ hoặc các từ khóa.  
Trong TREC-9 [18], hệ thống FALCON được mô tả bởi Harabagiu et al. [25] cho  
câu trả lời ngữ nghĩa được ánh xạ bởi công cụ nhận dạng thực thể có tên. Nếu khái  
niệm trong câu hỏi cho biết loại câu trả lời, hệ thống FALCON sẽ được ánh xạ câu hỏi  
vào trong phân loại câu trả lời. Tất cả các danh từ (và các biến đổi hình thái từ vựng)  
có liên quan tới các khái niệm xác định loại câu trả lời thì đều được nhận biết thông  
qua các từ khóa. FALCON đưa ra câu trả lời được lưu trữ nếu có một câu hỏi tương tự  
đã được hỏi trước đó.  
START [33] chú trọng vào các câu hỏi về địa lý và thông tin phòng thí nghiệm  
của MIT. START sử dụng gọi bộ ba là đối tượng – thuộc tính – giá trị‖. Đây là một  
hệ thống lớn được đánh giá cao trong các hệ thống hỏi đáp (Question Ansering QA)  
bởi khả năng phân tích và tổng hợp câu hỏi. Với một câu hỏi ở dạng phức tạp, START  
có cơ chế chia câu hỏi này ra thành những câu hỏi nhỏ, mỗi câu hỏi nhỏ sẽ tìm được  
câu trả lời trực tiếp trong cơ sở dữ liệu. Sau đó START tổng hợp kết quả từ những câu  
trả lời của các câu hỏi nhỏ đó. Ngoài ra START còn đặc biệt hữu dụng trong việc tìm  
ra câu trả lời bởi khả năng phân tích ngữ nghĩa rất tốt của nó.  
Litkowski [38] đưa ra hệ thống DIMAP, hệ thống này trích chọn các bộ ba quan  
hệ ngữ nghĩa sau khi tài liệu được phân tích cú pháp và cây cú pháp được kiểm tra.  
Các bộ ba trong DIMAP sẽ được lưu lại trong một cơ sở dữ liệu với mục đích dùng để  
trả lời các câu hỏi. Bộ ba quan hệ ngữ nghĩa được đề cập ở trên bao gồm các đối tượng  
(SUBJ, OBJ, TIME, NUM, ADJMOD), có một quan hệ ngữ nghĩa mô tả lại vai trò của  
đối tượng, và một từ trong câu có liên quan tới đối tượng này. Một bộ ba thường tương  
đương với một hình thái logic. Các đối tượng là thành phần chủ chốt của các bộ ba  
trong DIMAP, các thành phần quan trọng (các danh từ chính, động từ chính và bất cứ  
tính từ hoặc danh từ bổ nghĩa nào) đuợc xác định cho mỗi loại câu hỏi. Hệ thống phân  
các câu hỏi ra làm sáu loại câu hỏi: thời gian, địa điểm, ai, cái gì, kích cỡ và số lượng.  
11  
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
PiQASso [8] sử dụng một phép phân loại câu hỏi để phân loại các câu hỏi v:  
người, tổ chức, thời gian, số lượng và vị trí (là các loại cơ bản). Ngoài ra, PiQASso  
còn có thêm 23 loại danh từ trong WordNet. Loại câu trả lời có thể được kết hợp với  
các loại danh từ này. Ví dụ, trong câu hỏi có chứa ―who‖, ―where‖ thì loại câu trả lời  
sẽ là về ―person‖ hoặc ―organization‖. Các loại câu hỏi có thể được xác định trực tiếp  
từ các từ để hỏi: ―who‖, ―when‖, ―where‖. Có nhiều trường hợp cần thêm các thông tin  
bổ sung khác. Ví dụ, với các câu hỏi ―howthì loại câu hỏi được tìm thấy từ tính từ  
theo sau từ ―how(how many‖ hoặc ―how much‖) để chỉ số luợng, hoặc ―how long‖,  
―how old‖ để chỉ thời gian, v.v… Loại câu hỏi ―what (noun)‖ thường là ngữ nghĩa của  
danh từ đã được xác định bởi WNSense. WNSense là một công cụ dùng cho việc phân  
loại nghĩa của từ. Các câu hỏi thuộc dạng ―what (verb)‖ có cùng loại câu trả lời với đối  
tượng của động từ. Các câu hỏi ―what is‖ cũng dựa vào việc xác định ngữ nghĩa của từ  
để hỏi. Tuy nhiên, PiQASso nhận định không phải lúc nào cũng có thể chỉ cần tìm ra  
ngữ nghĩa của từ, bởi vì tình trạng thiếu ngữ cảnh không cho phép xác định nghĩa  
chính xác của từ. Vì vậy, mọi đối tượng cũng có thể được chấp nhận như là các câu trả  
lời cho các câu hỏi mang tính định nghĩa, miễn là chúng xuất hiện như là một chủ thể  
trong một câu dạng ―is-a‖. Nếu xác định được loại câu trả lời cho một câu hỏi thì nó sẽ  
được chuyển qua bộ lọc để so khớp quan hệ trong quá trình phân tích.  
2.5 Ontologies trong QA  
Nhiều hệ thống đơn giản dùng một Ontology như một cơ chế hỗ trợ cho việc mở  
rộng câu hỏi tìm kiếm trong quá trình tìm kiếm thông tin. Basili et al. [9] có đề cập đến  
tính khả thi của việc xây dựng một hệ trống QA dựa vào Ontology trong ngữ cảnh của  
một web ngữ nghĩa. Các tác giả đã nghiên cứu phương pháp này trên ngữ cảnh một dự  
án mang tên MOSES, với mục tiêu phát triển một phuơng pháp luận dựa vào Ontology  
để tìm kiếm, tổ chức, bảo trì và thích hợp với những nội dung Web có cấu trúc vngữ  
nghĩa. Basili et al. [9] nghiên cứu xem phương pháp dựa trên Ontology này có thể hỗ  
trợ cho hỏi đáp không và nếu có thì bằng cách nào. Basili et al. [9] cũng đưa ra một  
cách phân loại các câu hỏi, từ đó hệ thống được trợ giúp và xem xét nội dung câu hỏi ở  
mức độ lớn đối với các khái niệm và các mối quan hệ suy ra từ Ontology.  
Phương pháp dựa vào tri thức [14] bổ sung các văn bản trực tuyến với một thành  
phần QA dựa vào tri thức. Hệ thống suy ra câu trả lời tương ứng với những câu hỏi  
12  
 
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
của người dùng mà những câu hỏi đó ở bên ngoài phạm vi của văn bản được ghi từ  
trước trong hệ thống. Tri thức được lưu trữ trong một cơ sở tri thức và được cấu trúc  
như là một Ontology của miền. Giống như nhiều hệ thống hỏi đáp, [14] cũng có một  
tập nhỏ gồm các loại câu hỏi chung để biết làm thế nào để trả lời. Các loại câu hỏi  
được liên kết với các khái niệm trong KB. Khi một khái niện đưa ra, các loại câu hỏi  
thích hợp hoặc tương ứng chính là loại câu hỏi gắn liền với khái niệm của chính câu  
hỏi đó. Các câu hỏi cung cấp ngữ cảnh để hệ thống dựa vào đó tìm ra đáp án cho câu  
hỏi tìm kiếm.  
Các hệ thng hỏi đáp (Question Answering – QA) cho phép người dùng đưa ra  
một câu hỏi dưới dạng ngôn ngữ tự nhiên và nhận được câu trả lời ngắn gọn, trong  
nhiu trường hợp còn có kèm theo ngữ cảnh cụ thể. AquaLog [3] là một hệ thống QA  
ngôn ngữ tự nhiên dựa trên Ontology, và dựa vào tri thức đã được mã hóa trong  
Ontology. Hệ thống này cũng dựa vào chức năng ngữ nghĩa học để loại bỏ nhập nhằng  
về nghĩa của các câu hỏi và đưa ra các câu trả lời. AquaLog sử dụng biểu diễn trung  
gian trong suốt quá trình xử lý, từ việc biểu diễn câu hỏi người dùng đến việc biểu  
diễn thành một bộ mô tả tương ứng với Ontology. Trong AquaLog, sự nhập nhằng của  
NL được tính đến, vì thế, nếu giai đoạn phân tích câu hỏi không có khả năng loại bỏ  
tính nhập nhằng này thì nó vẫn sẽ xuất hiện trong giai đoạn tiếp theo. AquaLog có khả  
năng lập luận vcu trúc Ontology để tạo ý nghĩa cho các lớp hoc các mối quan hệ.  
AquaLog phân loại câu hỏi căn cứ trên loại bộ ba là biểu diễn ngữ nghĩa của câu hỏi.  
Trong khi đó, hầu hết các hệ thống QA miền mở lại phân loại các câu hỏi theo mục  
tiêu trả lời. Aqualog tìm kiếm các mối quan hệ giữa các thuật ngữ, hoặc giữa một thuật  
ngữ với giá trị của nó. AquaLog dùng một bộ ba cho một mối quan hệ giữa các thuật  
ngữ, cho dù mối quan hệ này không rõ ràng.  
Chúng tôi tin tưởng vào các ưu điểm chính của một hệ thống hỏi đáp dựa trên  
Ontology trong Web ngữ nghĩa. Khi đã so sánh các loại hệ thống hỏi đáp khác nhau,  
hệ thống hỏi đáp dựa trên Ontology có thể sử dụng miền tri thức được cung cấp bởi  
Ontology để xử lý các từ không được tìm thấy trong cơ sở tri thức và loại bỏ nhập  
nhằng về nghĩa của từ. Do vậy, chúng tôi đưa ra hệ thống hỏi đáp cho tiếng Việt dựa  
trên Ontology (chương 4). Trong chương 3, chúng tôi giới thiệu các khái niệm liên  
quan tới Ontology, các khái niệm về Sesame, cấu hình Sesame server để lưu trữ  
Ontology cho hệ thống của chúng tôi.  
13  
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
Chƣơng 3.  
Ontology Sesame  
Chúng tôi sẽ đưa ra các khái niệm cơ bản liên quan tới Ontology (mục 3.1), ngôn ngữ  
Web Ontology (mục 3.2). Sau đó, chúng tôi giới thiệu các khái niệm liên quan tới  
Sesam, cấu hình Sesame server để lưu trữ các Ontology cho hệ thống (mục 3.3).  
3.1 Khái niệm về Ontology  
3.1.1 Khái niệm  
Trong khoa học máy tính, Ontology là biểu diễn hình thức của mt tập các khái  
niệm trong miền cụ thể và các mối quan hệ giữa các khái niệm. Ontology được dùng  
để suy luận về các thuộc tính của miền, có thể được dùng để định nghĩa miền [56].  
Theo lý thuyết, Ontology là một đặc tả hình thức, rõ ràng của một khái niệm  
được dùng chung [56]. Một Ontology cung cấp một bảng từ vng dùng chung, bảng từ  
vựng này có thể được sử dụng để mô hình hóa một miền, cung cấp các đối tượng và  
(hoặc) các khái niệm đang có, và các thuộc tính cùng với các mối quan hệ của chúng.  
Ontologies được sử dụng trong trí tuệ nhân tạo, Web ngữ nghĩa, công nghệ phần  
mềm, trong tin sinh, thư viện học, và kiến trúc thông tin như một dạng biểu diễn tri  
thức về thế giới hoặc một về một miền ứng dụng cụ th.  
3.1.2 Tổng quan về Ontology  
Ontology là mô hình mô tả tri thức về min ng dụng cụ thể, biu diễn các đối  
tượng, các khái niệm, cùng với các thuộc tính và các mối quan hệ.  
14  
       
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
3.1.2.1 Các thành phần của Ontology  
Ontologies hiện nay có chung các cấu trúc giống nhau và không quan tâm tới  
ngôn ngữ mà chúng được thể hiện. Hầu hết các Ontology miêu tả các thực thể (các đối  
tượng), các lớp (các khái niệm), các thuộc tính và các mối quan hệ.  
Các thành phần phổ biến của các Ontologies bao gồm :  
- Các thực thể: các đối tượng (các đối tượng cơ bản).  
- Các lớp: các khái niệm về các đối tượng, hoặc các loại vật chất.  
- Các thuộc tính: các đặc tính, đặc trưng, các đặc điểm hoặc các tham số mà  
các đối tượng (và các lớp) có thể có.  
- Các mối quan hệ: các cách để các lớp, các thực thể có thể được liên kết tới  
các lớp (hoặc thực thể) khác.  
- Các thuật ngữ chức năng: các cấu trúc phức tạp được hình thành từ các  
quan hệ đã biết, sử dụng thuật ngữ thích hợp trong một phát biểu.  
- Các giới hạn: các mô tả được phát biểu phải chính xác hợp lệ.  
- Các quy tắc: các phát biểu dưới dạng mệnh đề if – then (điều kiện – kết  
quả) miêu tả suy luận logic.  
- Các tiền đề: các khẳng định (bao gồm các quy tắc) trong một hình thức  
logic và đồng thời bao gồm toàn bộ lý thuyết mà Ontology miêu tả trong  
miền ứng dụng của nó.  
- Các sự kiện: các thay đổi của các thuộc tính hoặc các mối quan hệ.  
Các Ontology thường được mã hóa bởi các ngôn ngữ Ontology.  
3.1.2.2 Các thực thể  
Các thực thể (các đối tượng) là các thành phần cơ bản, mức cơ sở của một  
Ontology. Các thực thể trong một Ontology bao gồm các đối tượng cụ thể như người,  
động vật, bàn ghế, xe ô tô, … cũng như các đối tượng trừu tượng chẳng hạn như các  
số, các từ. Một Ontology có thể không cần bất kỳ thực thể nào, nhưng mục đích của  
Ontology là đưa ra phương pháp phân loại các thực thể, ngay cả khi những thực thể  
này không là thành phần trong Ontology.  
15  
   
Chương 3. Ontology – Sesame  
3.1.2.3 Các lp  
Nguyễn Quốc Đại  
Các lớp có thể được định nghĩa như là một sự mở rộng (extension) hoặc như một  
độ tăng cường (intension) [58]. Theo như định nghĩa mở rộng, các lớp là các nhóm,  
các bộ hoặc các tập hợp các đối tượng trừu tượng. Theo định nghĩa độ tăng cường, các  
lớp là các đối tượng trừu tượng được định nghĩa bởi các dạng giá trị, các dạng giá trị  
này là các ràng buộc cho phần tử của lớp. Trong định nghĩa mở rộng cho thấy một lớp  
là một tập các lớp con. Còn định nghĩa theo độ tăng cường, giữa các tập hợp và các lớp  
có nhiều khác nhau cơ bản. Các lớp có thể phân loại các thực thể, phân loại các lớp  
khác, hoặc kết hợp cả hai phân loại. Ví dụ về lớp:  
- Người, lớp toàn bộ con người, hoặc đối tượng trừu tượng có thể được mô  
tả bởi các tiêu chuẩn cho một người.  
Một lớp là mở rộng khi và chỉ khi lớp đó được mô tả bởi mọi phần tử của lớp.  
Nếu một lớp không thỏa mãn điều kiện này, khi ấy nó là độ tăng cường. Các lớp mở  
rộng hoạt động tốt hơn và xử lý tính toán tốt hơn, cũng ít nhập nhằng, thì lại không  
cho phép phân biệt rõ ràng giữa các lớp. Trong khi đó, các lớp được định nghĩa cường  
độ thường có các điều kiện cần để liên kết với các phần tử trong mỗi lớp. Một vài lớp  
cũng có thể có các điều kiện đủ, và trong các trường hợp này sự kết hợp các điều kiện  
cần và đủ làm cho lớp được định nghĩa đầy đủ.  
Một lớp có thể là lớp con (hoặc kiểu con) của một lớp nào đó (lớp cha), và tạo ra  
một hệ phân cấp các lớp. Lớp con được thừa kế thuộc tính từ lớp cha. Vì vậy, bất cứ  
điều gì đúng đối với lớp cha thì cũng đúng với tất cả các lớp con của nó.  
Hình 3.1. Ví dụ về lớp trong Ontology [58]  
16  
   
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
Một phân vùng là một tập các lớp có liên quan cùng với các quy tắc được liên  
kết. Các quy tắc được liên kết cho phép các phân chia các đối tượng bởi các lớp con  
thích hợp. Chẳng hạn, hình 3.1 hiện thị một phần của một Ontology có một phân vùng  
của lớp ―Car‖ với các lớp con 2-Wheel Drive Car4-Wheel Drive Car. Các quy  
tắc phân vùng xác định nếu một Car cụ thể thì được phân loại bởi lớp 2-Wheel  
Drive Car‖ hoặc bởi lớp 4-Wheel Drive Car.  
Các quy tắc phân vùng bảo đảm rằng một Car cụ thể không thể được tồn tại trong  
cả hai lớp, khi ấy, phân vùng đó được gọi là một phân vùng rời. Nếu quy tắc phân  
vùng đảm bảo mọi đối tượng cụ thể trong lớp cha là một đối tượng thuộc ít nhất một  
trong các lớp con, thì phân vùng đó được gọi là một phân vùng đầy đủ.  
3.1.2.4 Thuộc tính  
Các đối tượng trong Ontology có thể được mô tả bởi liên kết của chúng với  
những đối tượng khác, những liên kết này thường được gọi là các thuộc tính, mặc dù  
có thể là những liên kết độc lập. Loại đối tượng và loại thuộc tính xác định loại quan  
hệ giữa chúng. Một đối tượng dựa vào thuộc tính để liên kết tới đối tượng khác. Ví dụ:  
đối tượng Nguyễn_Quốc_Đại có các thuộc tính chẳng hạn như:  
- <có_tên> Nguyễn_Quốc_Đại  
- <có_quê> Hà_Nội  
- <học> k50_khoa_học_máy_tính  
Giá trị của một thuộc tính có thể có một kiểu dữ liệu phức tạp.  
3.1.2.5 Các mối quan hệ  
Các mối quan hệ giữa các đối tượng trong Ontology chỉ ra các đối tượng đó có  
liên quan như thế nào đến những đối tượng khác. Và quan hệ giữa các lớp cụ thể dẫn  
đến quan hệ giữa các đối tượng trong các lớp đó.  
Các quan hệ trong Ontology xuất phát từ khả năng muốn miêu tả các liên kết giữa  
các khái niệm. Tập hợp các loại quan hệ được sử dụng để thể hiện ngôn ngữ biểu diễn  
Ontology.  
Loại quan hệ quan trọng nhất là quan hệ is-a-superclass-of, quan hệ này là nghịch  
đảo is-a-subtype-of. Các quan hệ này xác định các đối tượng được phân loại do các lớp  
17  
   
Chương 3. Ontology – Sesame  
Nguyễn Quốc Đại  
trong Ontology . Với thí dụ trong hình 3.2, lớp Ford Explorer is-a-subclass-of 4-Wheel  
Drive Car, 4-Wheel Drive Car is-a-subclass-of Car Car is-a-superclass-of 4-Wheel  
Drive Car.  
Hình 3.2. Ví dụ về lớp ô tô  
Các quan hệ is-a-subclass-of tạo ra một cấu trúc dạng cây miêu tả các đối tượng  
liên quan đến một đối tượng khác như thế nào.  
Quan hệ phổ biến khác là quan hệ được part-of, mô tả các đối tượng kết hợp lại  
với nhau như thế nào để hình thành các đối tượng ghép. Thí dụ, nếu Ontology về lớp ô  
tô (hình 3.2) được mở rộng bao gồm khái niệm Steering Wheel, thì có quan hệ dạng  
Steering Wheel is-by-definition-a-part-of-a Ford Explorer. Khi Ontology thêm vào  
các quan hệ part-of thì cấu trúc cây trở nên phức tạp và gặp nhiều khó khăn để biên  
dịch bằng tay. Tương tự quan hệ is-a-subclass-of is-by-definition-a-part-of-a, các  
Ontology thường bao gồm các quan hệ bổ sung để mô tả ngữ nghĩa cho miền ứng  
dụng cụ thể. Chẳng hạn như các quan hệ:  
- Các quan hệ giữa các lớp.  
- Các quan hệ giữa các đối tượng.  
- Các quan hệ giữa một đối tượng và một lớp.  
- Các quan hệ giữa một đối tượng riêng lẻ và một tập đối tượng.  
- Các mối quan hệ giữa các tập đối tượng.  
Các quan hệ trong một miền cụ thể được dùng để lưu trữ các kiểu dữ liệu cụ thể  
hoặc trả lời các câu hỏi đặc biệt.  
18  
 

Tải về để xem bản đầy đủ

pdf 83 trang yennguyen 26/04/2025 40
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên ontology", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_phuong_phap_xay_dung_he_thong_hoi_dap_tieng_viet_d.pdf