Khóa luận Trích chọn quan hệ thực thể trên Wikipedia tiếng việt dựa vào cây phân tích cú pháp

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Nguyễn Tiến Thanh  
TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN  
WIKIPEDIA TIẾNG VIỆT DỰA VÀO  
CÂY PHÂN TÍCH CÚ PHÁP  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
HÀ NỘI - 2010  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Nguyễn Tiến Thanh  
TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN  
WIKIPEDIA TIẾNG VIỆT DỰA VÀO  
CÂY PHÂN TÍCH CÚ PHÁP  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy  
Cán bộ đồng hướng dẫn: ThS. Nguyễn Thu Trang  
HÀ NỘI - 2010  
LỜI CẢM ƠN  
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Hà  
Quang Thy, ThS. Nguyễn Thu Trang và CN. Trần Nam Khánh đã tận tình hướng dẫn  
tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.  
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để  
tôi học tập và nghiên cứu tại trường Đại học Công Nghệ.  
Tôi cũng xin gửi lời cảm ơn tới ThS. Trần Mai Vũ và các anh ch, các bạn sinh  
viên tại phòng thí nghiệm KT-Sislab đã giúp tôi rất nhiều trong việc thu thập và xlý  
dữ liệu. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K51CA và K51CHTTT đã ủng hộ  
khuyến khích tôi trong suốt quá trình học tập tại trường.  
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những  
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận  
tốt nghiệp.  
Tôi xin chân thành cảm ơn !  
Hà Nội, ngày 21 tháng 05 năm 2010  
Sinh viên  
Nguyễn Tiến Thanh  
i
Tóm tắt  
Trích chọn quan hệ ngữ nghĩa (gọi tắt là “quan h”) được xem là bài toán cơ  
bản của xử lý ngôn ngữ tự nhiên nhận được sự quan tâm rất lớn từ các nhà nghiên cứu,  
các hội nghị lớn trên thế giới[1, 9, 41]. Tại Việt Nam, bài toán này vẫn đặt ra rất nhiều  
thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không đầy đủ của các tài  
nguyên ngôn ngữ học.  
Trên cơ sở phân tích ưu và nhược điểm của các phương pháp trích chọn quan  
hệ, khóa luận áp dụng phương pháp trích chọn quan hệ dựa trên đặc trưng để giải  
quyết bài toán này. Các đặc trưng biểu thị quan hệ được trích chọn dựa trên cây phân  
tích cú pháp tiếng Việt, sau đó được đưa vào bộ phân lớp SVM tìm được loại quan hệ  
tương ứng, từ đó trích chọn được các thể hiện của quan hệ. Hơn nữa, nhằm giảm công  
sức cho giai đoạn xây dựng tập dữ liệu học, khóa luận khai thác tính giàu cấu trúc của  
dữ liệu trên Wikipedia tiếng Việt để xây dựng tập dữ liệu học bán tự động.  
Kết quả thực nghiệm trên một số loại quan hệ ban đầu cho thấy mô hình trích  
chọn của hệ thống cho độ đo F1 đạt trung bình 86,4%. Điều này khẳng định mô hình là  
khả quan, có khả năng ứng dụng trong thực tế.  
ii  
MỤC LỤC  
Lời cảm ơn .....................................................................................................i  
Tóm tắt  
Mục lục  
....................................................................................................ii  
...................................................................................................iii  
Danh sách các bảng............................................................................................ v  
Danh sách các hình v....................................................................................... vi  
Danh sách các từ viết tắt................................................................................... vii  
Mở đầu  
.................................................................................................... 1  
Chương 1.  
Khái quát về bài toán trích chọn ngữ nghĩa ............................ 3  
1.1.  
Quan hệ ngữ nga......................................................................................3  
1.1.1. Khái niệm ...............................................................................................3  
1.1.2. Phân loại quan hệ ngữ nghĩa ...................................................................3  
1.2.  
1.3.  
Bài toán trích chọn quan hệ ngữ nghĩa ........................................................7  
Ứng dụng....................................................................................................8  
Tóm tắt chương một ................................................................................................9  
Chương 2. Một số hướng tiếp cận trích chọn quan hệ ngữ nghĩa........... 10  
2.1.  
2.2.  
Học không giám sát trích chọn quan hệ.....................................................10  
Học có giám sát trích chọn quan h........................................................... 13  
2.2.1. Phương pháp Link grammar..................................................................13  
2.2.2. Phương pháp trích chọn dựa trên các đặc trưng.....................................16  
2.2.3. Phương pháp trích chọn dựa trên hàm nhân ..........................................21  
2.3.  
Học bán giám sát trích chọn quan hệ......................................................... 24  
2.3.1. Phương pháp DIRPE.............................................................................24  
2.3.2. Phương pháp Snowball .........................................................................27  
2.4.  
Nhận xét....................................................................................................29  
Tóm tắt chương hai................................................................................................ 29  
Chương 3.  
vào cây phân tích cú pháp.............................................................................. 30  
3.1. Đặc trưng của Wikipedia...........................................................................30  
Mô hình trích chọn quan hệ trên Wikipedia tiếng Việt dựa  
3.1.1. Thực thể trong Wikipedia .....................................................................30  
3.1.2. Infobox.................................................................................................31  
3.1.3. Mục phân loại.......................................................................................31  
3.2.  
Cây phân tích cú pháp tiếng Việt............................................................... 32  
3.2.1. Phân tích cú pháp..................................................................................32  
iii  
3.2.2. Một số thành phần cơ bản của cây phân tích cú pháp tiếng Việt............32  
3.3.  
Mô hình trích chọn quan hệ dựa trên cây phân tích cú pháp trên Wikipedia  
tiếng Việt...............................................................................................................33  
3.3.1. Phát biểu bài toán..................................................................................33  
3.3.2. Ý tưởng giải quyết bài toán...................................................................33  
3.3.3. Xây dựng tập dữ liệu học......................................................................34  
3.3.4. Mô hình hệ thống trích chọn quan h....................................................36  
Tổng kết chương ba................................................................................................ 40  
Chương 4.  
Thực nghiệm và đánh giá kết quả.......................................... 41  
4.1. Môi trường thực nghiệm ...........................................................................41  
4.1.1. Câu hình phần cứng ..............................................................................41  
4.1.2. Công cụ phần mềm ...............................................................................41  
4.2.  
4.3.  
Dữ liệu thực nghiệm..................................................................................42  
Thực nghiệm............................................................................................. 42  
4.3.1. Mô tả cài đặt chương trình ....................................................................42  
4.3.2. Xây dựng tập dữ liệu học dựa trên Wikipedia tiếng Vit.......................42  
4.3.3. Sinh vector đặc trưng............................................................................45  
4.3.4. Bộ phân lớp SVM.................................................................................47  
4.4.  
Đánh giá....................................................................................................48  
4.4.1. Đánh giá hệ thống.................................................................................48  
4.4.2. Phương pháp đánh giá...........................................................................49  
4.4.3. Kết quả kiểm thử ..................................................................................49  
4.5.  
Nhận xét....................................................................................................51  
.................................................................................................. 52  
.................................................................................................. 53  
Kết luận  
Phục lục  
Tài liệu tham khảo............................................................................................ 56  
iv  
Danh sách các bảng  
Bảng 1-1 : 15 quan hệ trong Wordnet ..........................................................................4  
Bảng 1-2: 22 loại quan hệ ngữ nghĩa theo Roxana Girju ..............................................5  
Bảng 2-1: Đường đi ngắn nhất...................................................................................23  
Bảng 2-2: Một số đặc trưng thu được từ đường đi phụ thuộc .....................................23  
Bảng 3-1: Các thuộc tính của vector đặc trưng...........................................................39  
Bảng 4-1: Cấu hình phần cứng...................................................................................41  
Bảng 4-2: Danh sách các phần mềm sử dụng.............................................................41  
Bảng 4-3 : Các giá trị đánh giá hệ thống phân lớp......................................................49  
Bảng 5-1: Bảng các nhãn được sử dụng trong cây phân tích cú pháp .........................53  
v
Danh sách các hình vẽ  
Hình 1: Ví dụ về đường liên kết (1) ...........................................................................14  
Hình 2: Ví dụ về đường liên kết (2) ...........................................................................14  
Hình 3: Ví dụ về mẫu.................................................................................................14  
Hình 4: Ví dụ về cặp thực thể sinh bởi quá trình khớp mẫu........................................14  
Hình 5: Ví dụ về cây phân tích cú pháp......................................................................21  
Hình 6: Các đặc trưng thu được từ cây phân tích cú pháp ..........................................21  
Hình 7: Minh họa đồ thị phụ thuộc ............................................................................22  
Hình 8: Các quan hệ mẫu trích chọn được..................................................................26  
Hình 9: Kiến trúc của hệ thống Snowball...................................................................27  
Hình 10: Ví dụ về cây phân tích cú pháp tiếng Việt ...................................................32  
Hình 11: Quá trình xây dựng tập dữ liệu học .............................................................34  
Hình 12: Cấu trúc biểu diễn của thông tin của infobox...............................................35  
Hình 13: Mô hình trích chọn quan hệ trên Wikipedia.................................................36  
Hình 14: Cây con biểu diễn quan hệ “thành_lập”.......................................................38  
Hình 15: Ví dụ về tìm kiếm trên Wikipedia ...............................................................44  
Hình 16 : Bảng thống kê dữ liệu học của quan hệ “ngày sinh”...................................48  
Hình 17: Kết quả kiểm thử đối với quan hệ “năm thành lập” .....................................50  
Hình 18: Kết quả kiểm thử đối với quan hệ “hiệu trưởng” .........................................50  
Hình 19: Kết quả kiểm thử đối với quan hệ “ngày sinh” ............................................51  
Hình 20: So sánh kết quả trung bình của ba quan hệ ..................................................51  
vi  
Danh sách các từ viết tắt  
Từ hoặc cụm từ  
Viết tắt  
LibSVM  
DIPRE  
SVM  
A Library for Support Vector Machines  
Dual Iterative Pattern Relation Expansion  
Support vector machine  
Wikipedia  
Wiki  
vii  
Mở đầu  
Trích chọn quan hngữ nghĩa (hay quan h) được xem bài toán cơ bản  
của xử lý ngôn ngữ tự nhiên, thực hiện nhiệm vụ trích chọn quan hệ giữa các khái  
niệm về mặt ngữ nghĩa hoặc dựa vào quan hệ xác định trước nhằm tìm kiếm những  
thông tin phục vụ cho quá trình xử lý khác. Trích chọn quan hệ được ứng dụng  
nhiều cho các bài toán như: xây dựng Ontology[15, 16, 19, 22], hệ thống hỏi đáp  
[22,29], phát hiện ảnh qua đoạn văn bản [11], tìm mối liên hệ giữa bệnh-genes  
[27],… Vì thế, trích chọn quan hệ không những nhận được sự quan tâm rất lớn từ  
các nhà nghiên cứu, các hội nghị lớn trên thế giới trong những năm gần đây như:  
Coling/ACL, Senseval,… mà còn là một phần trong các dự án quan trọng mang tầm  
cỡ quốc tế trong lĩnh vực khai phá dữ liệu như: ACE (Automatic Content  
Extraction), DARPA EELD (Evidence Extraction and Link Discovery), ARDA-  
AQUAINT (Question Answering for Intelligence), ARDA NIMD (Novel  
Intelligence from Massive Data).  
Tại Việt Nam, bài toán này vẫn đặt ra rất nhiều thách thức do tính phức tạp  
của ngôn ngtiếng Việt và sự không đầy đủ của các tài nguyên ngôn ngữ học. Trên  
cơ sở phân tích các phương pháp trích chọn quan hệ, khóa luận đã đưa ra mô hình  
học có giám sát trích chọn quan hệ thực thể dựa vào cây phân tích cú pháp trên  
miền dữ liệu Wikipedia tiếng Việt. Kết quả thực nghiệm bước đầu cho thấy mô hình  
là khả quan và có khả năng ứng dụng tốt.  
Nội dung của khóa luận được bố cục gồm có 4 chương:  
Chương 1: Giới thiệu khái quát về bài toán trích chọn quan hệ ngữ nghĩa  
cũng như các khái niệm liên quan.  
Chương 2: Giới thiệu các phương pháp tiếp cận giải quyết bài toán trích  
chọn quan hệ. Với mỗi phương pháp học máy: có giám sát, không giám sát và bán  
giám sát, khóa luận giới thiệu một số mô hình tiêu biểu. Đây là cơ sơ phương pháp  
luận quan trọng để khóa luận đưa ra mô hình áp dụng đối với bài toán trích chọn  
quan hệ trên miền dữ liệu Wikipedia tiếng Việt.  
Chương 3: Trên cơ sở phân tích ưu và nhược điểm của các phương pháp  
được trình bày ở chương 2, khóa luận đã lựa chọn phương pháp trích chọn quan hệ  
dựa trên đặc trưng theo tiếp cận học có giám sát để giải quyết bài toán này. Các đặc  
trưng của quan hệ được trích chọn dựa trên cây phân tích cú pháp tiếng Việt, sau đó  
được đưa vào bộ phân lớp sử dụng thuật toán SVM, tìm được loại quan hệ tương  
1
ứng, từ đó trích chọn được các thể hiện của quan hệ. Hơn nữa, để giảm công sức  
cho giai đoạn xây dựng tập dữ liệu học, các đặc trưng biểu diễn dữ liệu giàu cấu  
trúc trên Wikipedia tiếng Việt đã được sử dụng. Nội dung chính của chương này  
trình bày các đặc trưng của Wikipedia, cây phân tích cú pháp tiếng Việt và đề xuất  
một mô hình trích chọn quan hệ dựa trên cây phân tích cú pháp.  
Chương 4: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm việc  
xây dựng tập dữ liệu học, thực nghiệm trích chọn quan hệ sử dụng bộ phân lớp  
SVM.  
Phần kết luận và định hướng phát triển khoá luận: Tóm lược những nội  
dung chính đạt được của khóa luận đồng thời cũng chỉ ra những điểm cần khắc  
phục đưa ra những định hướng nghiên cứu trong thời gian sắp tới.  
2
Chương 1. Khái quát về bài toán trích chọn ngữ nghĩa  
Nội dung chính của khóa luận là đề xuất một mô hình trích chọn quan hệ  
thực thể dựa trên cây phân tích cú pháp trên miền dữ liệu Wikipedia tiếng Việt.  
Chương này sẽ giới thiệu các khái niệm về quan hngữ nghĩa, bài toán trích chọn  
quan hệ ngữ nghĩa và những ứng dụng của bài toán này. Đây là cơ sở lý thuyết quan  
trọng cho việc xác định mục tiêu cũng như phạm vi giải quyết của mô hình đề xuất.  
1.1. Quan hệ ngữ nghĩa  
1.1.1. Khái niệm  
Xác định quan hệ ngữ nghĩa (semantic relation) là một lĩnh vực nghĩa nhận  
được nhiều squan tâm từ các nhà nghiên cứu về ngôn ngữ học cũng như xử lý  
ngôn ngữ tự nhiên. Có nhiều định nghĩa về quan hệ ngữ nghĩa đã được đưa ra. Theo  
nghĩa hẹp, Birger Hjorland [42] đã định nghĩa quan hệ ngữ nghĩa:  
Quan hệ ngữ nghĩa là mối quan hệ về mặt ngữ nghĩa giữa hai hay nhiều  
khái niệm. Trong đó, khái niệm được biểu diễn dưới dạng từ hay cụm t.”  
Ví d: Ta có câu “Trường Đại học Công nghệ được Thủ tướng chính phủ  
quyết định thành lập ngày 25 tháng 5 năm 2004.” Khi đó, ta nói: (“Trường Đại  
học Công nghệ”, “ngày 25 tháng 5 năm 2004”) có quan hngữ nghĩa là “ngày  
thành lập”.  
Trong khóa luận này, trong trường hợp không gây nhầm lẫn, khái niệm quan  
hệ ngữ nghĩa được gọi tắt là quan hệ.  
Việc xác định quan hệ giữa các khái niệm là một vấn đề quan trọng trong tìm  
kiếm thông tin. Điều này sẽ làm tăng tính ngữ nghĩa cho câu hay tập tài liệu. Đồng  
thời, khi tìm kiếm một thông tin nào đó, ta có thể nhận được những thông tin về các  
vấn đề khác liên quan tới nó. Vì vậy, để tìm kiếm được những thông tin chính xác,  
chúng ta cần biết các loại quan hệ và tìm hiểu các phương pháp để xác định được  
các quan hệ đó.  
1.1.2. Phân loại quan hệ ngữ nghĩa  
Quan hệ ngữ nghĩa thể hiện quan hệ giữa các khái niệm được biểu diễn  
dưới dạng cấu trúc phân cấp thông qua các quan hệ. Trong [17], Iris Hendrickx và  
cộng sự đã tổng kết và chỉ ra rằng phân loại quan hệ ngữ nghĩa là rất đa dạng, phụ  
thuộc vào những đặc trưng ngữ nghĩa cũng như mục đích và đối tượng tiếp cận.  
Mục này sẽ giới thiệu hai hệ thống phân loại quan hệ ngữ nghĩa được sử dụng khá  
3
phổ biến trong bài toán trích chọn quan hệ đó là WordNet và hệ thống phân loại của  
Girju.  
WordNet [16, 39] là một từ điển trực tuyến trong Tiếng Anh, được phát triển  
bởi các nhà từ điển học thuộc trường đại học Princeton (Mỹ). WordNet bao gồm  
100.000 khái niệm bao gồm danh từ, động từ, tính từ, phó từ liên kết với nhau thông  
qua 15 quan hệ (được tả trong bảng 1-1)  
Bảng 1-1 : 15 quan hệ trong Wordnet  
STT  
Các khái niệm được  
liên kết bởi quan hệ  
ngữ nghĩa  
Quan hệ ngữ  
nghĩa  
Ví dụ  
1. Hypernymy  
(is - a)  
Danh t- Danh từ  
Động từ - Động từ  
Cat is-a feline  
Manufacture is-a make  
2. Hyponymy  
(reverse is-a)  
Danh t- Danh từ  
Động từ - Động từ  
Feline reverse is-a cat  
Manufacture reverse is-a mak  
3. Is-part- of  
4. Has-part  
5. Is-member-of  
6. Has-member  
7. Is-suff-of  
8. Has-stuff  
9. Cause-to  
10. Entail  
Danh t- Danh từ  
Danh t- Danh từ  
Danh t- Danh từ  
Danh t- Danh từ  
Danh t- Danh từ  
Danh t- Danh từ  
Động từ - Động từ  
Động từ - Động từ  
Tính t- Danh từ  
Leg is-part-of table  
Table has-part leg  
UK is-member-of NATO  
NATO has-member UK  
Carbon is-stuff-of coal  
Coal has-stuff carbon  
To develop cause-to to grow  
To snore entail to sleep  
Hot attribute temperature  
11. Atribute  
12. Synonymy  
(synset)  
Danh t- Danh từ  
Động từ - Động từ  
Tính t- Tính từ  
Phó t- Phó từ  
Car synonym automobile  
To notice synonym to observe  
Happy synonym content  
Mainly synonym primarily  
4
13. Antonymy  
Danh t- Danh từ  
Động từ - Động từ  
Tính t- Tính từ  
Phó t- Phó từ  
Happines  
antonymy  
unhappiness  
To inhale antonymy to exhale  
Sincere antonymy insincere  
Always antonymy never  
14. Similarity  
15. See-also  
Tính t- Tính từ  
Abridge similarity shorten  
Touch see-also touch down  
Động từ - Động từ  
Tính t- Tính từ  
Inadequate  
see-also  
insatisfactory  
Thông thường, người ta hay sử dụng WordNet vào việc tìm kiếm các quan  
hệ ngữ nghĩa. Đồng thời, dựa vào các quan hệ này, một từ trong WordNet có thể  
tìm được các liên hệ với các khái niệm khác.  
Roxana Girju [10] đã đưa ra hệ thống các quan hệ ngữ nghĩa gồm 22 loại  
như trong bảng 1-2, trong đó một số quan hệ ngữ nghĩa quan trọng thường được  
dùng để thể hiện quan hệ giữa các khái niệm như: hyponymy/ hypernymy (is - a),  
meronymy/holonym (part - whole), đồng nghĩa (synonymy) và trái nghĩa  
(antonymy).  
Bảng 1-2: 22 loại quan hệ ngữ nghĩa theo Roxana Girju  
STT Quan hệ ngữ nghĩa  
Mô tả  
Ví dụ  
daisy flower;  
1. HYPERNYMY  
(IS-A)  
Một thực thể/ sự kiện/ trạng  
thái là lớp con của một thực  
thể/ sự kiện/ trạng thái khác  
large company, such as  
Microsoft  
2.  
PART-WHOLE  
(MERONYMY)  
Một thực thể/ sự kiện/ trạng door knob; the door of  
thái là một bộ phận của thực the car  
thể/ sự kiện/ trạng thái khác  
3. CAUSE  
Một sự kiện/trạng thái là  
nguyên nhân cho một sự  
kiện/trạng thái khác xảy ra  
malaria mosquitos;  
“death by hunger”;  
“The earthquake  
5
generated a big  
Tsunami”  
4. INSTRUMENT  
pump drainage; He  
Một thực thể được sử dụng  
như là một phương tiên/công  
cụ  
broke the box with a  
hammer.  
5. MAKE / PRODUCE Một thực thể tạo ra/ sản xuất honey bees; GM makes  
ra một thực thể khác  
cars  
6.  
boy’s sister; Mary  
has a daughter  
KINSHIP (thân  
thích)  
Một thực thể có liên quan tới  
thực thể khác bởi quan hệ  
huyết thống, hôn nhân  
7.  
family  
POSSESSION (sở  
hữu)  
Một thực thể sở hữu thực thể  
khác  
estate; the girl has a  
new car.  
8. SOURCE / FROM  
9. PURPOSE  
Xuất xứ của thực thể  
olive oil  
Một trạng thái hay dành  
migraine drug; He was  
động là kết quả từ một trạng quiet in order not to  
thái hay sự kiện khác  
disturb her.  
10. LOCATION/SPACE  
quan hệ đặc biệt giữa hai  
thực thể hoặc giữa thực thể  
và sự kiện  
field mouse; I left the  
keys in the car  
11. TEMPORAL  
Thời gian liên quan tới một  
sự kiện  
5-O’ clock tea; the  
store opens at 9 am  
12. EXPERIENCER  
desire for  
Cảm giác hay trạng thái của  
một thực thể  
chocolate; Mary’s fear.  
13. MEANS  
Phương tiện mà một sự kiện bus service; I go to  
được thực hiện  
school by bus.  
14. MANNER  
Cách thức mà một sự kiện  
xảy ra  
hard-working  
immigrants;  
performance with  
6
passion  
15. TOPIC  
Một đối tượng là đặc trưng  
của đối tượng khác  
they argued about  
politics  
16. BENEFICIARY  
Một thực thể hưởng lợi ích  
customer service; I  
từ một trạng thái hay sự kiện wrote Mary a letter.  
17. PROPERTY  
18. THEME  
Thuộc tính của một thực  
thể/sự kiện hay trạng thái  
red rose; the juice has a  
funny color.  
music lover  
Một thực thể được mô tả  
theo/ trong một hành động  
hay sự kiện khác  
19. AGENT  
the investigation of the  
police  
Tác nhân thực hiện hành  
động  
20.  
the picture of the girl  
DEPICTION-  
DEPICTED  
Một thực thể được biểu diễn  
trong một thực thể khác  
21. TYPE  
Một từ hay khái niệm là kiểu member state;  
của một từ hay hay khái  
niệm khác  
framework law  
22. MEASURE  
Một thực thể biểu diễn số  
lượng của một thực thể/sự  
kiện nào đó  
70-km distance; The  
jacket costs $60; a cup  
of sugar  
1.2. Bài toán trích chọn quan hệ ngữ nghĩa  
Theo [9, 36, 41], trích chọn quan hệ được xem là một bộ phận quan trọng  
của trích chọn thông tin. Tập các câu hay các văn khi xem xét ở mức trừu tượng cao  
thì đây chính là tập hợp các khái niệm, các thực thể và quan hệ giữa chúng. Các  
thực thể hay khái niệm được thể hiện dưới dạng các từ hay cụm từ. Quan hngữ  
nghĩa giữa chúng được ẩn trong các liên kết giữa các khái niệm hay thực thể này.  
Việc phát hiện ra các quan hệ này có ý nghĩa rất quan trọng trong các bài toán xử lý  
ngôn ngtự nhiên.  
Roxana Girju [10] đã phát biểu bài toán trích chọn quan hệ ngữ nghĩa như  
sau: “Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu không có  
7
cấu trúc như các trang web, các tài liệu, tin tức,… ta cần phải xác định được các  
quan hệ ngữ nghĩa giữa chúng”  
Một ví dụ về trích chọn quan hệ ngữ nghĩa được Roxana Girju [10] đưa ra  
như sau:  
Cho một đoạn văn bản với các thực thể/khái niệm được gán nhãn:  
[Saturday’s snowfall]TEMP topped [a record in Hartford, Connecticut]LOC with  
[the total of 12/5 inches]MEASURE, [the weather service]TOPIC said. The storm  
claimed its fatality Thursday when [a car driven by a [college student]PART-  
]
skidded on [an interstate overpass]LOC in [the mountains of  
WHOLE THEME  
Virginia]LOC/PART-WHOLE and hit [a concrete barrier]PART-WHOLE, police said.  
Khi đó, hệ thống trích chọn quan hệ ngữ nghĩa sẽ cho kết quả là các quan hệ  
có thcó giữa các thực thể/khái niệm này, cụ thể như sau:  
TEMP (Saturday, snowfall)  
LOC (mountains, Virginia)  
PART-WHOLE/LOC (mountains, Virginia) LOC (Hartford Connecticut, record)  
PART-WHOLE (concrete, barrier)  
PART-WHOLE (student, college)  
THEME (car, driven by a college student)  
LOC (interstate, overpass)  
TOPIC (weather, service)  
MEASURE(total, 12.5 inches)  
1.3. Ứng dụng  
Trích chọn quan hệ ngữ nghĩa được ứng dụng trong nhiều lĩnh vực khác nhau.  
Lĩnh vực đầu tiên phải nhắc tới là việc xây dựng cơ sở tri thức mà điển hình là xây  
dựng Ontology – thành phần nhân của Web ngữ nghĩa. Trong khi những lợi ích mà  
Web ngữ nghĩa đem lại là rất lớn thì việc xây dựng các ontology một cách thủ công  
lại hết sức khó khăn. Giải pháp cho vấn đề này chính là kĩ thuật trích chọn thông tin  
nói chung và trích chọn quan hệ nói riêng để tự động hóa một phần quá trình xây  
dựng các ontology. Đã có nhiều các nghiên cứu liên quan tới vân đề này như [15,  
16, 19, 22]  
Trích chọn mối quan hệ ngữ nghĩa cũng được sử dụng nhiều trong các hệ  
thống hỏi đáp. Một số hệ thống hỏi đáp đã được xây dựng dựa vào việc trích xuất tự  
động các từ, khái niệm và mối quan hệ. Chẳng hạn Kim và cộng sự [22] cũng đưa ra  
8
một hệ thống hỏi đáp OntotrileQA sử dụng kĩ thuật trích chọn quan hệ ngữ nghĩa  
cho các thực thể trên ontoloty đã được gán nhãn bằng tay.  
Ngoài ra, trích chọn quan hệ còn có ứng dụng trong các lĩnh vực xử lý ảnh  
như phát hiện ảnh qua đoạn văn bản (text-to-image generation) [11] . Trích chọn  
quan hcũng là một công cụ đắc lực tron lĩnh vực công nghệ sinh học như tìm  
quan hệ bệnh tật - Genes, ảnh hưởng qua lại giữa protein-protein (Protein-Protein  
interaction)[27]…  
Tóm tắt chương một  
Trong chương này, khoá luận đã giới thiệu khái quát các khái niệm liên quan  
tới bài toán trích chọn quan hngữ nghĩa, một số loại quan hệ ngữ nghĩa và những  
ứng dụng nổi bật. Trong chương tiếp theo, khoá luận sẽ tập trung làm rõ các  
phương pháp điển hình mô hình hóa bài toán trích chọn quan hệ ngữ nghĩa và cách  
giải quyết tương ứng.  
9
Chương 2. Một số hướng tiếp cận trích chọn quan hệ ngữ nghĩa  
Trích chọn quan hệ được xem là một phần quan trọng của trích chọn thông  
tin [9], nhận được sự quan tâm ngày càng nhiều hơn của cộng đồng xlý ngôn ngữ  
tự nhiên và học máy. Các tiếp cận giải quyết bài toán hiện nay tập trung vào sử  
dụng các phương pháp học máy để tiến hành trích chọn tự động. Cả ba loại học máy  
là học không giám sát, học có giám sát và học bán giám sát đều thể hiện được  
những ưu điểm riêng của mình.  
Hơn nữa, trong các nghiên cứu gần đây [8, 12, 13, 17, 21], cây phân tích cú  
pháp của câu được xem là một thông tin quan trọng cho trích chọn quan hệ. Do đó,  
trong chương này, với mỗi phương pháp học máy, khóa luận sẽ giới thiệu một số  
mô hình tiêu biểu. Đây là cơ sơ phương pháp luận quan trọng để khóa luận đưa ra  
mô hình áp dụng đối với bài toán trích chọn quan hệ trên miền dữ liệu Wikipedia  
tiếng Việt.  
2.1. Học không giám sát trích chọn quan hệ  
Học không giám sát có bản chất là sử dụng các thuật toán phân cụm các quan  
hệ để mô hình hóa. Có nhiều cách khác nhau [1, 7, 12, 18 ] để biểu diễn quan hệ  
giữa hai thực thể/khái niệm, trong đó phổ biến nhất là biểu diễn quan hệ này dưới  
dạng vector đặc trưng. Vấn đề cốt lõi là làm thế nào để lựa chọn được các đặc trưng  
tốt và hiệu quả. Một giải pháp đã được Jinxiu Chen và cộng sự [18] đưa ra dựa trên  
ý tưởng xây dựng hàm Entropy để xếp hạng các đặc trưng, từ đó, đưa một thuật  
toán lựa chọn được đặc trưng và số cụm tối ưu nhất. Cụ thể như sau:  
Đầu tiên, Jinxiu Chen và cộng sự đưa ra một số khái niệm:  
Gọi P = {p1, p2,… pN} là tập tất cả các vector ngữ cảnh đồng thời xuất  
hiện cặp thực thể E1 E2. Ở đây, ngữ cảnh bao gồm tất cả các từ xuất hiện trước, ở  
giữa và sau cặp thực thể.  
Gọi W= {w1, w2, … , wM} là tập các đặc trưng, bao gồm tất cả các từ xuất  
hiện trong P.  
Giả sử, pn (1 n N) thuộc không gian đặc trưng W (chiều của W là M).  
Độ tương đồng giữa vector pi pj được cho bởi công thức:  
S exp(*D )  
trong đó:  
i, j  
i, j  
Di,j là độ đo Oclit giữa pi và pj,  
10  
ln 0.5  
là hằng số dương thu được bằng thực nghiệm  
   
D
D là khoảng cách trung bình giữa các pi  
Khi đó, entropy của tập dữ liệu P với N điểm dữ liệu được định nghĩa là:  
N
N
E    
(S log S (1 S ) log(1 S ))  
(2.1)  
   
i, j  
i, j  
i, j  
i, j  
i1 j1  
Sau đó, để lựa chọn một tập con các đặc trưng quan trọng từ W, các đặc trưng được  
xếp hạng theo độ quan trọng của chúng theo cụm. Hàm xếp hạng các đặc trưng dựa  
trên một giả thiết rằng “một đặc trưng là không quan trọng nếu nó xuất hiện trong  
tập dữ liệu có thể tách rời” [18]. Độ quan trọng của mỗi đặc trưng I(wk) được xác  
định bởi entropy của tập dữ liệu sau khi loại bỏ đi đặc trưng wk.  
Dựa trên nhận xét rằng: một đặc trưng là kém quan trọng nhất nếu sau khi  
loại bỏ nó đi sẽ làm cho E đạt giá trị nhỏ nhất”, các đặc trưng được xắp sếp theo độ  
quan trọng của chúng, ta thu được tập Wr = {f1, …, fM}.  
Khi đó, việc tìm tập con đặc trưng tốt nhất F sẽ trở thành bài toán tìm kiếm  
trên không gian {(f1, …, fk),  
1
k
M}  
:
tức là tìm  
Fk arg maxFW {criterion(F,k)}  
r
Gọi Plà tập con các cặp thực thể được lấy mẫu từ tập các cặp thực thể đầy  
P  
đủ P. Kích thước của  
N (với α = 0.9)  
Gọi C (hay C) là ma trận kết nối có kích thước | P |*| P | (hay | P|*| P|)  
dựa trên các kết quả phân cụm tương ứng từ P ( hay P) trong đó:  
1 nếu như cặp thực thể pi và pj nằm trong cùng một cụm  
cij =  
0 trong trường hợp ngược lại  
Khi đó, độ ổn định M (C,C) (là độ nhất quán giữa kết quả phân cụm  
trên  
C ) sẽ được tính theo công thức:  
1{Ci, j =Ci, j =1, pi P, pj P}  
C
M (C,C) i, j  
(2.2)  
1{Ci, j =1, pi P, pj P}  
i, j  
M (C,C)  
Tuy nhiên, vì  
có chiều hướng giảm khi số cụm k tăng nên để tránh  
k  
trường hợp giá trị k nhỏ sẽ được lựa chọn làm số cụm, biến ngẫu nhiên độc lập  
11  
được sử dụng để chuẩn hóa M (C,C) . Biến ngẫu nhiên độc lập này có được bằng  
cách với mỗi giá trk, thực hiện q lần việc tách dữ liệu vào k cụm một cách ngẫu  
M (C,C )  
nhiên. Khi đó, hàm mục tiêu  
sẽ được tính theo công thức (2.2) và:  
F ,k  
F ,k  
q
q
1
1
norm  
F ,k  
i  
i  
F , k  
M
M (C F , k , C F , k )   
M (C  
, C F ,   
)
(2.3)  
q   
q   
k
i 1  
i 1  
Hàm này được thực hiện theo 8 bước sau:  
Hàm: criterion(F, k, P, q)  
Đầu vào: tập con đặc trưng F, số cụm k, tập các cặp thực thể P và tần xuất lấy mẫu  
q
Đầu ra: Điểm đánh giá chất lượng của F k  
Xử lý:  
1. Thực hiện thuật toan k-means với k cụm theo như input trên các tập các cặp  
PF  
2. Khởi tạo ma trận kết nối CF,k dựa trên kết quả phân cụm ở trên  
để gán nhãn cho từng cặp trong PF  
k  
3. Sử dụng biến độc lập ngẫu nhiên  
cho tất cả các PF  
C
4. Khởi tạo ma trận kết nối  
5. Khởi tạo q tập con của tập các cặp thực thể đầy đủ bằng cách lựa chọn ngẫu  
nhiên trong số N cặp ban đầu ( 0 ≤ α ≤1)  
F ,k  
N  
6. Với mỗi tập con, thực hiện phân cụm như trong các bước 2, 3, 4 và cho ra  
C,C  
kết quả  
F,k  
F,k  
7. Tính MF,k để đánh giá chất lượng của k thông qua công thức 2.3  
8. Trả về kết quả MF,k  
Cuối cùng, mô hình thuật toán lựa chọn (Model Selection Agorithm) cho trích chọn  
quan hệ:  
Đầu vào: Tập dữ liệu D với các thực thể được gán nhãn (E1, E2)  
Đầu ra: Tập con các đặc trưng số lượng kiểu quan h(Model Order)  
Xử lý:  
12  
1. Tìm tất cả các ngữ cảnh của tất cả các cặp thực thể có trong tập D. Tập ngữ  
cảnh này đặt tên là P  
2. Xếp hạng các đặc trưng dựa theo công thức (2.1)  
3. Tính khoảng (Kl , Kh) : số các cụm quan hệ có thể có (thấp nhất tới cao nhất)  
4. Thiết lập giá trị ước lượng số kiểu quan hệ k = Kl  
5. Lựa chọn các đặc trưng theo thuật toán criterion(F, k, P, q)  
ˆ
6. Lưu giữ giá trị  
và điểm số chất lượng tương ứng MF,k  
F ,k  
k
7. Nếu k < Kh thì quay lại bước 5, không thì sang bước 8  
ˆ
8. Lựa chọn k và tập con đặc trưng  
có giá trị lớn nhất trong các giá trMF,k  
Fk  
2.2. Học có giám sát trích chọn quan hệ  
Bài toán trích chọn quan hệ ngữ nghĩa giữa hai thực thể cũng được giải quyết  
bằng cách coi đây là bài toán phân lớp sử dụng phương pháp học máy. Các thể hiện  
của quan hệ được chuyển sang các một tập các đặc trưng f1, f2, …, fN, tạo nên một  
vector đặc trưng N chiều. Trong quá trình học, các thuật toán phân lớp được áp  
dụng đối với các thực thể đầu vào để xác định lớp quan hệ của nó, từ đó trích chọn  
được quan hệ có thể có.  
Theo G. Zhou và M. Zhang [32], các mô hình có thể được chia làm ba nội  
dung chính: Phương pháp dựa trên mô hình sinh, dựa vào hàm nhân (tree kernel) và  
phương pháp tiếp cận dựa vào đặc trưng.  
2.2.1. Phương pháp Link grammar  
Phương pháp này được các nhà nghiên cứu thuộc học viện Mac-Planck đưa  
ra năm 2006. Về nguyên tắc, có thể trích chọn được bất cứ quan hệ nào. Hệ thống  
đã thực nghiệm trên 3 quan hệ: birthdate, synonymy, instanceOf.  
Trong phương pháp này đã sử dụng một số các khái niêm cơ bản về  
linkgrammar [12, 40] như sau:  
Mỗi đường liên kết (linkage) là một đồ thị phẳng vô hướng, trong đó:  
Các nút của đồ thị này là các từ của câu.  
Cung nối giữa các nút gọi là kết nối (link).  
Nhãn của các cung này gọi là loại kết nối (connectors) – lấy từ một tập hữu  
hạn các kí hiệu.  
13  
Link grammar là một tập các luật quy định một từ sẽ kết nối với từ đứng sau hoặc  
trước nó bởi loại kết nối nào: <word connectors > hoặc <connectors – word>. Ví  
dụ: từ “was” trong hình 1 sẽ có <subj_link - “was”> và < “was” – compl_link >  
Mỗi đường liên kết của một câu được sinh ra bởi link grammar.  
Hình 1: Ví dụ về đường liên kết (1)  
Hình 2: Ví dụ về đường liên kết (2)  
Một đường liên kết biểu diễn một quan hệ R nếu câu mà đường liên kết mô tả  
chứa cặp thực thể nằm trong quan hệ R. Ví dụ: trong hình 2, thể hiện quan hệ sở  
hữu: “London” has an “airports”  
Một mẫu là một đường liên kết mà trong đó hai từ (cụm từ) có thể được thay  
thế bởi một kí hiệu đại diện (placeholder). Ví dụ: trong hình 1, thay “Chopin” bởi X  
và “composers” bởi Y, ta được một mẫu như ở hình 3.  
Hình 3: Ví dụ về mẫu  
Hình 4: Ví dụ về cặp thực thể sinh bởi quá trình khớp mẫu  
14  
Đường đi ngắn nhất (duy nhất) từ một kí tự đại diện này tới kí tự đại diện kia  
được gọi là một cầu (bridge). (Đường in đậm trong hình 3). Cầu này không bao  
gồm các kí tự đại diện.  
Một mẫu được gọi là khớp với một đường liên kết nếu cầu của mẫu xuất hiện  
trong đường liên kết (cho phép các danh từ hay tính từ là khác nhau)  
Khi một mẫu khớp với một đường liên kết, ta nói mẫu sinh ra một cặp từ  
(cụm từ). Cặp từ này nằm ở vị trí của các kí tự đại diện tương ứng giữa link và mẫu.  
Ví dụ: ở hình …, cặp “Mozart” và “composers” xuất hiện trong đường liên kết, nằm  
tương ứng với các kí tự đại diện X Y trong mẫu ở hình 4. Ta nói, mẫu sinh ra  
cp thực thể <“Mozart” - “composers”>.  
Để tiến hành việc học, Fabian M. Suchanek và cộng sự [15] đã tiến hành  
phân loại các cặp từ, chia chúng làm 3 loại sau:  
Một cặp có thể là một ví d(example) cho quan hệ đích. Ví dụ: với quan hệ  
birthdate , các ví dlà một danh sách tên người ngày sinh của họ  
<Frederic Chopin  
-
-
1810>  
1756>  
<Wolfgang Amadeus Mozart  
Một cặp có thể là một phản ví dụ (counterExample) – là các cặp không thể  
nằm trong một quan hệ. Ví dụ, với quan hệ birthdate, các phản ví dụ có thể  
được suy diễn từ ví dụ. Nếu <“Chopin” - “1810”> là một ví dthì  
<“Chopin” - “2000”> hiển nhiên một phản ví dụ.  
Một cặp có thể là một ứng viên (candidate) có thể có cho quan hệ đích. Ví  
dụ, với quan hệ birthdate, chỉ các cặp có dạng <Tên riêng người – ngày>  
mới có thể là ứng viên.  
Một cặp có thể không thuộc vào 1 trong 3 loại trên.  
Dựa trên các khai niệm này, hệ thống trích chọn quan hệ được đưa ra với 3 pha xử  
lý chính:  
Pha 1: Pha nhận dạng (discovery phase): Xác định các mẫu biểu diễn quan hệ đích  
Trong tt cả các câu, tìm các đường liên kết mà các cặp dxuất hiện.  
Thay thế các cặp này bởi các kí tự đại diện tạo ra các mẫu. Các mẫu thu  
được lúc này được gọi là mẫu chắc chắn (positive patterns)  
Ví d: Khi có câu "Chopin was born in 1810", thì mẫu "X was born in Y" sẽ  
được sinh ra  
15  
Duyệt qua các câu một lần nữa, tìm tất cả các câu có đường liên kết khớp với  
mẫu chắc chắn mà các cặp thực thể sinh ra từ quá trình khớp này thuộc  
phản ví dthì tiến hành thay thế các cặp này bởi các kí tự đại diện, ta được  
các mẫu, gọi là mẫu không chắc chắn (negative patterns)  
Ví dụ: Khi duyệt lại, tìm được câu "Chopin was born in 2000", có cặp <X –  
Y> là <Chopin - 2000> thuộc phản ví dthì mẫu "X was born in Y" sẽ  
được thu sẽ cho vào tập mẫu mẫu không chắc chắn  
Pha2: Pha học (Training Phase): Tạo ra các mẫu chắc chắn nhờ mô hình học máy  
Mô hình học thống kê được áp dụng để học các khái niệm của các mẫu chắc  
chắn từ tập mẫu chắc chắn mẫu không chắc chắn.  
Kết quả của pha này là bộ phân lớp cho các mẫu mẫu chắc chắn hay là  
mẫu không chắc chắn.  
Sử dụng thuật toán phân lớp K-người hàng xóm gần nhất (kNN) hoặc SVM  
Pha 3: Pha kiểm thử (Testing Phase):  
Với mỗi đường liên kết, tạo tất cả các mẫu có thể bằng cách thay thế cặp từ  
(cụm từ) tương ứng bởi các kí tự đại diện.  
Nếu cặp từ này có dạng ứng viên và mẫu được phân lớp là mẫu chắc chắn  
thì cặp này được chấp nhận như là phần tử mới của quan hệ đích.  
2.2.2. Phương pháp trích chọn dựa trên các đặc trưng  
Trong phương pháp này, vector đặc trưng thể hiện quan hệ ngữ nghĩa giữa  
hai thực thể M1 và M2 được xác định từ ngữ cảnh bao quanh các thực thể này.  
Theo Abdulrahman Almuhareb [4], các vector đặc trưng được chia làm hai loại  
chính: một là, đặc trưng dựa vào các từ lân cận của M1 và M2; hai là, đặc trưng dựa  
vào quan hệ về mặt ngữ pháp của M1 và M2. Nội dung của khóa luận này quan tâm  
tới loại đặc trưng thứ hai.  
Trong loại này, thứ tự xuất hiện của các thực thể cũng được phân biệt, ví dụ  
M1 – Parent-Of – M2 thì khác với M2 – Parent-Of – M1 . Với mỗi cặp thực thể, các  
thông tin về từ vựng, ngữ pháp và ngữ nghĩa sẽ được sử dụng như là các đặc trưng  
thể hiện cho quan hệ.  
G. Zhou và M. Zang [32] đưa ra 8 loại đặc trưng thường được sử dụng trong  
phương pháp này:  
Đặc trưng về từ: Tùy theo vị trí của từ mà chúng được phân chia làm 4 loại:  
16  
Tbiu diễn M1 và M2: Trong những từ này, từ trung tâm (head word) được  
coi là quan trọng hơn và mang nhiều ý nghĩa thông tin hơn. Từ trung tâm của  
M1(M2) là từ cuối cùng của cụm từ biểu diễn M1 (M2). Trong trường hợp  
có giới từ nằm trong cụm từ biểu diễn M1 (M2) thì từ trung tâm là từ cuối  
cùng trước khi gặp giới từ. Ví dụ, với một cụm từ biểu diễn M1 là  
“University of Michigan” thì từ trung tâm ở đây là “University”.  
Từ nằm giữa M1 và M2: Các từ này được chia làm 3 loại:  
o Từ đầu tiên nằm ở giữa  
o Từ cuối cùng nằm ở giữa  
o Và các từ còn lại  
Từ nằm trước M1 và từ nằm sau M2: chỉ quan tâm tới 2 từ đứng ngay trước  
M1 và đứng ngay sau M2, được chia làm 2 loại:  
o Từ đầu tiên đứng trước M1 và từ đầu tiên đứng sau M2  
o Từ thứ hai đứng trước M1 và từ thứ hai đứng sau M2  
Như vậy, đặc trưng về từ sẽ gồm các phần sau:  
WM1: tập các từ trong M1  
HM1: từ trung tâm của M1  
WM2: tập các từ trong M2  
HM2: từ trung tâm của M2  
HM12: kết hợp các từ trung tâm của cả HM1 và HM2  
WBNULL: khi không có từ nào nằm giữa  
WBFL: từ duy nhất nằm giữa khi chỉ có một từ nằm giữa  
WBF: từ đầu tiên nằm giữa khi có ít nhất hai từ nằm giữa M1 và M2  
WBL: từ cuối cùng nằm giữa khi có ít nhất hai từ nằm giữa M1 và M2  
WBO: các từ không phải từ đầu tiên và cuối cùng nằm giữa M1 và M2  
BM1#1: từ đầu tiên nằm trước M1  
BM1#2: từ thứ hai đứng trước M1  
AM2#1: từ đầu tiên đứng sau M2  
AM2#2: từ thứ hai đứng sau M2  
17  
Đặc trưng về kiểu thực thể: có 5 loại thực thể được quan tâm là NGƯỜI, TỔ  
CHỨC, CÔNG TY, ĐỊA DANH và GPE. Đặc trưng này sẽ có các thuộc tính sau:  
ET12: thể hiện kiểu thực thể của M1 và M2  
EST12: thể hiện các kiểu thực thể con của M1 và M2  
EC12: thể hiện lớp thực thể của M1 và M2  
Đặc trưng về các bậc có liên quan (mention level): thể hiện các đặc trưng liên quan  
tới thực thể đang xem xét, ví dụ M1 hoặc M2 có thể là TÊN, DANH TỪ và ĐẠI  
TỪ… Đặc trưng này bao gồm hai thuộc tính:  
ML12: kết hợp các thông tin liên quan của M1 và M2  
MT12: kết hợp các thông tin của LDC về kiểu của M1 và M2  
Đặc trưng về nạp chồng: các thuộc tính của đặc trưng này gồm có  
#MB: số lượng  
#WB: số lượng các từ nằm giữa  
M1 > M2 hay M1 < M2:  
Thông thường, các đặc trưng trùng nhau ở trên là quá phổ biến để có thể tự mình  
gây ảnh hưởng. Vì vậy, chúng cần được kết hợp thêm với các thuộc tính khác:  
ET12 (hoặc EST12) + M1 > M2  
ET12(EST12) + M1 < M2  
HM12 + M1 > M2  
HM12 + M1 < M2  
Đặc trưng dựa trên cụm từ: đặc trưng này được đánh giá mang tính then chốt trong  
các bài toán toán trích chọn quan hệ. Các phương pháp khác sử dụng thông tin này  
dựa trên cây phân tích cú pháp, tuy nhiên, trong phương pháp này thì tách bạch việc  
tạo ra các cụm từ và cây phân tích cú pháp đầy đủ. Ở đây, các cụm từ được trích  
chọn dựa trên cây phân tích cú pháp. Hầu hết các đặc trưng về cụm từ quan tâm tới  
từ trung tâm của các cụm nằm giữa M1 và M2. Tương tự như các đặc trưng về từ,  
đặc trưng về cụm từ được chia làm 3 loại sau:  
Các cụm từ trung tâm nằm giữa M1 và M2 chia làm 3 loại con:  
o Cụm từ đầu tiên nằm giữa M1 và M2  
o Cụm từ cuối cùng nằm giữa M1 và M2  
18  
o Cụm từ nằm giữa M1 và M2  
Cụm từ trung tâm nằm trước M1, gồm 2 cụm từ:  
o Cụm từ đầu tiên trước M1  
o Cụm từ thứ hai trước M1  
Cụm từ trung tâm nằm sau M2, gồm 2 cụm từ:  
o Cụm từ đầu tiên sau M2  
o Cụm từ thứ hai sau M2  
Như vậy, đặc trưng này gồm có 12 thuộc tính được biểu diễn như sau:  
CPHBNULL: không có cụm từ nào nằm giữa M1 và M2  
CPHBFL: cụm từ trung tâm duy nhất khi chỉ có duy nhất một cụm từ trung  
tâm  
CPHBF: cụm từ trung tâm đầu tiên nằm giữa nếu có ít nhất hai cụm từ nằm  
giữa M1 và M2  
CPHBL: cụm từ trung tâm cuối cùng nằm giữa nếu có ít nhất hai cụm từ nằm  
giữa M1 và M2  
CPHBO: các cụm từ trung tâm khác nằm giữa M1 và M2 (ngoại trừ CPHBF  
và CPHBL)  
CPHBM1#1: cụm từ trung tâm đầu tiên trước M1  
CPHBM1#2: cụm từ trung tâm thứ hai trước M1  
CPHAM2#1: cụm từ trung tâm đầu tiên sau M2  
CPHAM2#2: cụm từ trung tâm thứ hai sau M2  
CPP: đường nối các nhãn cm từ trên đường đi từ M1 sang M2  
CPPH: đường nối các nhãn cụm từ trên đường đi từ M1 sang M2 chỉ tính các  
cụm từ trung tâm (nếu có ít nhất 2 cụm từ nằm giữa)  
Đặc trưng cây phụ thuộc: đặc trưng này bao gồm các thông tin về từ, từ loại, nhãn  
cụm từ của M1 và M2 dựa trên cây phụ thuộc, trích xuất từ cây phân tích cú pháp  
đầy đủ. Cay phụ thuộc được sinh ra bằng cách sử dụng thông tin về các cụm từ  
trung tâm dựa vào phân tích cú pháp Collins và liên kết tất cả các thành phần của  
cụm từ tới từ trung tâm của cụm từ đó. Các cờ đánh dấu thể hiện M1 và M2 có cùng  
là cụm danh từ, cụm động từ hay cụm giới từ không. Cụ thể, các thuộc tính của đặc  
trưng này như sau:  
19  
ET1DW1: kết hợp của kiểu thực thể và từ phụ thuộc vào M1  
H1DW1: kết hợp của từ trung tâm và từ phụ thuộc vào M1  
ET2DW2: kết hợp của kiểu thực thể và từ phụ thuộc vào M2  
ET2DW2: kết hợp các từ trung tâm và từ phụ thuộc vào M2  
ET12SameNP: kết hợp ET12 với thông tin M1 và M2 có cùng là cụm danh  
từ hay không.  
ET12SamePP: kết hợp ET12 với thông tin M1 và M2 có cùng là cụm giới từ  
hay không.  
ET12SameVP: kết hợp ET12 với thông tin M1 và M2 có cùng là cụm động  
từ hay không.  
Đặc trưng cây phân tích cú pháp: đặc trưng biểu diễn các thông tin có được từ cây  
phân tích cú pháp đầy đủ, bao gồm các thuộc tính:  
PTP: đường đi thể hiện các nhãn cụm từ (loại bỏ các trùng lặp) nối M1 và  
M2 trên cây phân tích cú pháp  
PTPH: đường đi thể hiện các nhãn cụm từ (loại bỏ các trùng lặp) nối M1 và  
M2 trên cây phân tích cú pháp (chỉ tính các cụm từ trung tâm)  
Đặc trưng từ các nguồn tài nguyên giàu ngữ nghĩa: Thông tin ngữ nghĩa từ rất  
nhiều nguồn tài nguyên như WordNet được sử dụng để phân lớp các từ quan trọng  
vào các danh sách ngữ nghĩa khác nhau tương ứng với các quan hệ đã được chỉ ra.  
Các thông tin này rất có ích trong việc giải quyết các trường hợp dữ liệu thô trong  
trích chọn quan hệ. Các nguồn này bao gồm:  
Danh sách tên các quốc gia: bao gồm các thông về tên quốc gia và các tỉnh,  
thành phố của nó. Có hai thuộc tính được sử dụng để biểu diễn đặc trưng  
này:  
o ET1 Country: kiểu thực thể của M1 khi M2 là tên của một quốc gia  
o ContryET2: kiểu thực thể của M2 khi M1 là tên của một quốc gia  
Danh sách từ thể hiện các quan hệ trong gia đình : bao gồm 6 loại quan hệ:  
cha mẹ, ông bà, vợ chồng, anh (chị) em, các quan hệ gia đình khác và quan  
hệ khác. Có hai thuộc tính được sử dụng để biểu diễn thông tin này, bao  
gồm:  
20  
o ET1SC2: kết hợp kiểu thực thể của M1 và lớp ngữ nghĩa của M2 khi  
M2 là một kiểu con của quan hệ xã hội  
o SC1ET2: kết hợp kiểu thực thể của M2 và lớp ngữ nghĩa của M1 khi  
tham số đầu tiên là một dạng của quan hệ gia đình  
Nanda Kambhatla [21] đã huấn luyện mô hình cực đại hóa Entropy sử dụng  
các đặc trưng có được từ luồng đặc trưng như mô tả ở trên để tiến hành trích chọn  
quan hệ.  
Hình 5: Ví dụ về cây phân tích cú pháp  
Hình 6: Các đặc trưng thu được từ cây phân tích cú pháp  
2.2.3. Phương pháp trích chọn dựa trên hàm nhân  
Phương pháp này cũng giống phương pháp trích chọn dựa vào đặc trưng ở  
chỗ cũng biểu diễn quan hệ dưới dạng một vector đặc trưng. Nhưng điểm khác biệt  
ở cơ bản đối với phương pháp dựa vào đặc trưng là ở chỗ: phương pháp này tập  
trung vào việc xây dựng hàm nhân thế nào cho hiệu quả khi tiến hành phân lớp sử  
dụng thuật toán SVM chứ không phải là đặc trưng nào sẽ được lựa chọn.  
21  

Tải về để xem bản đầy đủ

pdf 68 trang yennguyen 07/01/2025 170
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Trích chọn quan hệ thực thể trên Wikipedia tiếng việt dựa vào cây phân tích cú pháp", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_trich_chon_quan_he_thuc_the_tren_wikipedia_tieng_v.pdf