Luận văn Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
-------------------------  
Đỗ Thị Thanh Nga  
TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN  
DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ  
LUẬN VĂN THẠC SĨ  
NỘI - 2010  
LỜI CẢM ƠN  
Trước tiên, tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với TS. Nguyễn  
Phương Thái, giảng viên Bộ môn Khoa học máy tính - Khoa Công nghệ thông tin -  
Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian làm luận văn tốt nghiệp, thầy  
đã dành nhiều thời gian quí báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên  
cứu, thực hiện luận văn.  
Tôi xin được cảm ơn các GS, TS đã giảng dạy tôi trong quá trình học tập và làm  
luận văn. Các thầy đã giúp tôi hiểu thấu đáo hơn lĩnh vực mà mình nghiên cứu để có  
thể vận dụng các kiến thức đó vào trong công tác của mình.  
Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã  
tạo mọi điều kiện tốt nhất, động viên, cổ vũ tôi trong suốt quá trình học tập và nghiên  
cứu để hoàn thành tốt bản luận văn tốt nghiệp này.  
Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên  
chắc chắn luận văn này còn nhiu thiếu sót và hạn chế. Kính mong nhận được sự góp ý  
của thầy cô và các bạn.  
Hà Nội, ngày 20 tháng 09 năm 2010  
Học viên  
Đỗ Thị Thanh Nga  
LỜI CAM ĐOAN  
Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp  
đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan. Các nội dung nghiên cứu  
và kết quả trong đề tài này là hoàn toàn trung thực.  
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được  
liệt kê tại phần Tài liệu tham khảo ở cuối luận văn.  
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định  
cho lời cam đoan của mình.  
Hà Nội, ngày 20 tháng 09 năm 2010  
Học viên  
Đỗ Thị Thanh Nga  
MỤC LỤC  
DANH MỤC CÁC BẢNG..................................................................................................... 1  
DANH MỤC CÁC HÌNH VẼ, ĐỒ TH................................................................................. 2  
MỞ ĐẦU............................................................................................................................... 3  
CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ.......................................................................... 5  
1.1. Tổng quan về độ tương tự............................................................................................ 5  
1.2. Khái niệm độ tương tự................................................................................................. 6  
1.2.1. Định nghĩa độ tương tự (Definition of Similarity) ................................................ 7  
1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values).............................. 8  
1.2.3. Độ tương tự chuỗi (String Similarity-A case study).............................................. 9  
1.3. Độ tương tự ngữ nghĩa............................................................................................... 10  
CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-T............................................................................... 11  
2.1. Khái niệm từ, thuật ng............................................................................................. 11  
2.1.1. Từ và cấu trúc từ của tiếng Việt .......................................................................... 11  
2.1.1.1. Định nghĩa t............................................................................................... 11  
2.1.1.2. Cấu trúc từ của tiếng Việt ............................................................................ 11  
2.1.2. Nghĩa của từ ....................................................................................................... 12  
2.1.3. Thuật ngữ (terms) ............................................................................................... 12  
2.2. Từ đồng nghĩa ........................................................................................................... 12  
2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa .......................................................... 14  
2.3.1. Dựa trên trí tuệ nhân tạo (AI-based).................................................................... 14  
2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based)........................................................ 14  
2.3.3. Dựa trên ngữ liệu (Corpus-based) ....................................................................... 14  
2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet)...................... 15  
2.4.1. Khái quát về từ điển WordNet ............................................................................ 15  
2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet....................................................... 16  
2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu........................................................... 17  
2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm)............... 18  
2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn).................................. 18  
2.5.3. Phương pháp của Dekang Lin............................................................................. 18  
CHƯƠNG III. ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN ..................................................... 21  
3.1. Xử lý văn bản tiếng Việt............................................................................................ 21  
3.1.1. Một số kết quả đã đạt được................................................................................. 21  
3.1.2. Đặc trưng của cấu trúc ngữ pháp tiếng Việt ........................................................ 23  
3.2. Tách từ trong văn bản tiếng Việt................................................................................ 23  
3.3. Các hướng tiếp cận tách từ ........................................................................................ 24  
3.3.1. Các hướng tiếp cận dựa trên “từ” ....................................................................... 24  
3.3.2. Các hướng tiếp cận dựa trên ký t...................................................................... 25  
3.4. Một số phương pháp tách từ tiếng Việt hiện nay........................................................ 26  
3.4.1. Phương pháp Maximum Matching: Forward/Backward ..................................... 26  
3.4.2. Phương pháp Transformation-based Learning (TBL) ......................................... 27  
3.4.3. Mô hình tách từ bằng WFST và mạng Neural .................................................... 27  
3.4.3.1. Tầng WFST ................................................................................................. 27  
3.4.3.2. Tầng mạng Neural ....................................................................................... 28  
3.4.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di  
truyền........................................................................................................................... 28  
3.4.4.1. Online Extractor........................................................................................... 28  
3.4.4.2. GA Engine for Text Segmentation ............................................................... 29  
3.4.5. Nhận xét............................................................................................................. 29  
3.5. Độ tương tự văn bản-văn bản..................................................................................... 30  
CHƯƠNG IV. TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG  
TỰ GIỮA TỪ VỚI TỪ........................................................................................................ 33  
3.1. Phát biểu bài toán...................................................................................................... 33  
3.2. Giải quyết bài toán .................................................................................................... 33  
3.2.1. Chuẩn bị dữ liệu................................................................................................. 33  
3.2.2. Tách từ: Tách văn bản thành các từ ghép và danh từ riêng ................................. 36  
3.2.2.1. Tách từ ghép trong văn bản.......................................................................... 36  
3.2.2.2. Tách danh từ riêng trong văn bản................................................................. 39  
3.2.3. Tính toán độ tương tự văn bản ............................................................................ 41  
3.3. Xây dựng hệ thống .................................................................................................... 44  
3.3.1. Nhập trực tiếp 2 văn bản .................................................................................... 45  
3.3.2. Nhập 2 văn bản từ file ........................................................................................ 46  
3.3.3. Lấy nội dung 2 văn bản từ URL ......................................................................... 47  
3.4. Kết quả thử nghiệm và đánh giá ................................................................................ 48  
3.4.1. Một số ví dụ cụ thể ............................................................................................. 48  
3.4.2. Kết quả thử nghiệm ............................................................................................ 54  
3.4.2.1. Cách tiến hành ............................................................................................. 54  
3.4.2.2. Kết quả thử nghiệm...................................................................................... 54  
3.4.3. Đánh giá............................................................................................................. 59  
KẾT LUẬN ......................................................................................................................... 61  
HƯỚNG PHÁT TRIỂN....................................................................................................... 62  
TÀI LIỆU THAM KHẢO.................................................................................................... 63  
1
DANH MỤC CÁC BẢNG  
Bảng  
Trang  
11  
Bảng 1. Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com  
Bảng 2. Mô tả các bộ ba của từ “giàu”  
19  
Bảng 3. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh  
Bảng 4. Địa chỉ của 20 tin tức trên một số trang Web  
Bng 5. Một số kết quả độ tương tự của hai file bất kỳ  
Bảng 6. Kết quả đánh giá 20 tin tức do người và máy thực hiện  
Bảng 7. Địa chỉ của 30 tin rao vặt trên các trang Web  
Bảng 8. Một số kết quả độ tương tự của hai tin rao vặt bất kỳ  
Bảng 9. Kết quả đánh giá 30 tin rao vặt do người và máy thực hiện  
24  
54  
55  
56  
56  
58  
59  
2
DANH MỤC CÁC HÌNH V, ĐỒ THỊ  
Hình  
Trang  
9
Hình 1. Ví dụ phân phối của các giá trị có thứ tự ưu tiên  
Hình 2. Một phần từ điển WordNet  
16  
24  
34  
34  
35  
35  
45  
45  
46  
46  
47  
48  
Hình 3. Các hướng tiếp cận cơ bản trong việc tách từ  
Hình 4. Một phần của từ điển Dict  
Hình 5. Danh sách một số file trong kho ngữ liệu đã xử lý  
Hình 6. Một phần của từ điển các từ ghép  
Hình 7. Một phần từ điển CompoundDict  
Hình 8. Giao diện chính của hệ thống  
Hình 9. Giao diện cho phép nhập trực tiếp hai văn bản  
Hình 10. Giao diện kết quả độ tương tự sau khi nhập hai văn bản  
Hình 11. Giao diện nhập hai văn bản từ file  
Hình 12. Giao diện kết quả sau khi nhập hai văn bản từ file  
Hình 13. Giao diện tính độ tương tự nội dung của hai trang Web  
3
MỞ ĐẦU  
1. Tính cấp thiết của đề tài  
Trong thời đại công nghsnhư hin nay, các nguồn tài liệu là vô cùng  
phong phú. Việc “sao chép tài liu” theo nghĩa tiêu cc như đạo văn, sao chép các  
luận án, luận văn, đồ án trnên phbiến và đang là vn nn. qui mô rng hơn,  
các thư vin đin tngày càng nhiu, mt tài liu có thể được phát hành trên  
internet nhiu ln trong nhng thư vin đin tkhác nhau, trên các trang web khác  
nhau.  
Làm thế nào để phát hin ssao chép tài liu theo nghĩa tiêu cc? Làm thế  
nào ngăn chn việc sao chép trái phép, đạo văn, đạo nhc, đạo lun văn, đồ án? Chủ  
đề này đã được nghiên cứu tkhoảng hơn 10 năm qua. Hin tại, đã có mt sgii  
pháp cho vic phát hin sao chép và mt vài công cphn mềm cho phép phát  
hin mt tài liu (gi là văn bn kim tra) có sao chép tmt tp hp các tài liu  
ngun hay không. Tập hp các tài liu nguồn có thđóng- tức là các tài liu tp  
hp trước trong mt tvin điện t- hoc là mở, chẳng hn như tp các tài liu  
văn bn trên internet.  
Đã có mt snghiên cu đề xut các phương pháp khác nhau để xác định  
xem một đoạn văn bn của một tài liu có nm trong mt tài liu nào khác hay  
không. Các phương pháp này chyếu da trên tìm kiếm và so khp chui. Tuy  
nhiên, các phương pháp so khp chui chcó hiu qunếu việc sao chép là  
“nguyên n”. Do vậy một yêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc  
sao chép khi có sửa đổi đôi chút như thay thế mt stbằng từ đồng nghĩa hay thay  
đổi một ít trong thtcác câu trong văn bn.  
Chính vì vậy, đề tài “Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ  
tương tự giữa từ với từ” được chọn làm đề tài luận văn tốt nghiệp của tôi.  
2. Mục tiêu của luận văn  
Vận dụng các phương pháp tính độ tương tự giữa từ với từ để tính độ tương  
đồng ngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có được sao chép từ văn  
bản kia hay không.  
3. Đối tượng và nhiệm vụ của luận văn  
Đối tượng:  
. Tập các văn bản trong bộ dữ liệu mẫu.  
. Tập các tài liệu trên Internet.  
4
Nhiệm vụ:  
Luận văn tập trung vào tính độ tương tự ngữ nghĩa văn bản dựa trên tập ngữ  
liệu có sẵn. Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độ tương  
tự giữa từ với từ và tập các từ đồng nghĩa.  
4. Phương pháp và nội dung nghiên cứu  
. Nghiên cứu lý thuyết về độ tương tự, các cách tính độ tương tự giữa từ với từ.  
. Nghiên cứu về kho ngữ liệu, hiện tượng từ đồng nghĩa.  
. Tìm hiều các cách tách từ trong văn bản tiếng Việt.  
. Nghiên cứu các phương pháp tính độ tương tự ngữ nghĩa văn bản dựa trên độ  
tương tự giữa từ với từ.  
5. Kết cấu của luận văn  
Nội dung chính của luận văn gồm 4 chương:  
Chương I: Khái niệm độ tương tự.  
Chương II: Độ tương tự từ-t.  
Chương III: Độ tương tự văn bản-văn bản.  
Chương IV: Tính độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ  
với từ.  
5
CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ  
1.1. Tổng quan về độ tương tự  
Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng cách”) thuộc  
phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhưng trong khoa học máy  
tính và các ứng dụng máy tính có phần khác. Trong khoa học máy tính, phép tính xấp  
xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic) và  
không theo thể thức (ad-hoc). Trong ngữ cảnh này, khái niệm “sự tương tự” xuất hiện  
ở nhiều dạng, diễn xuất, và nhiều ứng dụng.  
Khái niệm “sự tương tự” có nhiều dạng khác nhau. Bất chấp những khác biệt,  
chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh hai (hay nhiều) đối  
tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau. Luôn có mục  
đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp sau đó được thực  
hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết. Vì lý do đó, hai đối  
tượng được đem so sánh giữ những vai trò khác nhau. Đối tượng thứ nhất đang được  
xem xét và được gọi là vấn đề (problem). Đối tượng thứ hai là đã biết và đã lưu;  
thường được gọi là bản mẫu (prototype) hay tình huống (case).  
“Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết vấn đề,  
nổi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình  
huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition). Chúng có  
liên hvới nhau và không có ranh giới rõ ràng giữa phép loại suy và các phương pháp  
khác. Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đối tượng  
thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tương tự trong  
cùng một lĩnh vực. Một khác biệt cơ bản giữa CBR và phép loại suy là CBR thường  
(không phải luôn luôn) xét các đối tượng được mô tả theo cùng ngôn ngữ mô tả và  
thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hoàn toàn khác nhau.  
Dưới đây là một số ngữ cảnh cần đến “sự tương tự”:  
Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn  
đề bằng cách sử dụng các kinh nghiệm trước đó. Những kinh nghiệm này được  
ghi lại trong một cơ sở dữ liệu gọi là kho tình huống. Ý tưởng bên dưới nhằm  
tái sdụng những kinh nghiệm là: “Nếu hai vấn đề là tương tự thì chúng có các  
giải pháp tương tự”. CBR cũng có một giả định cơ bản là luôn tồn tại kinh  
nghiệm. Với điều kiện này, CBR có thể được áp dụng cho hầu hết các dạng ứng  
dụng. Thường thì có rất nhiều kinh nghiệm được lưu trữ và một khía cạnh thiết  
yếu là nhanh chóng tìm ra những kinh nghiệm hữu ích (bài toán thu hồi).  
6
Trong cơ sở dữ liệu (Databases), “sự tương tự” cũng có liên quan với tìm kiếm,  
và có quan hệ nào đó với CBR. Đa phần cơ sở dữ liệu cần so trùng chính xác.  
Các phép đo độ tương tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt như  
sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý (geo-  
database).  
Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiên  
cứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu. Vì  
những mẫu như thế không phải lúc nào cũng giống hệt nhau, khái niệm “sự  
tương tự” thường đóng một vai trò quyết định.  
Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tương  
tự” được sử dụng để phân loại các đối tượng: các đối tượng tương tự thuộc về  
cùng một lớp/cụm, các đối tượng không tương tự thuộc về các lớp/cụm khác  
nhau.  
Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn xuất  
theo ý nghĩa của chúng và chúng được so sánh với nhau. Ví dụ, một ảnh y khoa  
thực tế và một ảnh không có bệnh lý nào đó được so sánh với nhau; độ tương tự  
giữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa bệnh lý hay  
không. Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này.  
Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sự  
tương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữa  
những con người tương xứng mức độ nào. Có nhiều dạng mô hình về sự tương  
tự trong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc tính  
(featural), dựa trên canh lề (alignment-based), và biến đổi (transformational).  
Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xác  
định vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,…  
Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt được các  
văn bản qua nội dung của chúng. Xét trên khía cạnh nào đó, độ tương tự càng lớn, hai  
văn bản giống nhau càng nhiều.  
1.2. Khái niệm độ tương tự  
Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi. Các định  
nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể hoặc một  
dạng thể hiện của tri thức.  
Nhiều độ đo độ tương tự đã được đưa ra, chẳng hạn như nội dung thông tin  
(Resnik, 1995b), độ đo thông tin chung (mutual information Hindle, 1990), độ đo  
7
dựa trên khoảng cách (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương  
phản (Tversky, 1977). McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử  
dụng trong tìm kiếm thông tin (McGill et al., 1979).  
Một vấn đề trong độ đo độ tương tự trước đây là mỗi một trong số chúng bị trói  
buộc trong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể. Ví dụ độ đo về  
độ tương tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al.,  
1989) thừa nhận rằng phạm vi được thể hiện trong một mạng. Nếu một tập các tài liệu  
không được thể hiện như một mạng, độ đo dựa trên khoảng cách sẽ không được áp  
dụng. Hệ số dice (súc sắc) và hệ số cosin chỉ có thể được áp dụng khi các đối tượng  
được thể hiện như các vecto đặc trưng bằng số.  
Một vấn đề khác với các độ đo độ tương tự trước đây là các điều giả định cơ  
bản của chúng thường không ở trạng thái rõ ràng. Ngoài việc biết các giả định này,  
không thể tạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào.  
Hầu hết tất cả các so sánh và đánh giá của các độ đo độ tương tự trước đây đều dựa  
trên kết quả do kinh nghiệm.  
Định nghĩa độ tương tự trong phần sau đạt được 2 mục đích:  
Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ  
lý thuyết thông tin. Điều đó có thể được áp dụng miễn là phạm vi có một mô  
hình xác suất. Từ đó lý thuyết xác suất có thể được tích hợp với nhiều loại thể  
hiện của tri thức, chẳng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ  
nghĩa (Pearl, 1988), định nghĩa của chúng ta về độ tương tự có thể được áp  
dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trước. Hơn  
nữa, tính phổ biến của định nghĩa còn cho phép độ đo được sử dụng trong lĩnh  
vực không có giả định trước, chẳng hạn như độ tương tự giữa các giá trị có thứ  
t.  
Tính giả định (Theoretical Justification): độ đo độ tương tự không được định  
nghĩa một cách trực tiếp bởi công thức. Hơn nữa, nó được phân phát từ một tập  
các giả định về độ tương tự. Mặt khác, nếu các giả định được cho là hợp lý, độ  
đo độ tương tự cần thiết phải xảy ra.  
1.2.1. Định nghĩa độ tương tự (Definition of Similarity)  
Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ  
tương tự, đầu tiên chúng ta đưa ra các trực giác (intuitions) về độ tương tự.  
Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng của  
chúng. Sự tương đồng càng nhiều, độ tương tự càng lớn.  
8
Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa  
chúng. Càng nhiều sự khác biệt, độ tương tự càng thấp.  
Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt  
nhau (đồng nhất - identical)  
1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values)  
Rất nhiều các đặc trưng có các giá trị ưu tiên. Ví dụ, thuộc tính “chất lượng” có  
thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful”.  
Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai giá trị có thứ  
tự. Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể được áp dụng.  
Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự mô tả  
cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị excellent và  
average”. Do đó, sự tương đồng giữa hai giá trị ưu tiên được giới hạn bên trong giữa  
chúng.  
Giả sử phân phối của thuộc tính “chất lượng” được nêu ra như ở hình 1. Sau đây là 4  
ví dụ tính độ tương tự:  
2log P(excellent good)  
sim(excellent, good) =  
log P(excellent) + log P(good)  
2log(0.050.10)  
log0.05log0.10  
0.72  
2log P(good average)  
log P(average) + log P(good)  
sim(good, average) =  
2log(0.100.50)  
0.34  
log0.10log0.50  
2log P(excellent good average)  
log P(excellent) + log P(average)  
sim(excellent, average) =  
2log(0.050.10 0.50)  
0.23  
log0.05log 0.50  
2log P(good average bad)  
log P(good) + log P(bad)  
sim(good, bad) =  
2log(0.10 0.500.20)  
0.11  
log0.10 log0.20  
9
Hình 1: Ví dụ phân phối của các giá trị có thứ tự ưu tiên  
Kết quả chỉ ra rằng độ tương tự giữa “excellent” và “good” cao hơn độ tương tự giữa  
“good” và “average”, độ tương tự giữa “excellent” và “average” cao hơn độ tương tự  
giữa “good” và “bad”.  
1.2.3. Độ tương tự chuỗi (String Similarity-A case study)  
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát từ  
cùng một gốc như là một từ cho sẵn. Ví dụ, cho trước từ “eloquently”, mục đích của  
chúng ta là để tìm ra các từ liên quan khác như “ineloquent”, “ineloquently”,  
“eloquent” và “eloquence”. Để làm điều đó, ta có thể định nghĩa độ đo tương tự giữa  
hai chuỗi và xếp hạng các từ trong danh sách từ theo thứ tự giảm dần của độ tương tự  
với từ cho sẵn. Những từ xuất phát từ cùng một từ gốc nên xuất hiện sớm trong bảng  
xếp hạng.  
Chúng ta tiến hành thử nghiệm với 3 độ đo sau:  
Độ đo đầu tiên được định nghĩa như sau:  
1
simedit (x, y)   
1editDist(x, y)  
ở đó editDist(x,y) là số kí tự nhỏ nhất cần chèn vào và xóa đi để chuyển từ xâu này  
thành xâu khác.  
Độ đo độ tương tự thứ hai là dựa trên số bộ ba khác nhau trong hai xâu:  
1
sim (x, y)   
tri  
1tri(x) tri(y) 2tri(x)tri(y)  
10  
ở đó tri(x) là tập các bộ ba trong x. Ví dụ tri(eloquent) = {elo, loq, oqu, que, ent}  
Độ đo độ tương tự thứ ba là dựa trên giả định là xác suất của một bộ ba xảy ra  
trong một từ là độc lập với các bộ ba khác trong từ đó.  
2  
log P(t)  
ttri(x)tri( y)  
sim(x, y)   
log P(t)   
log P(t)  
ttri( y)  
ttri(x)  
1.3. Độ tương tự ngữ nghĩa  
Độ tương tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc các thuật ngữ  
trong một danh sách các thuật ngữ được gán một tỷ lệ dựa trên sự giống nhau về nội  
dung ý nghĩa của chúng.  
Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trong rất  
nhiều lĩnh vực như trong y học (so sánh các gen), trong phân lớp văn bản (các văn bản  
tương tự nhau thì cùng thuộc một lớp),…  
Mỗi lĩnh vực khác nhau có các cách để tính độ tương tự ngữ nghĩa khác nhau.  
Sau đây chúng ta sẽ tìm hiểu các phương pháp tính độ đo tương tự từ-từ và độ đo  
tương từ giữa văn bản-văn bản.  
11  
CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ  
2.1. Khái niệm từ, thuật ngữ  
2.1.1. Tvà cấu trúc từ của tiếng Việt  
2.1.1.1. Định nghĩa từ  
Khái niệm từ nghe rất thông dụng dễ hiểu nhưng định nghĩa chính xác thế nào  
thì không đơn giản. Từ trước tới nay cũng có nhiều định nghĩa được đưa ra, tất cả đều  
đúng nhưng chưa hoàn chỉnh. Dưới đây, tôi nêu ra một số định nghĩa về từ.  
Thời Hy Lạp cổ đại, trường phái ngôn ngữ Alexandre định nghĩa: “Từ là đơn vị  
nhỏ nhất trong chuỗi lời nói”. Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa,  
hoàn toàn có khả năng độc lập và bản thân có thể làm thành câu tối giản”.  
Còn với những nhà ngôn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tín  
hiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm  
chỉ tiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị  
tách rời có thể hiểu được”. Theo Nguyễn Kim Thản thì “Từ là đơn vị cơ bản của ngôn  
ngữ, có thể tách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là  
một khối hoàn chỉnh về mặt ý nghĩa và cấu tạo”. Quan niệm của ông về “đơn vị cơ  
bản” là những đơn vị có số lượng hữu hạn để thông báo, trao đổi tư tưởng cho nhau.  
Đơn vị này phải có ý nghĩa, và khi sử dụng, người dùng phải có ý thức về nó. Chính vì  
thế, từ không thể là câu, và không thể là âm tiết (vì nhiều khi âm tiết không có nghĩa  
và khi sử dụng, người dùng không ý thức về nó).  
Có người lại cho rằng “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm  
bền vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do  
trong lời nói để tạo câu”. Ví dụ: nhà, người, áo, nếu, sẽ, thì, đường sắt, sân bay, dạ  
dày, đen sì, v.v..  
2.1.1.2. Cấu trúc từ của tiếng Việt  
Từ tiếng Việt không giống với ngôn ngữ phương Tây khác là không thể tách để  
xác định từ loại. Từ trong tài liệu tiếng Việt có thể là từ đơn (từ có cấu tạo từ một âm  
tiết) hoặc từ ghép (từ có cấu tạo từ hai âm tiết trở lên. Theo như thống kê trên trang  
http://Vdict.com thì độ dài của một từ tiếng Việt được thể hiện trong bảng:  
Độ dài của từ  
Tần số  
8933  
Tỉ lệ %  
12.2  
1
2
48995  
67.1  
12  
5727  
3
7.9  
9.7  
3.1  
100  
4
7040  
2301  
5  
Tổng cộng  
72994  
Bảng 1: Tấn suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com  
2.1.2. Nghĩa của từ  
Nghĩa của từ là một khái niệm đã được nêu ra từ lâu và cũng đã có nhiều cách  
hiểu, nhiều định nghĩa khác nhau.  
Nghĩa của từ cũng phản ánh những đặc trưng chung, khái quát của sự vật, hiện  
tượng do con người nhận thức được trong đời sống thực tiễn tự nhiên và xã hội. Tuy  
nhiên, nó có thể chưa phải là kết quả của nhận thức đã tiệm cận đến chân lí khoa học.  
Vì thế, sự vật, hiện tượng nào mà càng ít được nghiênc cứu, phám phá thì nhận thức về  
nó được phản ánh trong nghĩa của từ gọi tên nó càng xa với khái niệm khoa học.  
Việc xác định nghĩa của từ trong văn bản là một trong những thách thức lớn  
nhất trong xử lý ngôn ngữ tự nhiên. Nghĩa của từ chưa biết thường được suy ra từ văn  
cảnh sử dụng chúng. Sự nhận dạng các từ đồng nghĩa là bước khởi đầu trong việc học  
định nghĩa một từ.  
2.1.3. Thuật ngữ (terms)  
Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó, ví dụ:  
máy tính”, “công nghệ phần mềm”, “tính toán song song”. Các thuật ngữ này thuộc  
vlĩnh vực “tin học”.  
Một thuật ngữ có thể có nhiều từ. Ví dụ: Thuật ngữ “công nghệ” gồm 2 từ  
“công” và “nghệ”, khi tách chúng ra thì 2 từ này không có ý nghĩa gì cả.  
2.2. Từ đồng nghĩa  
Từ đồng nghĩa không phải là những từ trùng nhau hoàn toàn về nghĩa. Chúng  
nhất định có những dị biệt nào đó bên cạnh sự tương đồng (mặc dù phát hiện sự dị biệt  
đó không phải lúc nào cũng dễ dàng). Chính sự dị biệt đó lại là lí do tồn tại và làm nên  
những giá trị khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Rõ ràng tính đồng  
nghĩa có những mức độ khác nhau, và ta có thể nêu quan niệm như sau:  
Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa, khác nhau về âm  
thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách  
nào đó, hoặc đồng thời cả hai.  
13  
dụ:  
- start, commence, begin (trong tiếng Anh)  
- cố, gắng, cố gắng (trong tiếng Việt)  
là những nhóm từ đồng nghĩa.  
Những từ đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm đồng  
nghĩa. Trong các ví dụ vừa nêu, ta có các nhóm đồng nghĩa của từng ngôn ngữ tương  
ứng.  
Những từ đồng nghĩa với nhau không nhất thiết phải tương đương với nhau về  
số lượng nghĩa, tức là các từ trong một nhóm đồng nghĩa không nhất thiết phải có  
dung lượng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhưng từ kia có thể  
có tới dăm bảy nghĩa. Thông thường, các từ chỉ đồng nghĩa ở một nghĩa nào đó. Chính  
vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau: Ở  
nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa khác.  
Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa. Tuỳ theo từng nghĩa được nêu lên  
để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm như:  
+ coi – xem: coi hát – xem hát  
+ coi – giữ: coi nhà – giữ nhà  
Trong mỗi nhóm từ đồng nghĩa thường có một từ mang nghĩa chung, được  
dùng phổ biến và trung hoà về mặt phong cách, được lấy làm cơ sở để tập hợp và so  
sánh, phân tích các từ khác. Từ đó gọi là từ trung tâm của nhóm.  
Ví dụ trong nhóm từ “yếu, yếu đuối, yếu ớt” của tiếng Việt, từ “yếu” được gọi là từ  
trung tâm.  
Tuy nhiên, việc xác định từ trung tâm của nhóm không phải lúc nào cũng dễ và  
đối với nhóm nào cũng làm được. Nhiều khi ta không thể xác định một cách dứt khoát  
được theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ như: tần số  
xuất hiện cao (hay được sử dụng) hoặc khả năng kết hợp rộng.  
Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt như: hồi, thuở, thời; hoặc  
chờ, đợi; hoặc chỗ, nơi, chốn,... rất khó xác định từ nào là trung tâm.  
Tập hợp đủ các nhóm từ đồng nghĩa, phân tích cho hết được những nét giống  
nhau, khác nhau giữa các từ trong mỗi nhóm, luôn luôn làm mong muốn của những  
người nghiên cứu và xử lí vấn đề từ đồng nghĩa.  
14  
Nhận biết để tập hợp, phân tích thấu đáo các nhóm đồng nghĩa sẽ giúp cho  
người ta sử dụng được chuẩn xác và tinh tế hơn, phù hợp với tâm lí và thói quen của  
người bản ngữ hơn. Điều đó rất quan trọng đối với việc dạy và học tiếng.  
2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa  
Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là  
“khử sự nhập nhằng ngữ nghĩa của từ” là bài toán khó khăn nhất và cũng là bài toán  
trọng tâm mà đến nay trên thế giới vẫn chưa giải quyết ổn thỏa. Hiện nay, có rất nhiều  
mô hình với nhiều hướng tiếp cận khác nhau, chủ yếu là:  
2.3.1. Dựa trên trí tunhân tạo (AI-based)  
Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ  
nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hệ như IS-A, PART-  
OF…Tuy nhiên, do hầu hết các tri thức về ngữ nghĩa trong cách tiếp cận này đều được  
xây dựng bằng tay, vì vậy các mô hình đều dừng lại ở mức độ biểu diễn trên một vài  
câu. Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức.  
2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based)  
Vào đầu thập niên 80, người ta đã chuyển sang hướng khai thác tri thức tự động  
từ các từ điển điện tử (MRD: Machine Readable Dictionaries) như các từ điển đồng  
nghĩa…để có thể phần nào khắc phục hạn chế của hướng tiếp cận dựa trên trí tuệ nhân  
tạo (thiếu tri thức). Kết quả của hướng tiếp cận này là sự ra đời của mạng WordNet –  
Một cơ sở tri thức khổng lồ về ngữ nghĩa theo hướng liệt kê nét nghĩa. Tuy nhiên, các  
cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống chọn nghĩa tham  
khảo, còn chọn thông tin nào trong số những thông tin có liên quan đó thì ta phải tự  
xác định trong từng trường hợp cụ thể.  
2.3.3. Dựa trên ngữ liệu (Corpus-based)  
Hướng tiếp cận này sẽ rút ra các qui luật xử lý ngữ nghĩa (bằng thống kê, bằng  
máy học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường  
hợp mới. Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn  
dữ liệu hạn chế, thiết bị xử lý chưa hiện đại nên không có điều kiện phát triển. Mãi tới  
thập niên 1990, khi mà công nghệ phát triển mạnh, đã có thể vượt qua được khó khăn  
của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay.  
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng  
tiếp cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm.  
15  
2.4. Độ tương tự ngữ nghĩa t-tdựa trên cơ sở tri thức (từ điển  
WordNet)  
2.4.1. Khái quát về từ điển WordNet  
Wordnet là một cơ sở dữ liệu tri thức từ vựng học được thiết kế dựa trên những  
lý thuyết về ngôn ngữ tâm lý theo cách liên tưởng từ ngữ của con người. WordNet  
được tổ chức dựa theo các quan hệ ngữ nghĩa bởi vì một quan hệ ngữ nghĩa là một  
quan hgiữa các nghĩa và các nghĩa có thể được đại diện bởi nhiều synset. Và chúng  
ta có thể xem những quan hệ ngữ nghĩa như là những con trỏ giữa các synset. Đó là  
đặc tính của quan hệ ngữ nghĩa và chúng có tác động qua lại với nhau.  
Một từ bất kỳ có thể có nhiều nghĩa (word meaning) và khi đó mỗi nghĩa của nó  
sẽ thuộc vào những tập đồng nghĩa khác nhau. Ngược lại, mỗi tập đồng nghĩa lại có  
thể chứa một hoặc nhiều hơn một từ khác nhau. Xét ví dsau:  
dụ:  
Khi tìm từ letter trong WordNet ta sẽ được kết quả như sau:  
The noun letter has 4 senses:  
i. Letter, missive: a written message addressed to a person or organization;  
“wrote an indignant letter to the editor”  
ii. Letter, letter of the alphabet, alphabetic character: the conventional  
characters of the alphabet used to represent speech; “his grandmother  
tauch him his letter”.  
iii. Letter: a strictly literal interpretation (as distinct from the intention); “he  
followed instructions to the letter ”; “he obeyed the letter of the law”.  
iv. Letter, varsity letter: an award earned by participation in a school sport;  
“he won letters in three sports ”.  
Trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa:  
i. Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương  
ứng là “lá thư”, “thư tín”.  
ii. Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic  
character với nghĩa tiếng Việt tương ứng là “ký tự”, “chữ” hay “chữ cái”.  
iii. Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”,  
“nghĩa mặt chữ”.  
16  
iv. Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương  
ứng là “huy hiệu”, “danh hiệu” tặng cho những sinh viên có thành tích thể  
thao đặc biệt ở trường.  
Hình 2: Một phần từ điển WordNet  
2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet  
Một số độ đo trình bày dưới đây được nghiên cứu dựa trên từ điển phân cấp  
WordNet. Tất cả các độ đo này đều có đầu vào là một cặp khái niệm, giá trị trả ra là  
mối quan hệ ngữ nghĩa của chúng. Chúng ta có thể dễ dàng chuyển sang độ tương tự  
t-từ bằng cách lựa chọn bất cứ cặp từ cho sẵn nào mà ý nghĩa của chúng dẫn tới độ  
tương tự cao nhất giữa khái niệm-khái niệm.  
(1) Leacock và Chodorow  
Độ tương tự được xác định bởi công thức:  
length  
SimLch log  
2D  
Trong đó length là độ dài của đường đi ngắn nhất giữa hai khái niệm sử dụng node-  
counting  
D là độ sâu của hệ thống cây phân cấp (độ sâu lớn nhất của sự phân loại)  
(2) Lesk  
Độ tương tự giữa hai khái niệm được xác định như một hàm chồng khít giữa  
các định nghĩa tương ứng, cũng như được cung cấp bởi một từ điển. Ứng dụng của  
Lesk không được hạn cho mạng ngữ nghĩa, và nó có thể được dùng cùng với bất cứ từ  
điển nào cung cấp định nghĩa từ.  
(3) Wu và Palmer  
17  
Độ tương tự được đo bởi độ sâu của hai khái niệm trong WordNet và độ sâu của  
LCS (Least common subsumer) (nút cha chung gần nhất của cả hai khái niệm đó).  
Công thức như sau:  
2depth(LCS)  
depth(concept1) depth(concept2 )  
simwup  
(4) Resnik  
Mức tương tự nhau của hai khái niệm có thể được đánh giá bằng mức độ chia sẻ  
thông tin giữa chúng. Resnik định nghĩa độ tương tự giữa hai khái niệm là “hàm lượng  
thông tin” của cha chung gần nhất của chúng:  
Trả về nội dung thông tin (IC) của LCS của hai khái niệm:  
simres IC(LCS)  
ở đó IC được xác định như sau:  
IC(c) = -logP(c)  
và P(c) là xác suất của một ví dụ của khái niệm c trong tập dữ liệu.  
(5) Lin  
Độ đo này lấy từ lý thuyết của ông về tính tương tự giữa hai đối tượng bất kỳ.  
Cũng gần giống như simjnc  
2IC(LCS)  
simlin   
IC(concept1) IC(concept2 )  
(6) Jiang và Conrath  
Phương pháp này cũng sử dụng khái niệm “hàm lượng thông tin” nhưng ở dạng  
xác suất có điều kiện: xác suất bắt gặp một synset con khi đã có một synset cha:  
1
simjnc   
IC(concept1) IC(concept2 ) 2IC(LCS)  
Trên đây là 6 phương pháp tính độ tương tự từ-từ dựa trên từ điển WordNet.  
Tuy nhiên từ điển này là dành cho ngôn ngữ tiếng Anh. Hiện tiếng Việt của chúng ta  
chưa có bộ từ điển nào có cấu trúc đầy đủ như vậy. Do đó các phương pháp trên khó  
có thể áp dụng được cho từ tiếng Việt.  
2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu  
Độ tương tự ngữ nghĩa dựa trên tập ngữ liệu (corpus) xác định mức độ tương tự  
giữa các từ bằng việc sử dụng thông tin xuất phát từ tập ngữ liệu lớn.  
Chúng ta xét một số phương pháp sau:  
18  
2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên  
điểm)  
PMI sử dụng dữ liệu đã tập hợp từ việc tìm kiếm thông tin (PMI-IR) được đưa  
ra bởi Turney 2001 như một độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa  
của từ. Nó dựa trên các từ đồng xảy ra trên một tập ngữ liệu lớn (large corpora). Độ đo  
PMI-IR cho 2 từ w1 và w2 được tính như sau:  
p(w1,w2 )  
PMI IR(w1, w2 ) log2  
p(w1)p(w2 )  
2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn)  
Trong LSA, các từ đồng xảy ra trong tập corpus được nắm bắt (capture) bằng  
việc giảm số chiều bởi SVD (Singular Value Decomposition) của một ma trận T (ma  
trận từ-tài liệu) thể hiện tập corpus. Trong các thí nghiệm ở đây, chúng ta sẽ thực hiện  
SVD trên tập British National Corpus.  
SVD là thao tác trong đại số tuyến tính, cái có thể được áp dụng cho bất kỳ ma  
trận chữ nhật nào để tìm ra mối tương quan giữa hàng và cột. Trong trường hợp này,  
SVD phân tách ma trận T thành 3 ma trận.  
SVD có thể được xem là cách để vượt qua một số hạn chế của mô hình không  
gian vecto chuẩn (số chiều cao – Sparseness and high dimensionality). Thực tế, độ  
tương tự LSA được tính với số chiều thấp hơn, và mối quan hệ thứ hai giữa thuật ngữ-  
văn bản được khai thác. Độ tương tự trong không gian kết quả được đo bằng độ tương  
tcosin. Chú ý rằng LSA cũng sinh ra một mô hình không gian vecto cho phép thể  
hiện sự đồng nhất (và so sánh) giữa các từ, tập các từ và các văn bản.  
2.5.3. Phương pháp của Dekang Lin  
Phương pháp này do Dekang Lin (1997) đề xuất trong bài báo “Automatic  
Retrieval and Clustering of Similar Words”.  
Kí hiệu (w, r, w’) là một bộ ba có từ trung tâm là w, từ phụ thuộc là w’ và hai từ  
này được quan hệ với nhau thông qua quan hệ r.  
Kí hiệu ||w, r, w’|| là số lượng của một loại bộ ba (w, r, w’). Nếu một giá trị  
trong số ba giá trị w, r hoặc w’ được thay thế bằng dấu * thì giá trị đó là một giá trxác  
định bất kì trong kho ngữ liệu. dụ, || gia_đình, mod, *|| là số lượng bộ ba có từ trung  
tâm là gia_đình và quan hệ là mod, và ||*, *, *|| là tổng số bộ ba được trích từ kho ngữ  
liệu cú pháp.  
Một từ w được mô tả thông qua những bộ ba có từ w đó là từ trung tâm hay nó  
được mô tả thông qua các bộ ba có dạng (w, *, *). Sự tương đồng giữa hai từ được mô  
19  
tả thông qua những bộ ba mà có sự xuất hiện của một hoặc hai từ đó trong kho ngữ  
liệu.  
d: từ giàu được mô tả thông qua các bộ ba sau.  
bộ ba  
số lượng  
|| giàu , mod-of , chuyện ||  
|| giàu , mod-of , cuộc_đời ||  
|| giàu , mod-of , em ||  
1
1
1
1
3
1
1
5
7
1
1
|| giàu , mod-of , hình_ảnh ||  
|| giàu , mod-of , hòn ||  
|| giàu , mod-of , kính ||  
|| giàu , mod-of , kịch ||  
|| giàu , mod-of , người ||  
|| giàu , mod-of , nhà ||  
|| giàu , mod-of , quốc_gia ||  
|| giàu , mod-of , tay ||  
Bảng 2 : Mô tả các bộ ba của từ giàu  
Giả sử rằng sự xuất hiện của các loại bộ ba là độc lập với nhau. Khi đó lượng  
thông tin chứa trong mô tả của một từ là tổng thông tin chứa trong tất cả các bộ ba có  
phần tử trung tâm là từ đó.  
Công thức tính lượng thông tin chứa trong một bộ ba bất kì (w, r, w’) được tính  
bằng tần xuất xuất hiện của bộ ba đó trong kho ngữ liệu cú pháp hoặc trong trường  
hợp bộ ba (w, r, w’) không tồn tại trong kho ngữ liệu thì ta có thể tính lượng thông tin  
đó thông qua các bộ ba chứa một trong các thành phần của bộ ba nói trên trong toàn bộ  
kho ngữ liệu, hay trong trường hợp một bộ ba tồn tại thì lượng thông tin trong bộ ba  
trên được định nghĩa là  
P(w,r,w ) (|| w,r,w ||)/(||*,*,*||)  
20  
Trong trường hợp bộ ba không tồn tại trong kho ngữ liệu thu được thì nó có thể  
tính thông qua các bộ ba khác trong kho ngữ liệu, áp dụng công thức xác suất bayes  
với giả thiết A và C là các biến ngẫu nhiên độc lập với nhau ta có :  
P(A, B, C) = P(A|B, C) P(B, C)  
= P(A|B, C) P(C|B) P(B)  
= P(A|B) P(C|B) P(B)  
với các biến cố ngẫu nhiên  
A: một từ được chọn ngẫu nhiên w.  
B: một kiểu phụ thuộc được chọn ngẫu nhiên r.  
C: một từ được chọn ngẫu nhiên w’  
trong đó  
P(A | B) (Pw,r,* P) /(P*, r,* P)  
P(C | B) (P*,r, w P) /(P*,r,*P)  
P(B) (P*, r,*P) /(P*,*,* P)  
Khi có các giá trị trên ta có thể tính I(w, r, w) là giá trị mô tả lượng thông tin  
chứa trong một bộ ba (w, r, w).  
I (w, r, w’)= - log(P(A|B) P(C|B) P(B)) = - (- log(P(A, B, C)))  
hay  
I(w,r, w ) log(Pw, r, w PP*, r,*P) /(Pw,r,* PP*, r, w P)  
Chú ý rằng I(w, r, w) là lượng thông tin tương hỗ giữa w và w’  
Ta định nghĩa tập T(w) là tập các cặp (r, w’) sao cho giá trị log (P(A, B, C))  
dương. Khi đó độ tương tự sim(w1, w2) giữa 2 từ w1 và w2 được định nghĩa như sau:  
I(w ,r,w) I(w ,r, w)  
1
2
(r,w)T (w1 )T (w2 )  
sim(w , w2 )   
1
I(w ,r, w)   
I(w ,r, w)  
1
2
(r,w)T (w )  
(r,w)T (w2 )  
1
21  
CHƯƠNG III. ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN  
3.1. Xử lý văn bản tiếng Việt  
3.1.1. Một số kết quả đã đạt được  
Tiếng nói và chviết là hai yếu tcơ bn nht ca bt kngôn ngnào.  
Trong sphát trin của công nghthông tin (CNTT) Vit Nam, mt svic liên  
quan đến “tiếng Vit” đã được làm và ít nhiu có kết quban đầu:  
(a) Trước hết là các bgõ chViệt và thành công của vic đưa được bmã  
chVit vào bng mã Unicode, cũng như vic chn Unicode cho bmã  
chuẩn tiếng Vit (nhân đây cũng xin nói thêm, do ca ý thc vchun, rt  
nhiu cán bCNTT, nhiu cơ quan nhà nước vn ca chịu đổi thói quen  
cũ để dùng bmã chuẩn Unicode, một vic rất quan trng ca xlý tiếng  
Vit). Bo tồn chNôm trên máy tính cũng là mt vic đầy nlực và nhiu  
ý nghĩa được nhiu người theo đui lâu nay, cn được nhà nước tiếp tục ủng  
hộ lâu dài (http://nomfoundation.org).  
(b) Tiếp theo có thkể đến các chương trình nhn dng chViệt in (OCR:  
optical character recognition), nhVnDOCR của Vin Công nghThông  
tin, Vin Khoa học và Công nghVit Nam. Các chương trình nhận dng  
chin nhm chuyn các tài liu in trên giy thành các tài liu điện t(dưới  
dng các tp văn bn trên máy tính)  
(c) Các phn mm htrvic sdụng tiếng nước ngoài, tiêu biu là các từ  
đin song ngữ trên máy tính, thí dncác từ điển điện tca Lạc Việt đã  
được dùng rộng rãi trên máy tính để tra cu tAnh-Việt, Vit-Anh. Điều ta  
cn phân bit là các từ đin đin tnày dành cho con người sdụng, khác  
vi từ đin đin tdành cho máy tính sdng trong xlý ngôn ngtnhiên  
(sẽ được đề cp phn sau).  
(d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt, Việt-Anh, chẳng  
hạn như các hệ dịch EVTRAN và VETRAN.  
(e) Một loại việc nữa là Vit hóa các phn mm mà gn đây tiêu biu là kết  
quVit hóa Windows và Microsoft Office của Microsoft. Việc này có thể  
xem như vic “dch” các thông báo tiếng Anh cố định trong các phn mm  
thành các thông báo tiếng Vit.  
Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở  
nên kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử. Với sự ra đời và  
phổ biến của Internet, của sách báo điện tử, của máy tính cá nhân,, của viễn thông,  
22  
của thiết bị âm thanh,…người người ai cũng có thể tạo ra dữ liệu văn bản hay tiếng  
nói. Vấn đề là làm sao ta có thể xử lý chúng, tức chuyển chúng từ các dạng ta chưa  
hiểu được thành các dạng ta có thể hiểu và giải thích được, tức là ta có thể tìm ra  
thông tin, tri thức hữu ích cho mình. Sau đây là một số bài toán tiêu biểu của xử lý  
ngôn ngvới các mức độ khác nhau về xử lý và sử dụng ngôn ngữ tự nhiên của con  
người:  
Nhận dạng tiếng nói (speech recognition): từ sóng tiếng nói, nhận biết và  
chuyển chúng thành dữ liệu văn bản tương ứng [Jelinek, 1998], [Jurafsky and  
Martin, 2000].  
Tổng hợp tiếng nói (speech synthesis): từ dữ liệu văn bản, phân tích và  
chuyển thành tiếng người nói [Jelinek, 1998], [Jurafsky and Martin, 2000].  
Nhận dạng chữ viết (optical character recognition, OCR): từ một văn bản in  
trên giấy, nhận biết từng chữ cái và chuyển chúng thành một tệp văn bản trên  
máy tính.  
Dịch tự động (machine translation): từ một tệp dữ liệu văn bản trong một  
ngôn ngữ (tiếng Anh chẳng hạn), máy tính dịch và chuyển thành một tệp văn  
bản trong một ngôn ngữ khác (tiếng Việt chẳng hạn) [Dorr et al, 2000],  
[Nagao, 1989].  
Tóm tắt văn bản (text summarization): từ một văn bản dài (mười trang chẳng  
hạn) máy tóm tắt thành một văn bản ngắn hơn (một trang) với những nội dung  
cơ bản [Mani and Maybury, 1999].  
Tìm kiếm thông tin (information retrieval): từ một nguồn rất nhiều tệp văn  
bản hay tiếng nói, tìm ra những tệp có nội dung liên quan đến một vấn đề (câu  
hỏi) ta cần biết (hay trả lời) [Baeza-Yates and Riberio-Neto, 1999]. Điển hình  
của công nghệ này là Google, một hệ tìm kiếm thông tin trên Web, mà hầu  
như chúng ta đều dùng thường xuyên.  
Trích chọn thông tin (information extraction): từ một nguồn rất nhiều tệp văn  
bản hay tiếng nói, tìm ra những đoạn bên trong một số tệp liên quan đến một  
vấn đề (câu hỏi) ta cần biết hay trả lời [Cohen and McCallum, 2003].  
Phát hiện tri thức và khai phá dữ liệu văn bản (knowledge discovery and text  
data mining): từ những nguồn rất nhiều văn bản thậm chí hầu như không có  
quan hêj với nhau, tìm ra được những tri thức trước đấy chưa ai biết. Đây là  
một vấn đề rất phức tạp và đang ở giai đoạn đầu của các nghiên cứu trên thế  
giới [Berry, 2004], [Sirmakessis, 2004].  
23  
Còn nhiều bài toán và công nghệ xử lý ngôn ngữ khác, như giao diện người  
máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ra ngôn ngữ,…  
3.1.2. Đặc trưng của cấu trúc ngữ pháp tiếng Việt  
Các đặc điểm trong câu của tiếng Việt:  
. Câu được cấu tạo đa thành phần, có câu đơn, câu ghép, câu tối giản.  
. Các câu được phân tách bằng các dấu chấm câu.  
. Câu hoàn chỉnh có hoặc không sử dụng các trạng từ, từ cảm thán (các từ dừng  
sẽ được loại bỏ khi phân tách để lọc thông tin)  
. Câu được hình thành từ các từ, hoặc các câu đơn.  
. Mỗi câu mang một ý nghĩa thông tin hoàn chỉnh.  
Với các tài liệu tiếng Anh, các từ được phân cách nhau bởi dấu cách. Việc xử lý  
phân tách từ từ các văn bản tiếng Anh tương đối dễ dàng.  
Trong tiếng Việt không thể phân tách được thành những từ riêng bởi dấu cách.  
Vì từ có thể gồm một, hai hoặc nhiều hơn số lượng âm tiết (số lượng từ ghép). Vì thế,  
việc tách từ để chính xác đòi hỏi giải thuật tách từ tốt.  
3.2. Tách từ trong văn bản tiếng Việt  
Tách từ là một khó khăn chính trong việc xử lý văn bản theo ngữ nghĩa đối với  
các ngôn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt. Mặc dù  
được viết bằng các ký tự Latinh mở rộng, tiếng Việt cũng có những đặc tính chung với  
các ngôn ngữ Đông Nam Á khác như khó xác định ranh giới giữa các từ và có các  
điểm khác biệt về ngữ âm, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn Âu.  
Do đó rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên  
cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây  
dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt.  
Tuy nhiên, việc xác định ranh giới từ trong tiếng Việt lại là bài toán khó. Tại  
sao lại như vậy? Đơn vị cơ bản trong tiếng Việt là tiếng, không phải là từ. Từ trong  
tiếng Việt có một số đặc tính sau:  
Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp.  
Từ được cấu trúc từ “tiếng”.  
Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n < 5), bao gồm từ  
láy và từ ghép.  
24  
Trong khi đó, định nghĩa về từ trong tiếng Anh như sau: “Từ là một nhóm ký tự  
có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu” (Từ điển Webster). Dưới  
đây là một số điểm khác biệt chính giữa tiếng Việt và tiếng Anh. Những đặc điểm này  
làm cho việc tách từ tiếng Việt trở nên khó khăn hơn.  
Đặc điểm  
Đơn vị cơ bản  
Tiền tố/Hậu tố  
Từ loại  
Tiếng Việt  
Tiếng  
Tiếng Anh  
Từ  
Có  
Không có  
Chưa được định nghĩa rõ  
Được định nghĩa rõ  
(Not Unanimous)  
Ranh giới từ  
Tổ hợp có nghĩa dựa vào  
ngữ cảnh của các tiếng  
Khoảng trắng hoặc  
dấu câu  
Bảng 3: Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh  
3.3. Các hướng tiếp cận tách từ  
Các hướng tiếp cận cơ bản trong việc tách từ:  
Tách từ  
Dựa trên ký tự  
Dựa trên từ  
Uni-gram  
N-gram  
Thống kê  
Từ điển  
Lai  
Hình 3: Các hướng tiếp cận cơ bản trong việc tách từ  
3.3.1. Các hướng tiếp cận dựa trên “từ”  
Hướng tiếp cận dựa trên tvới mục tiêu tách được các từ hoàn chỉnh trong câu.  
Hướng tiếp cận này có thể chia ra theo 3 hướng: dựa trên thống kê (statistics - based),  
dựa trên từ điển (dictionary – based) và nhóm lai (hydrid) (kết hợp nhiều phương pháp  
với hy vọng đạt được những ưu điểm của các phương pháp này).  
. Hướng tiếp cận dựa trên thống kê: Dựa trên các thông tin thống kê như tần số  
xuất hiện của từ trong tập huấn luyện ban đầu. Hướng tiếp cận này đặc biệt dựa  
trên tập ngữ liệu huấn luyện. Nhờ vậy, hướng tiếp cận này tỏ ra linh hoạt và  
hữu dụng trong nhiều lĩnh vực khác nhau.  
25  
.
Hướng tiếp cận dựa trên từ điển: Ý tưởng của hướng tiếp cận này là những  
cụm từ được tách ra từ văn bản phải được so khớp với các từ trong từ điển. Do  
đó trong hướng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm.  
Hướng tiếp cận “full word / phrase” cần sử dụng một từ điển hoàn chỉnh để có  
thể tách được đầy đủ các từ hoặc ngữ trong văn bản, trong khi đó hướng tiếp  
cận thành phần “component” lại sử dụng từ điển thành phần. Từ điển thành  
phần chỉ chứa các thành phần của từ và ngữ như hình vị và các từ đơn giản.  
Hướng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ vì thực  
hiện hoàn toàn dựa vào từ điển. Nếu như thực hiện thao tác tách từ bằng cách  
sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ từ điển hoàn  
chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và công sức. Nếu tiếp cận theo  
hướng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế, khó khăn khi xây  
dựng từ điển, vì khi đó chúng ta sẽ sử dụng các hình vị từ và các từ đơn giản và  
các từ khác để hình thành nên t, cụm từ hoàn chỉnh.  
. Hướng tiếp cận theo Hybrid: Với mục đích kết hợp các hướng tiếp cận khác  
nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận  
khác nhau nhằm nâng cao kết quả. Hướng tiếp cận này thường kết hợp giữa  
hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của  
các phương pháp này. Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian  
xử lý, không gian đĩa và đòi hỏi nhiều chi phí.  
Tóm lại, các hướng tiếp cận để tách từ tiếng Việt dựa vào từ chỉ khả thi khi  
chúng ta có bộ từ vựng tốt hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy.  
3.3.2. Các hướng tiếp cận dựa trên ký tự  
Các hướng tiếp cận dựa trên ký tự (dựa trên “tiếng” trong tiếng Việt) có thể  
chia làm 2 nhóm nhỏ: uni-gram và n-gram.  
Trong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự  
trong bảng chữ cái. Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định  
các tiếng trong văn bản như rút trích từ 1 ký tự (uni-gram) hay nhiều ký tự (n-gram) và  
cũng mang lại một số kết quả nhất định được minh chứng thông qua một số công trình  
nghiên cứu đã được công bố, như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu  
thô 10MB bằng cách sử dụng phương pháp qui hoạch động để cựa đại hóa xác suất  
xuất hiện của các ngữ. Rồi công trình nghiên cứu của H.Nguyễn[2005] làm theo  
hướng tiếp cận là thay vì sử dụng ngữ liệu thô, công trình tiếp cận theo hướng xem  
Internet như một kho ngữ liệu khổng lồ, sau đó tiến hành thống kê và sử dụng thuật  
giải di truyền để tìm cách tách từ tối ưu nhất, và một số công trình của một số tác giả  

Tải về để xem bản đầy đủ

pdf 69 trang yennguyen 24/06/2025 300
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_tinh_toan_do_tuong_tu_ngu_nghia_van_ban_dua_vao_do.pdf