Khóa luận Các kỹ thuật xác định Collocation và ứng dụng cho tiếng Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Đồng Thị Ngân  
CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ  
ỨNG DỤNG CHO TIẾNG VIỆT  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công Nghệ Thông Tin  
HÀ NỘI - 2010  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Đồng Thị Ngân  
CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ  
ỨNG DỤNG CHO TIẾNG VIỆT  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công Nghệ Thông Tin  
Cán bộ hướng dẫn: TS. Lê Anh Cường  
HÀ NỘI - 2010  
LỜI CẢM ƠN  
Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã  
luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này.  
Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy  
tính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu  
không có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoá  
luận.  
Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã  
luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá  
trình thực hiện luận văn.  
Hà Nội, ngày 21 tháng 5 năm 2010  
Sinh viên thực hiện  
ĐỒNG THỊ NGÂN  
TÓM TẮT LUẬN VĂN  
Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên  
cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về  
collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số  
phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn  
collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương  
pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề  
xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn.  
Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh  
hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu  
thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán  
nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương  
trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng  
tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt.  
GIỚI THIỆU  
Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”,  
mặc dù “strong” và “powerful” tương đương với nhau về nghĩa, và “powerful tea”  
không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giản  
chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân  
theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định  
nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ  
không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh  
nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation  
thường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thành  
phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó.  
Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định  
nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọn  
collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn  
này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất  
hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp  
tương đối cố định.  
Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23],  
biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25,  
27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự  
cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn  
ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn.  
Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được  
tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực  
khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở  
mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp  
thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền  
xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm;  
từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương  
trình.  
Mục tiêu của luận văn:  
Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa,  
đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và  
các bài toán xử lý ngôn ngữ tự nhiên.  
Trình bày một số phương pháp trích chọn collocation dựa trên thống kê. Cụ  
thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương  
pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết  
và phương pháp dựa trên thông tin tương hỗ. Với mỗi phương pháp, từ việc  
trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào  
bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực  
nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích  
chọn collocations trong tiếng Việt.  
Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương  
pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết  
quả và độ chính xác của chương trình.  
Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng  
cho trích chọn collocation có dạng cụm danh từ. Từ việc trình bày cơ sở lý  
thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được  
và độ chính xác của chương trình dựa trên phương pháp này.  
MỤC LỤC  
GIỚI THIỆU  
Chương 1.  
VIỆT  
KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG  
1
1.1.  
1.2.  
ĐỊNH NGHĨA ............................................................................................ 1  
ĐẶC TRƯNG............................................................................................. 1  
1.2.1. Được sử dụng lặp đi lặp lại trong văn bản............................................... 1  
1.2.2. Có tính cứng nhắc:.................................................................................. 2  
1.2.3. Phụ thuộc vào lĩnh vực của văn bản........................................................ 2  
1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: ................................................. 3  
1.3.  
1.4.  
PHÂN LOẠI............................................................................................... 3  
ỨNG DỤNG............................................................................................... 5  
Chương 2.  
MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG  
KÊ 7  
2.1.  
2.2.  
PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ..................................................... 8  
PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT .......................................... 9  
2.2.1. Phương pháp kiểm tra t........................................................................... 9  
2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. ................................. 12  
2.3.  
PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE  
MUTUAL INFORMATION (PMI))...................................................................... 13  
2.4.  
KẾT QUẢ THỰC NGHIỆM .................................................................... 15  
2.4.1. Khái quát về dữ liệu sử dụng ................................................................ 15  
2.4.2. Trích chọn bigrams............................................................................... 16  
2.4.3. Các mô hình thử nghiệm....................................................................... 18  
2.4.4. Kết quả thực nghiệm............................................................................. 19  
Chương 3.  
MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH  
CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH T............................ 25  
3.1.  
GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG  
BIGRAM. ............................................................................................................. 26  
3.1.1. Bước 1: Trích chọn bigram................................................................... 26  
3.1.2. Bước 2: Lọc các bigram không hợp lệ .................................................. 27  
3.2.  
GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH  
TỪ CÓ DẠNG N-GRAM. .................................................................................... 28  
3.2.1. Bước 1:................................................................................................. 29  
3.2.2. Bước 2:................................................................................................. 29  
3.2.3. Bước 3:................................................................................................. 29  
3.3. KẾT QUẢ THỰC NGHIỆM .................................................................... 30  
Chương 4. KẾT LUẬN ............................................................................. 33  
TÀI LIỆU THAM KHẢO  
PHỤ LỤC A  
PHỤ LỤC B  
DANH SÁCH HÌNH VẼ  
Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ  
lớn cửa sổ thay đổi từ 1 đến 5.....................................................................................20  
Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn ................................21  
Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú  
pháp ...........................................................................................................................22  
Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào  
...................................................................................................................................22  
DANH SÁCH BẢNG  
Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt.................................4  
Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh..............................8  
Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt.........................................9  
Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t............11  
Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương..................12  
Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra  
Chi bình phương.........................................................................................................13  
Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin  
tương h.....................................................................................................................14  
Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger...................................................................15  
Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ  
với độ lớn cửa sổ thay đổi từ 1 đến 5..........................................................................19  
Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ  
loại.............................................................................................................................20  
Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú  
pháp ...........................................................................................................................21  
Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm...............23  
Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng .......27  
Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 ..................................................30  
Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 ...................................................30  
Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2.......................31  
Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT  
Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về  
số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người,  
ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên.  
Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và  
liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc  
xây dựng một hệ thống trích chọn collocations cho tiếng Việt. Cụ thể hơn, nó có  
nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation?  
Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại  
của chương sẽ đi sâu vào trả lời bốn câu hỏi này.  
1.1. ĐỊNH NGHĨA  
Firth[17] định nghĩa collocation là một khái niệm cú pháp trừu tượng, không trực  
tiếp liên hệ với nghĩa của các từ cấu thành lên nó. Choueka[5] quan niệm collocation  
là một dãy gồm hai hoặc nhiều hơn các từ liên tiếp nhau, có những đặc trưng của một  
đơn vị cú pháp có nghĩa, và nghĩa của nó không thể được suy ra trực tiếp từ nghĩa của  
các từ thành phần. Còn theo Benson[2]: một collocation là một tổ hợp cố định và lặp  
đi lặp lại các từ. Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka  
lại thiên về chức năng cú pháp của collocation trong văn bản. Định nghĩa của Benson  
là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số  
đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch  
một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương  
ứng với từ. Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành,  
tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về  
collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên  
cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết  
hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí  
và quan hệ ngữ pháp tương đối cố định.  
1.2. ĐẶC TRƯNG  
Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính:  
1.2.1. Được sử dụng lặp đi lặp lại trong văn bản.  
Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản  
không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một  
ngữ cảnh nhất định. Các cụm từ như “to make a decision, to hit a record, to perform  
1
an operation” là các collocation thường gặp trong văn bản tiếng Anh, hay “nhiễm  
HIV/AIDS, chuyển_dịch cơ_cấu, học_hỏi kinh_nghiệm” là các collocation thường gặp  
trong văn bản tiếng Việt; và các cụm từ như “to buy short, to ease the jib” hoặc “tiêm  
vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên  
môn. Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất  
định.  
1.2.2. Có tính cứng nhắc:  
Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố  
định. Nghĩa của một collocation thường không thể trực tiếp được suy ra từ nghĩa của  
các từ cấu thành nên nó. Trong hầu hết trường hợp, một collocation không thể được  
dịch theo kiểu từ đối từ từ một ngôn ngữ sang một ngôn ngữ khác. Ví dụ, chúng ta có  
thể dịch cụm từ “mở cửa” trong tiếng Việt sang tiếng Anh, tiếng Đức một cách dễ  
dàng, nhưng không thể dịch từ đối từ cụm từ “cạnh_tranh gay_gắt, phản_đối  
kịch_liệt” từ tiếng Việt sang tiếng Anh hay tiếng Đức. Một người học tiếng Việt không  
thể dễ dàng sử dụng cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” nếu họ không  
biết trước nghĩa của cả cụm từ trước đó. Dịch một văn bản từ ngôn ngữ này sang một  
ngôn ngữ khác không chỉ đòi hỏi kiến thức về các quy tắc ngữ pháp và ngữ nghĩa vì  
collocations có tính cứng nhắc, kho ngữ liệu song ngữ về collocations thực sự cần thiết  
cho một ứng dụng dịch máy hiệu quả.  
1.2.3. Phụ thuộc vào lĩnh vực của văn bản.  
Trong các văn bản chuyên ngành, tồn tại rất nhiều collocations. Các thuật ngữ  
chuyên ngành thường ít nhiều xa lạ với những người không nghiên cứu, học tập trong  
lĩnh vực đó. Thêm vào đó, có những từ quen thuộc với người đọc nhưng được sử dụng  
với nghĩa hoàn toàn khác nghĩa thông thường trong các văn bản chuyên ngành. Ví dụ  
trong ngành công nghệ thông tin các từ như “kỹ_nghệ phần_mềm, xử_lý bó,  
tài_nguyên hệ_thống…” hoàn toàn là những từ mới đối với những người học trong  
ngành xã hội, hoặc kinh tế khác. Bên cạnh đó, có rất nhiều cụm từ không chứa các  
thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người  
không thuộc chuyên ngành. Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là  
một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị  
ướt trong các điều kiện thời tiết khắc nghiệt. Người bản xứ thường không ý thức được  
tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính  
cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít  
khó khăn.  
2
1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng:  
Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng  
từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của  
cụm từ ban đầu. Tính chất này của collocation thường được sử dụng bởi các nhà thực  
hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]). Các nhà  
thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định  
cụm từ nào là collocation và cụm từ nào không phải là collocation. Họ thu thập thông  
tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ. Các từ khuyết  
có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó,  
đó là việc không đơn giản. Chính vì vậy, collocation có phân phối xác suất riêng  
(Halliday[22]; Cruse[8]). Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện  
liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất  
hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc  
lập. Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn  
và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê.  
1.3. PHÂN LOẠI  
Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều  
nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations. Một hệ thống  
phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần. Theo đó, có hai loại  
collocation chính là collocation có quan hệ về ngữ pháp và collocation có quan hệ về  
ngữ nghĩa. Collocations có quan hệ về ngữ pháp thường bao gồm các giới từ, bao gồm  
các cặp từ có cấu trúc dạng động từ + giới từ(ví dụ come to, put on), tính từ + giới từ  
(như afraid of, fond of) và danh từ + giới từ (ví dụ: by accident, witness to).  
Collocations có quan hệ về mặt ngữ nghĩa là các cặp từ giới hạn về mặt từ vựng,  
không phải khi nào chúng ta cũng có thể thay thế một từ thành phần bằng từ đồng  
nghĩa của nó.  
Một hệ thống phân loại khác là thiên về cấu trúc của collocation. Theo đó, có hai  
loại collocations: các collocations là các cụm từ ghép và các collocation có cấu trúc  
linh động hơn. Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau  
trong văn bản, và với chức năng cú pháp cố định. Cụm danh từ + danh từ là ví dụ về  
loại collocation như thế. Các collocation là các cặp từ linh động bao gồm các  
collocations có dạng chủ ngữ và động từ, và giữa chúng có thể có khoảng cách (hay  
xuất hiện các từ xen ngang).  
3
Một hệ thống nữa được đưa ra bởi Smadja[19] trong bộ công cụ Xtract, theo đó,  
các collocation được chia làm 3 loại chính:  
- Collocations có quan hệ cú pháp: là loại collocation có cấu trúc linh động nhất.  
Chúng thường là các cặp từ không liền nhau trong văn bản, xuất hiện cùng nhau  
lặp đi lặp lại với một cấu trúc ngữ pháp nhất định. Ví dụ: “hostile-takeover”,  
make-decision”. Bảng 1-1 minh họa một số collocations có quan hệ vị ngữ trong  
tiếng Việt.  
Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt  
Loại  
N-A  
N-A  
N-A  
V-A  
V-A  
V-A  
V-V  
V-V  
V-O  
V-O  
V-O  
Collocations  
Màu_sắc sinh_động  
Đồi trọc  
Nụ_cười rạng_rỡ  
Tàn_phá nặng_nề  
Thở_phào nhẹ_nhõm  
Cảm_thông sâu_sắc  
Thực_hiện cải_cách  
Đề_nghị hợp_tác  
Khủng_hoảng tài_chính  
Chăn_nuôi heo  
Lập biên_bản  
với N là danh từ, V là động từ và A là tính từ  
- Collocations là các cụm danh từ cố định: là loại collocation có cấu trúc cố định  
nhất. Chúng bao gồm các cụm danh từ mang tính chất thuật ngữ trong các lĩnh vực  
cụ thể, và các cụm danh từ mà nghĩa của nó không thể được suy ra từ nghĩa của các  
từ thành phần. Ví dụ: “stock market”, “foreign exchange”, “New York Stock  
Exchange”, “The Dow Jones average of 30 industrials”. Bảng 1-2 minh họa một  
số collocation có dạng cụm danh từ cố định trong tiếng Việt.  
4
Bảng 1-2: Một số collocations có dạng cụm danh từ cố định  
Mức thuế_suất nhập_khẩu  
Tình_hình kinh_tế chính_trị  
Khối đại_đoàn_kết toàn dân  
Quyn và nghĩa_vụ của công_dân  
Cuộc chiến_tranh  
Đồn biên_phòng  
- Collocations là các cụm từ khuôn mẫu: thường bao gồm các cụm từ mang tính chất  
thành ngữ, chứa một, một vài, hoặc không có chỗ trống nào. Nếu tồn tại chỗ trống,  
các cụm từ khuôn mẫu cho phép xác định nhãn của các từ có thể được thêm vào  
chỗ trống đó. Ví dụ: “The average finished the week with a net loss of  
*NUMBER*”.  
Bảng 1-3: Một số collocation có dạng cụm từ khuôn mẫu  
Vận_tải hành_khách công_cộng  
quyn và lợi_ích hợp_pháp chính_đáng  
mối quan_hệ hợp_tác hữu_nghị giữa  
nhân kỷ_niệm * NUMBER * năm  
Hiệp_định Thương_mại * NOUN *  
ông * NOUN * - Phó_Giám đốc  
1.4. ỨNG DỤNG  
Collocations tồn tại rất nhiều trong văn bản. Khái niệm về collocation bao trùm  
từ các cụm từ hay đi liền nhau trong văn bản đến các cụm từ mang tính chất thành  
ngữ, các thuật ngữ chuyên ngành. Có hai vấn đề chính cần được quan tâm khi nhắc  
đến collocation, cũng xuất phát từ chính định nghĩa của nó, đó là tính cứng nhắc và  
không thể tách rời về nghĩa giữa các cụm từ. Có những cụm từ, không sai về cấu trúc  
ngữ pháp, cũng không sai về nghĩa hay vi phạm quy tắc từ vựng nào, nhưng vẫn không  
được coi là đúng, hay không được chấp nhận, chỉ đơn giản vì người bản xứ không nói  
như thế, không sử dụng một cụm từ được kết hợp như thế. Vấn đề này chính là nguyên  
nhân của không ít khó khăn mà người mới học một ngôn ngữ gặp phải. Chính vì vậy,  
5
một nhu cầu tự nhiên, rất thường gặp trong đời sống hàng ngày là trích chọn các  
collocations cho một ngôn ngữ để giúp người học ngôn ngữ đó quen với cách dùng từ,  
kết hợp từ của người bản ngữ. Một vấn đề thứ hai liên quan đến collocation chúng tôi  
muốn nhắc đến ở đây là vấn đề liên quan đến nghĩa của collocation. Như đã nói ở trên,  
nghĩa của một collocation thường không được suy ra trực tiếp từ nghĩa của các từ  
thành phần. Đặc trưng này có ảnh hưởng quan trọng đến một hệ thống dịch máy. Yêu  
cầu người dùng đối với mỗi hệ thống dịch máy là văn bản đích đạt được một độ chính  
xác và một độ trôi chảy nhất định. Sử dụng phương pháp dịch từ đối từ để dịch một  
collocation từ một ngôn ngữ này sang một ngôn ngữ khác không chỉ làm giảm độ  
chính xác của hệ thống mà còn ảnh hưởng không nhỏ tới độ trôi chảy của văn bản  
đích. Chính vì vậy, một chương trình dịch máy có khả năng nhận dạng collocation và  
dịch, đồng thời cập nhật vào từ điển collocation song ngữ không chỉ làm tăng độ chính  
xác của chương trình mà còn làm tăng tính tự nhiên của văn bản. Thêm vào đó, kho  
ngữ liệu song ngữ về collocation còn giúp ích không nhỏ cho các chương trình sinh  
ngôn ngữ và nhiều ứng dụng khác.  
Nói tóm lại, trong khi nhu cầu về các ứng dụng xử lý ngôn ngữ tự nhiên đang ngày  
càng tăng cao, việc trích chọn một collocation trong một ngôn ngữ là thực sự cần thiết.  
Nó không chỉ giúp tăng độ chính xác của các chương trình, mà còn làm cho kết quả  
(bản dịch hay ngôn ngữ được sinh ra…) gần với ngôn ngữ tự nhiên hơn.  
6
Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG  
KÊ  
Hướng tiếp cận cổ điển trong nghiên cứu về collocation là hướng tiếp cận của các  
nhà thực hành và biên soạn từ điển. Theo Benson và Morton[2], các thành phần tạo  
thành collocation không thể tách ra xử lý một cách độc lập. Do đó, quá trình trích chọn  
collocation là không theo một khuôn mẫu có sẵn nào, mà phải được trích chọn bằng  
tay, và thêm vào trong từ điển.  
Trong những năm gần đây, các cách tiếp cận dựa trên thống kê đã được áp dụng  
trong các nghiên cứu về ngôn ngữ và sự trích chọn các collocation. Điều này một phần  
xuất phát từ thực tế rằng ngày càng có nhiều corpus dữ liệu lớn tồn tại dưới dạng máy  
tính có thể hiểu được. Chouka[5] đã phát triển chương trình tự động trích chọn  
collocation từ văn bản sử dụng n-gram từ 2 đến 6 từ.  
Một phương pháp đơn giản để xác định các collocation trong corpus dữ liệu là dựa  
trên tần suất xuất hiện. Nếu hai hay nhiều từ thường xuất hiện cùng nhau, chúng hoàn  
toàn có thể tạo thành collocation. Tuy nhiên, n-grams có tần suất xuất hiện cao nhất  
đôi khi lại không phải là một collocation. Ví dụ, nếu chúng ta xét các bigram trong  
corpus dữ liệu như of the, in the, to the, etc. Để giải quyết vấn đề này, Justeson và  
Katz[28] đưa ra một phương pháp dựa trên kinh nghiệm để cải thiện độ chính xác  
chương trình, bằng cách cho các bigram đi qua một bộ lọc dựa trên nhãn từ loại. Bộ  
lọc này chỉ cho đi qua các N-gram có cấu trúc xác định. Một số mẫu được sử dụng để  
dọc như AN, NN, AAN, và ANN, với A tương ứng với tính từ, N tương ứng với danh  
từ. Mặc dù phương pháp dựa trên kinh nghiệm được đưa vào khá đơn giản, tuy nhiên  
đã cải thiện đáng kể độ chính xác của chương trình.  
Phương pháp trích chọn dựa trên tần suất được áp dụng khá hiệu quả cho các cụm  
danh từ cố định. Tuy nhiên, nó lại không thực sự hiệu quả với các collcation có cấu  
trúc linh động hơn, hay với các collcation có các từ thành phần không liền nhau trong  
văn bản. Các phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin  
tương hỗ được đưa ra để cải thiện tình trạng này. Tuy nhiên, mỗi phương pháp có một  
điểm mạnh và điểm yếu nhất định, và tùy vào bộ dữ liệu sử dụng, chúng ta quyết định  
phương pháp trích chọn nào là thích hợp nhất. Phần còn lại của chương này, chúng tôi  
đi sâu vào giới thiệu chi tiết bốn phương pháp cổ điển dựa trên thống kê thường được  
dùng trong trích chọn collocation: phương pháp dựa trên tần số, phương pháp kiểm tra  
t, phương pháp kiểm tra Chi bình phương, và phương pháp sử dụng thông tin tương  
hỗ.  
7
2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ  
Phương pháp này dựa trên giả định: collocation là tổ hợp các từ thường xuất hiện  
cùng nhau trong văn bản. Nếu hai từ (không phải là hư từ), xuất hiện cùng nhau nhiều  
lần hơn một ngưỡng nào nó, có thể coi chúng có quan hệ với nhau, hay có thể coi  
chúng là collocation. Tuy nhiên, độ chính xác của phương pháp này rất hạn chế. Ta có  
thể cải tiến phương pháp này bằng cách cho các cụm từ là bigram đi qua một bộ lọc.  
Bộ lọc này chủ yếu dựa trên nhãn từ loại của các từ trong cụm đưa vào, và chỉ cho qua  
các cụm từ mà nó cho là có thể là một cụm từ. Justeson and Katz[28] đưa ra các mẫu  
cho các cụm từ như vậy cho tiếng Anh. Bảng 2-1 minh họa bộ nhãn sử dụng cho tiếng  
Anh được đề xuất bởi Justeson and Katz[28]. Tuy nhiên, do đặc thù của tiếng Việt là  
tính từ thường đi sau bổ nghĩa cho danh từ, vị trí động từ, tính từ và giới từ trong câu  
khác với tiếng Anh, chúng tôi đề xuất một mô hình nhãn từ loại cho tiếng Việt như  
trong bảng 2-2. Trong các mẫu này, A đại diện cho tính từ, P đại diện cho giới từ và N  
đại diện cho danh từ. Khi tiến hành so sánh kết quả thực nghiệm, quả thật trích chọn  
các bigram theo mẫu sẵn có cải thiện đáng kể độ chính xác của chương trình trích chọn  
dựa trên tần số. Phần cuối của chương sẽ trình bày chi tiết hơn về vấn đề này.  
Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh  
A N  
Linear function  
Regression coefficients  
Gaussian random variable  
Cumulative distribution function  
Mean squared error  
N N  
A A N  
A N N  
N A N  
N N N  
N P N  
Class probability function  
Degree of freedom  
Trong đó, A: tính từ, N: danh từ và P: giới từ.  
8
Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt  
N A  
N N  
V N  
V A  
Cà_phê đặc  
Áo sơmi,  
Hát ông_ổng, nói the_thé…  
Sống lâu, chạy nhanh…  
Đây là phương pháp đơn giản nhất để trích chọn collocations trong văn bản. Tuy  
nhiên, phương pháp này đòi hỏi bộ dữ liệu vào lớn và độ chính xác của chương trình  
phụ thuộc nhiều vào độ lớn của corpus dữ liệu. Thêm vào đó, nó chỉ trích chọn được  
các collocation là cặp từ cố định, trong khi đó, có rất nhiều collocation xuất hiện trong  
văn bản không đi liền nhau.  
2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT  
Trong rất nhiều trường hợp, hai từ có thể ngẫu nhiên xuất hiện cùng nhau mà  
không lập thành collocation. Với những trường hợp như vậy, chúng ta không thể áp  
dụng cách tiếp cận dựa trên tần số. Vì thế, phương pháp kiểm định giả thuyết được đưa  
ra. Bản chất của phương pháp kiểm định giả thuyết là đưa ra kết luận chấp nhận hoặc  
bác bỏ giả thuyết rỗng. Trong bài toán trích chọn collocations, phép kiểm định giả  
thuyết giúp chúng ta xác định xem hai từ xuất hiện cùng nhau một cách ngẫu nhiên  
hay đó là một collocation. Giả thuyết ban đầu H0 là không có sự liên quan giữa các từ  
ngoài các sự xuất hiện ngẫu nhiên. Từ giả thuyết rỗng này, chúng ta xác định các sự  
kiện xảy ra nếu H0 đúng. Tính xác suất p xuất hiện sự kiện khi H0 đúng và loại H0 nếu  
p quá thấp (thông thường p<0.05, 0.01, 0.005 hay 0.001) và giữ lại H0 trong các  
trường hợp khác.  
2.2.1. Phương pháp kiểm tra t  
Kiểm tra t là một phương pháp kiểm định giả thuyết thường dùng. Trong phép  
kiểm tra t, phân phối xác suất của từ wi xung quanh từ gốc w được giả định là tuân  
theo phân phối chuẩn. Giả thuyết rỗng là tập mẫu có phân phối trung bình là µ, phép  
kiểm tra t xem xét sự sai khác giữa giá trị trung bình của tập mẫu và giá trị trung bình  
phân phối chuẩn của nó. Nếu t lớn hơn một ngưỡng t0 nhất định, giả thuyết rỗng H0  
được chấp nhận; ngược lại, H0 bị bác bỏ. Giá trị t được tính dựa theo công thức:  
ꢀꢁꢂ  
t =  
9
Trong đó là giá trị trung bình mẫu (= count(w1, w2) / N), là trung bình phân phối  
(trong bài toán này, ta coi = P(w1w2 ), 2 là phương sai mẫu (= p(1-p) ≈ p (với p rất  
nhỏ)) và N là cỡ mẫu. Sau khi đã tính xong giá trị của t, chúng ta tra bảng phân phối  
của t ứng với độ lệch α tương ứng. Nếu t lớn hơn giá trị t0 ứng với độ lệch xác định,  
ta có thể loại bỏ giả thuyết H0 với độ chính xác (1-).  
Ví dụ áp dụng t-test:  
Giả thuyết rỗng của chúng ta được phát biểu như sau: trung bình chiều cao của  
nam giới là 158cm. Chúng ta xét một tập mẫu gồm chỉ số chiều cao của 200 nam giới,  
với = 169 và σ2 = 2600 và chúng ta muốn xác định tập mẫu này có được lấy từ tập  
dân số đang xét ở trên không, nói cách khác nó có tuân theo giả thuyết rỗng không.  
Giá trị của t được tính như sau:  
ꢈꢉꢊꢁꢈꢋꢌ  
t =  
3.05  
ꢅꢍꢎꢎ  
ꢅꢎꢎ  
Tra bảng giá trị của t tương ứng với độ chính xác α = 0.005, chúng ta thấy giá trị  
t0 = 2.576. Vì t = 3.05 > 2.576 = t0 nên chúng ta có thể bác bỏ giả thuyết rỗng với độ  
chính xác 99.5%. Do đó, tập mẫu không được lấy từ tập dân số ở trên, và độ chính xác  
của phép kiểm tra lên đến 99.5%.  
Để minh họa việc sử dụng phép kiểm tra t trong trích chọn collocations, chúng ta  
tính toán giá trị t cho cụm từ new companies. Chúng ta coi corpus dữ liệu là một dãy  
gồm N bigrams, và tập mẫu là một tập các biến ngẫu nhiên tương ứng với mỗi bigram,  
nhận giá trị bằng 1 khi bigram xuất hiện trong corpus dữ liệu, và nhận giá trị bằng 0  
trong trường hợp ngược lại.  
Trong corpus dữ liệu của chúng ta, new xuất hiện 15,828 lần, companies xuất  
hiện 4675 lần, và có tất cả 14,307,668 bigrams. Giá trị xác suất cho new companies  
được tính như sau:  
ꢈꢋꢌꢏꢌ  
P(new) = ꢈꢐꢑꢒꢓꢉꢉꢌ  
ꢐꢉꢓꢋ  
P(companies) = ꢈꢐꢑꢒꢓꢉꢉꢌ  
Giả thuyết rỗng được phát biểu rằng new và companies xuất hiện độc lập với  
nhau. Hay:  
10  
H0: P(new companies)  
= P(new) P(companies)  
ꢈꢋꢌꢏꢌ  
ꢐꢉꢓꢋ  
ꢈꢐꢑꢒꢓꢉꢉꢌ  
=
×
3.615 x 10-7  
ꢈꢐꢑꢒꢓꢉꢉꢌ  
Nếu giả thuyết rỗng là đúng, quá trình sinh ngẫu nhiên các cặp bigrams và gán  
các giá trị bằng 0 khi bigram được sinh ra là new companies và 0 trong các trường hợp  
khác tuân theo phân phối Bernoulli với p = 3.615 x 10-7 là xác suất bigram được sinh  
ra là new companies. Giá trị trung bình phân phối: µ = 3.615 x 10-7 và độ lệch σ2 =  
p(1-p) p (do p có giá trị rất nhỏ).  
Trong corpus dữ liệu đang xét, new companies xuất hiện 8 lần, có tất cả  
14307668 bigrams. Do đó, với corpus dữ liệu đang xét, chúng ta có giá trị trung bình  
mẫu ꢇ =  
5.591 x 10-7. Từ các giá trị xác suất tính được chúng ta tính được  
ꢈꢐꢑꢒꢓꢉꢉꢌ  
giá trị t cho cặp từ new companies bằng:  
ꢔꢕ  
ꢔꢕ  
ꢀꢁꢂ  
ꢋ.ꢋꢊꢈ×ꢈꢒ ꢁ ꢑ.ꢉꢈꢋ×ꢈꢒ  
t =  
0.999932  
ꢔꢕ  
ꢖ.ꢍꢗꢘ×ꢗꢎ  
ꢗꢙꢖꢎꢕꢍꢍꢚ  
Do t = 0.999932 < 2.576 = t0, ứng với độ chính xác α = 0.005, nên chúng ta  
không thể bác bỏ giả thuyết rỗng rằng new companies xuất hiện độc lập với nhau và  
không tạo thành collocation.  
Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t  
w1 w2  
w1 w2 freq w1 freq w2 freq  
t-score  
nợ_nần chồng_chất  
biển_thủ công_quỹ  
sương_mù dày_đặc  
hồ_chứa_nước Phú_Ninh  
rạp chiếu_bóng  
11  
11  
11  
11  
11  
12  
12  
22  
22  
11  
11  
11  
11  
11  
12  
12  
22  
22  
11  
11  
11  
11  
11  
12  
12  
22  
22  
1251.52307213141  
1251.52307213141  
1251.52307213141  
1251.52307213141  
1251.52307213141  
1251.5222731106  
1251.5222731106  
1251.51428290252  
1251.51428290252  
san phẳng  
Dàn_nhạc Giao_hưởng  
phong_tục tập_quán  
thiêu rụi  
11  
2.2.2. Phương pháp kiểm tra Pearson Chi bình phương.  
Việc sử dụng phương pháp kiểm tra t gặp phải hạn chế vì nó giả định các xác suất  
được phân phối đều, tuy nhiên trong thực tế, điều kiện này rất khó đươc thỏa mãn.  
Chính vì vậy, phương pháp kiểm tra Chi bình phương được đưa ra. Trong trường hợp  
đơn giản nhất, phương pháp này được áp dụng cho hai từ ứng với bảng 2x2 như hình  
2-4. Bản chất của phép kiểm tra này là so sánh tần suất quan sát được trong bảng với  
giá trị tần suất kỳ vọng. Nếu độ lệch giữa tần suất được kỳ vọng và tần suất quan sát  
được lớn, chúng ta có thể bác bỏ giả thuyết rỗng về sự độc lập.  
Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương  
w1 = new  
8
w1 # new  
4667  
w2 = companies  
w2 = companies  
15820  
14287181  
Bảng 2-4 cho thấy các giá trị tần suất của new companies trong corpus dữ liệu.  
C(new) = 15,828, C(companies) = 4,675, C(new companies) = 8 và có tất cả  
14,307,668 bigrams. Chỉ số Chi bình phương được tính bằng tổng bình phương hiệu  
của giá trị mỗi ô (i,j) với giá trị kỳ vọng của nó chia cho giá trị kỳ vọng. Cụ thể, nó  
được xác định theo công thức:  
ꢛꢜ ꢁꢟ ꢠ  
ꢝꢞ  
ꢝꢞ  
χ =  
ꢡ,ꢢ  
ꢝꢞ  
Trong đó i là chỉ số hàng và j là chỉ số cột, N là cỡ mẫu, Eij là giá trị kỳ vọng tại  
ô (i,j). Với bảng 2x2, Ei = (Ei1+Ei2)(E1j+E2j) / N.  
Phép kiểm tra Chi bình phương có thể áp dụng được cho bảng với bất kỳ kích  
cỡ nào; với bảng 2x2 ta có công thức đơn giản để tính giá trị Chi bình phương như  
sau:  
ꢣ(ꢜ ꢜ  
ꢗꢗ ꢅꢅ  
ꢁꢜ ꢜ  
ꢗꢅ ꢅꢗ  
)
χ = (  
)(  
)(  
)(  
)
ꢤꢜ  
ꢅꢅ  
ꢗꢗ  
ꢤꢜ  
ꢗꢗ  
ꢤꢜ  
ꢗꢅ  
ꢤꢜ  
ꢅꢗ  
ꢗꢅ  
ꢅꢗ  
ꢅꢅ  
Theo công thức này, giá trị Chi bình phương cho bảng 2-4 được tính bằng:  
(
)
ꢈꢐꢑꢒꢓꢉꢉꢌ ꢌ ꢥ ꢈꢐꢏꢌꢓꢈꢌꢈꢁꢐꢉꢉꢓ ꢥ ꢈꢋꢌꢏꢒ  
~ 1.55  
(
)(  
)(  
)(  
)
ꢌꢤꢐꢉꢉꢓ ꢌꢤꢈꢋꢌꢏꢒ ꢐꢉꢉꢓꢤꢈꢐꢏꢌꢓꢈꢌꢈ ꢈꢋꢌꢏꢒꢤꢈꢐꢏꢌꢓꢈꢌꢈ  
12  
Tra bảng ta thấy α = 0.05 tương ứng với χ = 3.841 > 1.55, do đó, chúng ta không  
thể bác bỏ giả thuyết rỗng rằng new companies xuất hiện độc lập với nhau. Hay  
new và companies không thể tạo thành collocation.  
Nhìn chung, với bài toán trích chọn collocation, phương pháp kiểm tra t và  
phương pháp Pearson Chi bình phương không có sự khác biệt lớn về kết quả. Trong  
một số trường hợp, phương pháp kiểm tra Chi bình phương tỏ ra thích hợp hơn với các  
xác suất lớn, khi giả định phân phối chuẩn của phép kiểm tra t không được thỏa mãn.  
Chính vì lý do đó, phương pháp kiểm tra Chi bình phương thường được áp dụng phổ  
biến hơn trong trích chọn collocation. Bảng 2-5 minh họa một số kết quả thu được khi  
áp dụng phương pháp kiểm tra Chi bình phương trong trích chọn collocation.  
Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi  
bình phương  
w1 w2  
w1 w2 freq w1 freq w2 freq  
Chi-score  
1566332  
Giáo_hội Phật_giáo  
Biên_soạn từ_điển  
Công_nương Diana  
Tật khúc_xạ  
19  
13  
13  
14  
27  
42  
35  
52  
19  
19  
19  
13  
13  
14  
27  
54  
46  
90  
33  
33  
19  
13  
13  
14  
27  
42  
35  
52  
19  
19  
1566332  
1566332  
1566332  
Xắn tay_áo  
1566332  
Nông_trường Sông_Hậu  
đống đổ_nát  
1218248.88863862  
1191765.97807385  
904969.865937749  
901819.454447676  
901819.454447676  
tiểu thủ_công_nghiệp  
Đo_lường Chất_lượng  
Bác_Hồ kính_yêu  
2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE  
MUTUAL INFORMATION (PMI))  
Church và Hanks [6] định nghĩa một collocation được định nghĩa là một cặp các  
từ xuất hiện cùng nhau trên mức tình cờ trong văn bản. Phương pháp trích chọn  
collocations dựa trên thông tin tương hỗ xuất phát từ định nghĩa này. Xét hai từ x và y,  
có xác suất xuất hiện tương ứng là P(x) và P(y), thì thông tin tương hỗ I(x,y) của hai từ  
được xác định bằng:  
ꢦ(ꢀ,ꢧ)  
I(x, y) = logꢏ  
( )  
ꢦ ꢀ .ꢦ(ꢧ)  
13  
Thông tin tương hỗ giúp chúng ta xác định mức độ phụ thuộc về thông tin của 2  
phần tử x, y. Trong lý thuyết thông tin, thông tin tương hỗ thường được định nghĩa là  
thông tin thu được từ các biến ngẫu nhiên, không phải các giá trị của các biến ngẫu  
nhiên như chúng ta định nghĩa ở đây.  
Fano định nghĩa thông tin tương hỗ là: “Lượng thông tin thu được từ sự xuất hiện  
của sự kiện được biểu diễn bởi [y’] về sự xuất hiện của sự kiện được biểu diễn bởi  
[x’]”.  
Ví dụ, việc đo thông tin tương hỗ cho ta thấy lượng thông tin chúng ta có về sự  
xuất hiện của Ayatollah tại vị trí i trong corpus dữ liệu tăng 18.38bit nếu chúng ta biết  
Ruhollah xuất hiện tại vị trí i+1. Hay, thông tin về sự xuất hiện của Ruhollah tại vị trí  
i+1 trong corpus dữ liệu tăng 18.38 bits nếu chúng ta biết Ayatollah xuất hiện tại vị trí  
i. Chúng ta cũng có thể nói răng độ không chắc chắn của chúng ta giảm 18.38bits. Nói  
cách khác, chúng ta có thể chắc chắn hơn rằng Ruhollah sẽ xuất hiện tại ví trí tiếp theo  
nếu chúng ta biết rằng Ayatollah là từ đang xét.  
Có thể thấy rằng thông tin tương hỗ phản ánh khá tốt tính độc lập giữa hai sự  
kiện. Giá trị thông tin tương hỗ tiệm cận 0 chứng tỏ hai sự kiện độc lập nhưng giá trị  
thông tin tương hỗ lớn hơn 0 không thực sự phản ánh được quan hệ phụ thuộc giữa hai  
biến vì quan hệ phụ thuộc còn phụ thuộc rất nhiều vào tần suất xuất hiện 2 sự kiện.  
Nói cách khác, hai từ có giá trị thông tin tương hỗ lớn chưa hẳn đã là một collocation.  
Một giải pháp cho vấn đề này được đưa ra đó là tách ngưỡng với một tần suất lớn hơn  
một giá trị ngưỡng. Tuy nhiên, điều này vẫn chưa thực sự giải quyết được vấn đề đang  
tồn tại, mà chỉ giảm nhẹ tác động của nó. Một hạn chế nữa của phương pháp này là do  
nó dựa trên giả định là hai từ tạo thành collocation phải có quan hệ phụ thuộc lẫn  
nhau, tập kết quả thường bao gồm cả các cụm từ không phải là collocations nhưng có  
quan hệ với nhau về nghĩa (ví dụ: doctor-nurse, doctor-dentist).  
Như đã nói ở trên, thông tin tương hỗ không thực sự phản ánh khả năng có thể  
tạo thành collocation của 2 từ (x,y), do đó, phương pháp trích chọn collocations dựa  
trên thông tin tương hỗ thường chỉ tồn tại trong các nghiên cứu về lý thuyết và thường  
không được sử dụng trong các ứng dụng thực tế. Bảng 2-6 minh họa một số  
collocations được trích chọn bằng phương pháp sử dụng thông tin tương hỗ.  
Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ  
w1 w2  
w1 w2 freq w1 freq w2 freq  
67 1544 84  
PMI – score  
nền kinh_tế_thị_trường  
6.69599122813447  
14  
tài_nguyên thiên_nhiên  
lý_luận chính_trị  
đội quân  
28  
21  
111  
35  
161  
940  
461  
1166  
2121  
12  
7.80551708204994  
6.90754163914149  
5.28221694345149  
5.88723597735516  
5.61064041341448  
5.68727674271944  
106  
22  
1835  
82  
sạt_lở nặng  
kháng_chiến chống  
gây hoang_mang  
104  
12  
281  
5308  
2.4. KẾT QUẢ THỰC NGHIỆM  
Do cả 4 phương pháp được đề cập ở trên đều nhận đầu vào là tập các bigram và  
thông tin về tần suất xuất hiện của chúng, chúng tôi chia quá trình trích chọn  
collocations dựa trên các phương pháp thống kê làm 3 bước chính: bước 1: trích chọn  
bigram; bước 2: chạy thử nghiệm trên các mô hình; và bước 3: đánh giá kết quả thu  
được. Từ việc xây dựng các mô hình thử nghiệm khác nhau, thu thập kết quả, đánh giá  
và so sánh, chúng tôi đề xuất mô hình hiệu quả cho việc trích chọn collocations trong  
tiếng Việt dựa trên thống kê. Phần bên dưới sẽ trình bày chi tiết hơn về dữ liệu sử  
dụng, ba bước chính trong quá trình trích chọn collcations và một số đề xuất, nhận xét  
về kết quả thu được.  
2.4.1. Khái quát về dữ liệu sử dụng  
Chúng tôi tiến hành thử nghiệm bốn phương pháp trên với đầu vào là ba bộ dữ  
liệu. Ba bộ dữ liệu này đều xuất phát từ cùng một tập dữ liệu được sưu tầm từ báo Lao  
Động và PCWorld gồm khoảng 300,000 câu, tương đương với 7,142,500 từ. Điểm  
khác nhau duy nhất giữa các bộ dữ liệu là ở thông tin về nhãn từ loại và cú pháp. Ba  
bộ dữ liệu được đề cập bao gồm một bộ dữ liệu chỉ được tách từ đơn thuần, một bộ  
được gán nhãn từ loại và một bộ đã được phân tích cú pháp. Thông tin về nhãn từ loại  
và cú pháp sẽ được sử dụng để loại bỏ các bigrams không phù hợp; từ đó, làm tăng độ  
chính xác của chương trình trích chọn.  
Bộ gán nhãn từ loại được chúng tôi sử dụng là bộ vnTagger – một bộ công cụ mã  
nguồn mở được phát triển bởi tác giả Lê Hồng Phương, có thể được download từ trang  
Bộ nhãn được sử dụng bao gồm 17 nhãn chính. Bảng 2-7 trình bày bộ nhãn sử dụng  
bởi bộ vnTagger.  
Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger  
STT Nhãn  
Chú thích  
Danh từ  
1
N
15  
2
3
4
5
6
Np  
Nc  
Nu  
V
A
P
Danh từ riêng  
Danh từ chỉ loại  
Danh từ đơn vị  
Động từ  
Tính từ  
Đại từ  
7
8
9
L
M
R
E
C
I
T
U
X
Y
Định từ (lượng từ)  
Số từ  
10  
11  
12  
13  
14  
15  
16  
17  
Phụ từ  
Giới từ  
Liên từ  
Thán từ  
Trợ từ, tiểu từ, từ tình thái  
Từ đơn lẻ  
Từ viết tắt  
Các từ không phân loại được  
Bộ phân tích cú pháp được sử dụng là bộ phân tích được phát triển bởi nhóm Lê  
Anh Cường, Nguyễn Phương Thái, Vương Hoài Vũ, Phạm Minh Thu, Hồ Tú Bảo;  
được trình bày trong bài báo “An Experimental on Lexicalized Statiscal Parsing for  
Vietnamese” trình bày tại hội nghị KSE năm 2009, tổ chức tại trường ĐH Công  
Nghệ, ĐH Quốc Gia Hà Nội; với độ chính xác khoảng 78%. Bộ phân tích cú pháp  
cũng sử dụng bộ nhãn được miêu tả trong bảng 2-7.  
2.4.2. Trích chọn bigrams  
Vì cả bốn phương pháp đều nhận đầu vào là một file chứa thông tin về các  
bigrams và tần suất xuất hiện của chúng, chúng tôi xây dựng một module riêng chỉ  
đảm nhiệm việc trích chọn bigram, và kết quả của quá trình trích chọn sẽ được dùng  
làm đầu vào cho cả 4 phương pháp. Như đã đề cập ở phần trên, chúng tôi tiến hành  
chạy thử nghiệm cả 4 phương pháp trên 3 bộ dữ liệu. Các bộ dữ liệu đều xuất phát từ  
cùng một nguồn, nên có thể nói về cơ bản chúng giống nhau. Điểm khác nhau duy  
nhất giữa ba tập dữ liệu là thông tin về nhãn từ loại và thông tin cú pháp. Tuy nhiên,  
nhìn vào công thức của cả bốn phương pháp, chúng ta thấy không chỗ nào đề cập đến  
thông tin về cú pháp hay thông tin từ loại. Công thức được sử dụng trong cả 3 trường  
hợp đều như nhau nhưng kết quả thực nghiệm lại khác nhau. Điều này có thể được giải  
thích đơn giản là do chúng tôi áp dụng ba cách trích chọn bigram khác nhau cho 3 tập  
dữ liệu. Nói cách khác, các thông tin thêm vào ở mỗi tập dữ liệu được đưa vào mô  
hình trích chọn bigram để lọc ra các bigram không phù hợp. Chi tiết về các mô hình  
trích chọn bigram cho từng bộ dữ liệu sẽ được trình bày chi tiết ở phần bên dưới.  
16  
2.4.2.1. Mô hình trích chọn bigrams cho bộ dữ liệu đã được tách từ  
Với đầu vào là một file văn bản đơn thuần, chương trình sinh các bigram thỏa mãn  
hai điều kiện sau:  
- Hai từ tạo thành bigram phải nằm trong cùng 1 câu và có khoảng cách giữa chúng  
không qwindow_size từ nhất định.  
- Hai từ tạo thành bigram phải không được là một trong số các từ: {là, hả, hử, à, ừ,  
và, không, rất, sẽ, đã, rồi, được, đây, đó, nay, này, kia, sao, tại, ở, về, thì, rằng, để,  
nhiều, ít, chỉ, với, bằng, của, cho, các, có, vẫn, những, lại, mà, kia, quá, một, cũng,  
như, đây, đấy, đó, sau, khi, một, trong, cả, tới, từ, đến, bị}  
Vì các từ tạo thành collocation có quan hệ với nhau, nên ta giới hạn hai từ tạo  
thành bigram phải nằm trong cùng một cửa sổ có độ lớn window_size từ. Các nghiên  
cứu về collocations trong tiếng Anh cho thấy, độ lớn cửa sổ thích hợp nhất cho hai từ  
tạo thành bigram là 5 từ. Với tiếng Việt, chưa nghiên cứu nào đưa ra độ lớn cửa sổ  
thích hợp nhất cho việc trích chọn collocation trong tiếng Việt; vì vậy, với nỗ lực tìm  
ra độ lớn cửa sổ phù hợp nhất cho việc trích chọn bigram trong tiếng Việt, trong phạm  
vi luận văn này, chúng tôi cho window_size chạy từ 1 đến 5. 5 file bigram được chiết  
xuất đều được dùng làm đầu vào cho các phương pháp được nêu ở chương 3. Thêm  
vào đó, qua thực nghiệm chúng tôi xác định được các từ được đưa ra trong điều kiện  
thứ 2 làm giảm đáng kể độ chính xác của chương trình trích chọn; do đó, chúng tôi  
quyết định loại bỏ các từ đó trong quá trình sinh bigrams. Cũng dựa trên thực nghiệm,  
chúng tôi nhận thấy việc lọc ngưỡng tần số cho file bigram đầu vào sẽ cải thiện đáng  
kể độ chính xác các phương pháp, do đó các file bigram trong giới hạn luận văn này  
đều được lọc ngưỡng tần số bằng 10. Kết quả sau khi chạy chương trình là 2 file: file  
bigram chứa thông tin về bigram (hai từ tạo thành cách nhau bởi dấu cách trắng) cùng  
tần suất xuất hiện của nó trong văn bản, và file unigram chứa thông tin về các từ đơn  
lẻ và tần suất xuất hiện của chúng trong file bigram kết quả.  
2.4.2.2. Mô hình trích chọn bigrams cho bộ dữ liệu đã được gán nhãn  
Một số nghiên cứu cho tiếng Đức[15, 35] hay nghiên cứu cho tiếng Anh của  
Justeson và Katz[28] đã khẳng định việc trích chọn các collocations theo các mẫu cho  
trước sẽ đem lại hiệu quả cao hơn. Do đó, chúng tôi tiến hành thử nghiệm phương  
pháp này cho tiếng Việt, với các mẫu trích chọn có dạng: VN, VA, NA và NN. Trong  
đó N là danh từ, A là tính từ, V là động từ. Tập dữ liệu đầu vào đã được gán nhãn với  
bộ nhãn sử dụng được miêu tả trong bảng 2-7. Do chúng tôi trích chọn các bigram dựa  
trên mẫu, nên độ lớn cửa sổ không cần giới hạn trong bước này. Giả sử một bigram có  
17  
cấu trúc dạng w1w2; khi đó, w1w2 là kết quả sau khi chạy chương trình khi và chỉ khi  
nó thỏa mãn 2 điều kiện sau:  
- w1 là một động từ hoặc 1 danh từ  
- w2 là một danh từ hoặc tính từ xuất hiện đầu tiên sau w1 trong cùng một cụm danh  
từ (tương ứng với w1 là danh từ) hoặc động từ (tương ứng với w1 là động từ) và  
không có động từ nào xen ngang giữa w1 w2.  
Kết quả sau khi chạy chương trình là 2 file: file bigram chứa thông tin về bigram  
cùng tần suất xuất hiện của nó trong văn bản; và file unigram chứa thông tin về các  
unigram và tần suất xuất hiện của nó trong danh sách bigram. Các bigram có tần suất  
nhỏ hơn 10 sẽ bị loại khỏi danh sách kết quả.  
2.4.2.3. Mô hình trích chọn bigrams cho bộ dữ liệu đã được phân tích cú pháp  
Mô hình trích chọn bigram cho bộ dữ liệu đã được phân tích cú pháp cũng  
tương tự như mô hình trích chọn bigram cho bộ dữ liệu đã gán nhãn. Tuy nhiên, với bộ  
dữ liệu đã gán nhãn: các bigram có dạng VN và VA phải có hai từ thành phần thuộc  
cùng một cụm động từ; các bigram có dạng NA hoặc NN phải có hai từ thành phần  
thuộc cùng một cụm danh từ; và trong cả hai trường hợp, không có động từ xen ngang  
giữa hai từ. Kết quả sau khi chạy chương trình cũng là hai file: file bigram chứa thông  
tin về bigram cùng tần suất xuất hiện của nó trong văn bản; và file unigram chứa thông  
tin về các unigram và tần suất xuất hiện của nó trong danh sách bigram. Các bigram có  
tần suất nhỏ hơn 10 cũng bị loại khỏi danh sách kết quả.  
2.4.3. Các mô hình thử nghiệm  
Với các bộ dữ liệu được miêu tả trong phần trên, chúng tôi xây dựng các mô hình  
thử nghiệm trên bốn phương pháp đã được đề cập. Vì mục đích của luận văn là nghiên  
cứu độ chính xác của các phương pháp trích chọn cho tiếng Việt cũng như tác động  
của việc tiền xử lý văn bản lên các phương pháp trích chọn và do số lượng các file  
bigram được sinh ra từ tập dữ liệu chỉ được tách từ khá lớn(do độ lớn cửa sổ thay đổi,  
với mỗi cửa sổ, ta lại thu được một tập bigram); chúng tôi tiến hành thử nghiệm từng  
phương pháp trên cả ba bộ dữ liệu, và chỉ tiến hành thử nghiệm các phương pháp kết  
hợp trên bộ dữ liệu đã được gán nhãn và được phân tích cú pháp. Các mô hình thử  
nghiệm được chia làm hai nhóm chính: thử nghiệm trên từng phương pháp và thử  
nghiệm bằng cách kết hợp ba hoặc bốn phương pháp. Với các phương pháp kết hợp,  
trong phạm vi luận văn này, việc kết hợp mới chỉ dừng lại ở mức lọc ra các kết quả  
trùng khớp từ tập kết quả chạy riêng lẻ của 3 hoặc cả 4 phương pháp trên cùng một tập  
dữ liệu đầu vào. Như vậy, chúng ta sẽ có tất cả 9 mô hình thử nghiệm (4 đơn lẻ, 4 kết  
18  
hợp của 3 phương pháp, và 1 kết hợp của cả 4 phương pháp) để chạy với các bộ dữ  
liệu đầu vào thay đổi. Trong phần tiếp theo, chúng tôi sẽ trình bày chi tiết hơn về kết  
quả thu được từ việc chạy chương trình trên các mô hình thử nghiệm đã được trình  
bày.  
2.4.4. Kết quả thực nghiệm  
Phương pháp kiểm thử chủ yếu trong các nghiên cứu về collocations đến thời  
điểm này[19, 34, 40] vẫn là phương pháp thủ công. Do vậy, trong giới hạn của luận  
văn này, chúng tôi cũng áp dụng phương pháp kiểm thử bằng tay để đánh giá độ chính  
xác của chương trình trích chọn. Với mỗi tập kết quả, chúng tôi lấy ra 500 kết quả đầu  
tiên. Từ 500 kết quả đó, chúng tôi cho sinh ngẫu nhiên 100 kết quả. 100 kết quả thu  
được từ quá trình sinh ngẫu nhiên này sẽ được đánh giá bằng tay từ đó dùng để đánh  
giá độ chính xác của chương trình. Phần bên dưới trình bày chi tiết hơn về kết quả  
thực nghiệm thu được.  
2.4.4.1. Bộ dữ liệu chỉ được tách từ đơn thuần  
Chạy thử nghiệm bốn phương pháp trên bộ dữ liệu chỉ được tách từ, với độ lớn  
cửa sổ thay đổi từ 1 đến 5, ta sẽ thu được 20 tập kết quả. Bảng 2-8 và hình 2-1 minh  
họa kết quả thu được bằng phương pháp kiểm thử bằng tay khi chạy các mô hình thực  
nghiệm trên bộ dữ liệu đã được tách từ.  
Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ  
lớn cửa sổ thay đổi từ 1 đến 5  
Window  
Freq-  
based  
62%  
57%  
46%  
47%  
43%  
Chi-  
square  
66%  
65%  
59%  
66%  
60%  
PMI  
T-test  
size  
1
2
3
4
69%  
67%  
55%  
68%  
69%  
71%  
65%  
64%  
61%  
70%  
5
19  
Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn  
cửa sổ thay đổi từ 1 đến 5  
Nhìn vào hình vẽ và bảng chúng ta thấy độ lớn cửa sổ bằng 1 đem lại kết quả khả  
quan nhất. Khi so sánh các phương pháp, phương pháp kiểm tra t đem lại độ chính  
xác cao nhất cho tiếng Việt, phương pháp kiểm tra Chi bình phương và phương pháp  
dựa trên thông tin tương hỗ (PMI) cũng đem lại kết quả khá khả quan, trong khi đó,  
phương pháp dựa trên tần số mang lại độ chính xác thấp hơn hẳn, đặc biệt khi độ lớn  
cửa sổ tăng lên và có độ chính xác bị ảnh hưởng nhiều nhất bởi độ lớn cửa sổ. Độ  
chính xác của phương pháp trích chọn dựa trên tần số tỉ lệ nghịch với độ lớn của cửa  
sổ. Qua thực nghiệm, chúng tôi cũng nhận thấy phương pháp kiểm tra t và phương  
pháp kiểm tra Chi có độ trùng khớp về kết quả khác lớn, và cả hai phương pháp này  
thích hợp hơn cho việc trích chọn các collocations có dạng cụm danh từ cố định, đặc  
biệt là cụm danh từ riêng (ví dụ: Bộ Công_An, Đoàn thanh_tra, Bí_thư Đảng_ủy,  
Công_nương Diana…).  
2.4.4.2. Bộ dữ liệu đã được tách từ và gán nhãn từ loại  
Bảng 2-9 và hình 2-2 minh họa kết quả thu được khi chạy thử nghiệm 9 mô  
hình trên tập dữ liệu đã gán nhãn.  
Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại  
Freq-  
based square  
65% 63% 65% 64%  
Chi-  
Freq-  
Chi-PMI  
57%  
Freq-Chi- Chi-PMI- Freq-PMI- Freq-Chi-  
PMI T-test  
T-test  
T-test  
T-test  
PMI-T-test  
56%  
66%  
55%  
66%  
20  

Tải về để xem bản đầy đủ

pdf 49 trang yennguyen 07/04/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Các kỹ thuật xác định Collocation và ứng dụng cho tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_cac_ky_thuat_xac_dinh_collocation_va_ung_dung_cho.pdf