Khóa luận Nghiên cứu bài toán xác định collocation trong tiếng Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
Phạm Thị Ngọc Bích  
NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH  
COLLOCATION TRONG TIẾNG VIỆT  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
HÀ NỘI - 2009  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
Phạm Thị Ngọc Bích  
NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH  
COLLOCATION TRONG TIẾNG VIỆT  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
Cán bộ hƣớng dẫn: Th.S Trần Thị Oanh  
Cán bộ đồng hƣớng dẫn: CN. Nguyễn Minh Tuấn  
HÀ NỘI - 2009  
Lời cảm ơn  
Trƣớc hết, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sƣ Tiến  
sỹ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh và Cử nhân Nguyễn Minh Tuấn, những ngƣời  
đã tận tình quan tâm, chỉ bảo và hƣớng dẫn tôi trong suốt quá trình thực hiện Khóa luận  
tốt nghiệp.  
Tôi xin chân thành cảm ơn các thầy cô đã tạo cho tôi những điều kiện thuận lợi để  
học tập và nghiên cứu tại Trƣờng Đại học Công nghệ.  
Tôi cũng xin gửi lời cảm ơn tới các anh chị trong SIS Lab đã tận tình giúp đỡ, hỗ trợ  
cho tôi về kiến thức chuyên môn.  
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, bạn bè, những ngƣời thân yêu luôn  
bên cạnh động viên, là nguồn cổ vũ để tôi hoàn thành Khóa luận tốt nghiệp.  
Tôi xin chân thành cảm ơn!  
Sinh viên  
Phạm Thị Ngọc Bích  
Tóm tắt nội dung  
Collocation là những cụm từ (gồm hai hay nhiều từ) thƣờng đƣợc sử dụng với nhau.  
Bài toán xác định collocation trong một kho ngữ liệu đã và đang nhận đƣợc nhiều sự quan  
tâm, nghiên cứu của các nhà khoa học trên thế giới. Có rất nhiều phƣơng pháp để giải  
quyết bài toán này, song hiện nay, các phƣơng pháp thống kê đang đƣợc sử dụng phổ biến  
bởi những ngƣời làm trong lĩnh vực Xử lý ngôn ngữ tự nhiên.  
Khóa luận tốt nghiệp với đề tài “Nghiên cứu bài toán xác định collocation trong  
Tiếng Việt” tập trung nghiên cứu một số phƣơng pháp thống kê điển hình (Tần suất, Kỳ  
vọng và phƣơng sai, Kiểm thử t, Kiểm thử khi-bình phƣơng, Tỷ lệ likehood, Thông tin  
tƣơng hỗ) để trích chọn collocation. Khóa luận đã tiến hành thử nghiệm xác định  
collocation tiếng Việt cho kết quả tƣơng ứng với các phƣơng pháp kiểm thử thống kê nói  
trên. Thông qua kết quả thử nghiệm, Khóa luận nhận thấy phƣơng pháp Kiểm thử khi-  
bình phƣơng phù hợp nhất để xác định collocation trong tiếng Việt.  
Mục lục  
Danh sách các bảng  
Lời mở đầu  
Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ nhƣ sinh  
ngôn ngữ tự nhiên, dịch tự động, tóm tắt văn bản và xây dựng từ điển... [17] Chính vì tầm  
quan trọng của collocation, nên ngƣời ta đặt ra một vấn đề là làm thế nào để xác định các  
collocation trong kho ngữ liệu.  
Có nhiều phƣơng pháp để giải quyết bài toán xác định collocation, trong đó có  
phƣơng pháp xác định dựa vào thống kê. Phƣơng pháp thống kê sử dụng các kỹ thuật toán  
học khác nhau và các kho ngữ liệu lớn để mở rộng xấp xỉ các mô hình suy rộng về hiện  
tƣợng ngôn ngữ, dựa trên các ví dụ thực tế về các hiện tƣợng ngôn ngữ đƣợc cung cấp bởi  
kho ngữ liệu mà không bổ sung vào các thành phần tri thức khác.  
Khóa luận với đề tài “Nghiên cứu bài toán xác định collocation trong Tiếng Việt”  
tập trung nghiên cứu về collocation, các phƣơng pháp xác định collocation từ các ngôn  
ngữ khác nhau và lựa chọn phƣơng pháp, thi hành chƣơng trình thực nghiệm để kiểm  
chứng tính khả thi của chúng trên kho ngữ liệu Tiếng Việt.  
Khóa luận gồm bốn chƣơng, nội dung đƣợc mô tả sơ bộ nhƣ sau:  
Chƣơng 1. Tổng quan về bài toán xác định collocation giới thiệu khái niệm  
collocation, đặc trƣng của collocation. Chƣơng này cũng nêu lên tầm quan  
trọng cũng nhƣ ứng dụng của collocation trong lĩnh vực Xử lý ngôn ngữ tự  
nhiên.  
Chƣơng 2. Các phương pháp xác định collocation phân tích các phƣơng pháp  
thống kê đang đƣợc sử dụng phổ biến để xác định collocation, một số đánh  
giá ƣu nhƣợc điểm cũng nhƣ mức độ phù hợp của từng phƣơng pháp đối  
với mỗi loại collocation và dữ liệu khác nhau.  
Chƣơng 3. Collocation trong Tiếng Việt trình bày đặc điểm của Tiếng Việt,  
khái niệm collocation trong Tiếng Việt và phát biểu Bài toán xác định  
collocation trong Tiếng Việt.  
Chƣơng 4. Thực nghiệm và đánh giá trình bày nội dung thnghiệm sdụng  
các phƣơng pháp Tần suất (Frequency), Kiểm thử t (t test), Kiểm thử khi-  
bình phương (chi-square test), Tỉ lệ likelihood (Likelihood ratio), và Thông  
1
 
tin tương hỗ (Mutual information) để xác định collocation trong tập văn bản  
Tiếng Việt. Qua đó, Khóa luận cũng đánh giá mức độ phù hợp của các  
phƣơng pháp đó trong Tiếng Việt.  
Phần kết luận tổng kết và tóm lƣợc nội dung chính của khóa luận.  
2
Chƣơng 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH  
COLLOCATION  
1.1. Khái niệm collocation  
1.1.1.Định nghĩa collocation  
Ngôn ngữ tự nhiên là một hệ thống giao tiếp mở và rất mềm dẻo. Con ngƣời thƣờng  
tự do truyền đạt nội dung họ muốn bằng những dạng ngôn ngữ khác nhau (nói, viết) và  
bằng những thứ ngôn ngữ khác nhau. Mỗi thứ tiếng trên thế giới đều có những đặc trƣng  
riêng về ngôn ngữ và những cách dùng từ cũng nhƣ kết hợp từ khác nhau. Cách kết hợp  
từ hay cách dùng từ là những cách nhìn khái quát nhất về khái niệm collocation.  
Collocation rất phổ biến trong ngôn ngữ tự nhiên và đƣợc gặp trong mọi tài liệu  
chuyên hoặc không chuyên. Khái niệm collocation là một khái niệm khó hiểu đối với  
những ngƣời không chuyên về ngôn ngữ học. Có rất nhiều cách khác nhau để định nghĩa  
collocation, tuy nhiên chƣa có một định nghĩa thật đầy đủ và chính xác, đặc biệt là khi  
không có một ranh giới rõ ràng phân biệt giữa collocation và các cụm từ đƣợc kết hợp  
ngẫu nhiên (cụm từ tự do) [17].  
Một số tác giả trong lĩnh vực văn học và thống kê định nghĩa collocation nhƣ một  
cụm từ gồm hai hay nhiều từ thƣờng xuyên cùng xuất hiện theo một thói quen đặc biệt. Ví  
dụ, Choueka đã đƣa ra định nghĩa “Collocation là một chuỗi hai hay nhiều từ liên tiếp  
nhau, có các đặc trƣng về cú pháp và ngữ nghĩa, và ý nghĩa của nó không thể đƣợc rút ra  
từ nghĩa của các thành phần cấu tạo nên nó” hay cũng vậy “Collocation có thể đƣợc hiểu  
là sự kết hợp các từ (hoặc các nhóm từ) thƣờng xuyên đƣợc sử dụng cùng với nhau theo  
cách nói thông thƣờng” [20].  
Theo Firth [17], collocation là sự sắp xếp từ theo thói quen hoặc theo phong tục (the  
habitual or customary places of the word).  
Benson và Morton [17] định nghĩa collocation là: sự kết hợp từ tùy ý và thƣờng tái  
diễn (an arbitrary and recurrent word combination).  
Theo Lin [19], collocation đƣợc định nghĩa là sự kết hợp từ theo thói quen.  
3
     
Kết hợp các định nghĩa của nhiều nhà khoa học, có thể đƣa ra một định nghĩa chung  
nhất về collocation nhƣ sau.  
Định nghĩa: Collocation là một cụm từ gồm hai hay nhiều từ trở lên thƣờng đi liền  
với nhau theo một trật tự nhất định (theo cách nói của ngƣời bản xứ).  
1.1.2.Đặc trƣng của collocation  
Smadja [24] đƣa ra bốn đặc trƣng của collocation có ích trong các ứng dụng Xử lý  
ngôn ngữ tự nhiên.  
a. Tính “độc đoán” (Arbitrary): điều này có nghĩa là không chấp nhận bất  
kỳ một sự biến thể nào về cú pháp hoặc ngữ nghĩa đối với collocation.  
b. Tính “phụ thuộc lĩnh vực” (Domain-dependent): việc xử lý văn bản  
trong một lĩnh vực đòi hỏi sự hiểu biết về các thuật ngữ có liên quan và  
các collocation trong lĩnh vực đó.  
c. Tính “lặp lại” (Recurrent): các collocation là sự kết hợp từ đƣợc lặp lại  
thƣờng xuyên trong ngữ cảnh xác định.  
d. Tính “cụm từ cố kết” (Cohesive lexical cluster): đặc trƣng này đƣợc hiểu  
nhƣ sự xuất hiện của một hay một vài từ thƣờng bao hàm sự xuất hiện  
của một collocation chứa nó.  
1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên  
Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ nhƣ sinh  
ngôn ngữ tự nhiên, dịch máy, tóm tắt văn bản và xây dựng từ điển... Chính vì tầm quan  
trọng của collocation, nên ngƣời ta đặt ra một vấn đề là làm thế nào để xác định  
collocation.  
Bài toán xác định collocation (hay còn gọi là Bài toán trích chọn collocation –  
Collocation extraction) đƣợc phát biểu nhƣ sau “Xác định collocation là việc sử dụng  
máy tính để trích chọn ra các collocation một cách tự động từ một kho ngữ liệu (copus)”.  
Howarth và Nasi [16] cho rằng hầu hết trong các đoạn văn bản đều chứa ít nhất  
một collocation.  
4
   
Sinh ngôn ngữ tự nhiên (Natural language generation) là việc tạo câu hoặc văn bản  
từ một trình diễn phi ngôn ngữ. Có thể nhìn nhận việc phân tích ngôn ngữ là dịch từ ngôn  
ngữ tự nhiên sang một kiểu trình diễn có ý nghĩa khác. Vì vậy, cần xem xét việc sinh  
ngôn ngữ (language generation) nhƣ là phép dịch ngƣợc lại từ một trình diễn có ý nghĩa  
sang ngôn ngữ tự nhiên. Việc phân tích một bài luận khó hơn việc phân tích các câu riêng  
lẻ, việc sinh ra văn bản cũng khó hơn nhiều việc sinh ra chuỗi các câu độc lập. Để có một  
văn bản dễ hiểu, phải dựa vào các nguyên tắc sắp xếp từ và câu theo đặc trƣng riêng của  
mỗi loại ngôn ngữ [22].  
Dịch tự động (Machine translation) đƣợc xem nhƣ là một trong những công việc khó  
khăn nhất trong xử lý ngôn ngữ tự nhiên, và trong trí tuệ nhân tạo. Việc dịch đúng dƣờng  
nhƣ là không thể nếu không có những hiểu biết về văn bản. Theo Gitsaki [14], một  
collocation trong ngôn ngữ này khác với chính nó trong ngôn ngữ khác, vì thế việc dịch  
collocation là một việc không dễ.  
Thông tin về collocation cũng là chủ yếu trong các công việc tóm tắt văn bản (Text  
simplification task). Điều này đòi hỏi phải có những kỹ thuật để thay thế các từ khó bởi  
những từ đơn giản hơn. Không có hiểu biết về collocation và các ràng buộc liên quan thì  
có thể dẫn đến những văn bản không dùng đƣợc.  
Collocation cũng quan trọng trong lĩnh vực xây dựng từ điển (Computational  
lexicography). Chúng đƣợc sử dụng để mô tả một cách đầy đủ các mục từ vựng. Theo  
Richardson “đối với một phân tích từ điển chi tiết, chỉ các collocation có mặt trong từ  
điển mới cung cấp thêm các đặc điểm biểu diễn trực tiếp các mối quan hệ ngữ nghĩa trong  
các mục từ” [17].  
Smith [25] xem xét các collocation để tìm ra các sự kiện liên quan đến thông tin  
ngày tháng và địa điểm trong văn bản không có cấu trúc.  
5
Chƣơng 2. CÁC PHƢƠNG PHÁP XÁC ĐỊNH  
COLLOCATION  
Những năm gần đây, các phƣơng pháp thống kê đƣợc sử dụng nhiều để giải quyết  
các bài toán về ngôn ngữ tự nhiên, trong đó có Bài toán xác định collocation [20]. Trong  
ngôn ngữ học, có sự khác biệt lớn giữa các phép đo về sự kết hợp từ vựng đƣợc sử dụng  
trong việc phát hiện và trích ra (bán tự động) các collocation. Có 3 nhóm số đo sau [16]:  
a. Các số đo dựa vào tần suất (dựa hoàn toàn vào tần suất của sự đồng xuất hiện  
các từ).  
b. Các số đo dựa vào thông tin lý thuyết: ví dụ, thông tin tƣơng hỗ MI (mutual  
information), entropy.  
c. Các số đo dựa vào thống kê: ví dụ, chi-square ( ), t-test, log-likelihood, hệ số  
Dice.  
Các độ đo trên cùng những tính chất toán học (Dunning, 1993; Manning & Schütze,  
1999) [13][20] và sự phù hợp của chúng trong việc xác định collocation (Krenn & Evert,  
2001) [18] đã đƣợc thảo luận rộng rãi trong lĩnh vực ngôn ngữ học. Độ đo đƣợc lựa chọn  
sẽ gán cho mỗi cặp từ một điểm số để đánh giá sự kết hợp từ. Điểm số này đƣợc tính toán  
dựa nhiều vào tần suất xuất hiện từ.  
Trong khi các số đo về sự kết hợp có giá trị thống kê trong việc phát hiện  
collocation, cần chú ý rằng có vài công việc cần làm với các đặc trƣng của ngôn ngữ. Vì  
thế, việc nghiên cứu, lựa chọn, tiến hành một phép đo phải đƣợc kết hợp chặt chẽ với các  
tiêu chuẩn về ngôn ngữ trong việc phát hiện collocation.  
Chƣơng này sẽ trình bày một số phƣơng pháp thống kê để xác định collocation, đó  
là: Frequency – tần suất, Mean and variance - dựa vào Kỳ vọng và phƣơng sai của  
khoảng cách giữa từ trung tâm và việc sắp xếp từ, Hypothesis testing – kiểm thử Giả  
thuyết, Likelihood ratio Tỷ lệ likelihood, Mutual information – thông tin tƣơng hỗ.  
Kho ngữ liệu (corpus) đƣợc sử dụng trong các ví dụ minh họa là các ấn phẩm của tờ  
New York Times (từ tháng 8 đến tháng 11 năm 1990). Kho ngữ liệu này có 115 MB dữ  
liệu văn bản và khoảng 14 triệu từ. Thông thƣờng, cả những cụm từ cố định hay không cố  
định đều có thể là collocation [20].  
6
 
2.1. Phƣơng pháp Tần suất (Frequency)  
Phƣơng pháp đơn giản nhất để tìm kiếm collocation trong một tập văn bản là đếm số  
lần xuất hiện các từ. Nếu hai từ cùng xuất hiện với nhau nhiều, thì đó là dấu hiệu cho thấy  
sự kết hợp của chúng mang một chức năng đặc biệt.  
Bảng 1 chỉ ra các bigram xuất hiện nhiều nhất trong copus và tần suất xuất hiện của  
chúng. Ngoại trừ New York, tất cả các biagram đều là các cặp từ chức năng.  
Bảng 1.  
Tìm kiếm collocation dựa vào tần suất.  
C(.) là tần suất của một từ trong kho ngữ liệu  
Có một phƣơng pháp rất đơn giản để cải thiện các kết quả (Justeson & Katz 1995):  
cho các cụm từ dự tuyển qua một bộ lọc từ loại [20]. Bộ lọc này sẽ chỉ cho đi qua những  
mẫu có khả năng là một cụm từ (phrase). Justeson và Katz đã đƣa ra các mẫu trong Bảng  
2. Mỗi mẫu đƣợc đƣa ra kèm theo một ví dụ lấy từ tập test.  
7
   
Bảng 2.  
Các mẫu từ loại dùng cho việc lọc collocation.  
Đây là những mẫu đƣợc sử dụng bởi Justeson và Katz để xác định collocation dựa  
vào tần suất xuất hiện của từ.  
A: tính từ (Adjective), P: giới từ (Preposition), N: danh từ (Noun)  
Bảng 3 biểu diễn những cụm từ đƣợc xếp hạng cao nhất sau khi đƣợc lọc. Các kết  
quả có đƣợc khá tốt. York City là một lỗi nhận đƣợc qua bộ lọc Justeson & Katz. Do đó  
cần tìm kiếm một chuỗi dài nhất phù hợp với một trong các mẫu từ loại và tìm ra cụm từ  
dài hơn có chứa York City, đó là New York City.  
8
 
Bảng 3.  
Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz.  
Bng 4 lit kê hai mƣơi cụm từ hạng cao nhất có chứa strong powerful có dạng  
AN (A là strong hoặc powerful).  
9
 
Bảng 4.  
Các danh từ w xuất hiện thƣờng xuyên nhất trong các mẫu strong w và  
powerful w.  
Đối với một phƣơng pháp đơn giản thế này, các kết quả tìm đƣợc lại chính xác một  
cách bất ngờ. Ví dụ phƣơng pháp này đã xác định đƣợc chính xác strong challenges và  
powerful computers chứ không phải là powerful challenges strong computers.  
Tuy nhiên, có thể nhìn thấy những hạn chế của phƣơng pháp xác định collocation  
dựa vào tần suất. Ví dụ trong Bảng 4, các danh từ man force đƣợc sử dụng với cả hai  
tính từ strong powerful. Cần phải có các phân tích tinh vi hơn trong những trƣờng hợp  
nhƣ thế này.  
Cả strong tea powerful tea đều không xuất hiện trong kho ngữ liệu ví dụ (New  
York Times). Nhƣng nếu tìm kiếm trên kho ngữ liệu rộng hơn, sẽ thấy 799 lần xuất hiện  
strong tea và 17 lần xuất hiện powerful tea, chứng tỏ rằng strong tea là cách dùng từ đúng  
(việc tìm kiếm này đƣợc thực hiện trên AltaVista vào 28 tháng 3 năm 1998) [20].  
Phƣơng pháp tìm kiếm collocation của Justeson và Katz đã chứng minh một điều  
quan trọng: Một kỹ thuật định lƣợng đơn giản (trong trƣờng hợp này là bộ lọc tần suất)  
10  
 
kết hợp với một chút ít hiểu biết về ngôn ngữ học (về từ loại) trở thành một phƣơng pháp  
khá hay.  
Có thể sử dụng thêm danh sách từ dừng (là các từ có tần suất xuất hiện cao, nhƣng  
không phải là động từ, danh từ hay tính từ...) để nâng cao hiệu quả của phƣơng pháp này.  
2.2. Phƣơng pháp Kỳ vọng và Phƣơng sai (Mean & Variance)  
Phƣơng pháp Tần suất làm việc khá hiệu quả với các cụm danh từ, và chỉ thực sự có  
ích với các cụm từ cố định (fixed phrase). Tuy nhiên ở nhiều ngôn ngữ, có những  
collocation bao gồm các từ đứng trong mối quan hệ mềm dẻo hơn với nhau. Phƣơng pháp  
Kỳ vọng và phƣơng sai (Mean & Variance) [24] khắc phục đƣợc điều này bằng cách tính  
toán khoảng cách giữa hai từ và tìm ra chiều rộng của phân bổ khoảng cách ấy. Nếu phân  
bổ hẹp (khoảng cách giữa cách đỉnh phân bổ nhỏ), thì có thể tìm ra collocation. Nhƣng  
nếu phƣơng sai cao, các đỉnh đƣợc phân bổ ngẫu nhiên thì ko thể tìm đƣợc collocation.  
Xét động từ knock và một trong những từ có tần suất xuất hiện cao nhất cùng với nó  
door. Đây là một số ví dụ lấy từ kho ngữ liệu:  
a. She knocked on his door  
b. They knocked at the door  
c. 100 women knocked on Donaldon’s door  
d. A man knocked on the metal front door  
Các từ xuất hiện ở giữa knocked door là khác nhau và khoảng cách giữa hai từ  
thay đổi, cho nên phƣơng pháp Tần suất sẽ không sử dụng đƣợc ở đây. Nhƣng có đủ tính  
hợp thức trong các mẫu để cho phép chúng ta xác định đƣợc rằng trong tình huống này,  
sử dụng knock là đúng, chứ không phải hit, beat, hay rap.  
11  
 
Câu:  
Các bigram:  
Hình 1.  
Sử dụng cửa sổ collocation 3 từ để lấy đƣợc các bigram ở một khoảng  
cách.  
Cần định nghĩa một cửa sổ collocation (collocational window), thông thƣờng mỗi  
cửa sổ từ 3 đến 4 từ, mỗi cặp từ sẽ làm thành một bigram (Hình 1). Sau đó, tiếp tục công  
việc tính toán nhƣ bình thƣờng trên tập các bigram lớn hơn.  
Phƣơng pháp Kỳ vọng và phƣơng sai xét khoảng cách khác nhau giữa hai từ. Để tìm  
mối quan hệ giữa knocked door, cần tính kỳ vọng và phƣơng sai của các khoảng cách  
giữa hai từ trong kho ngữ liệu.  
Kỳ vọng (trung bình mẫu) của các khoảng cách:  
Phƣơng sai đo độ lệch của các khoảng riêng so với trung bình. Nó đƣợc ƣớc lƣợng  
nhƣ sau:  
n là số lần 2 từ cùng xuất hiện  
là khoảng cách của lần cùng xuất hiện thứ i  
Ví dụ, trung bình khoảng cách giữa knocked door đƣợc tính nhƣ sau:  
12  
 
(Giả sử rằng Donaldson’s là 3 từ tố Donaldson, , s). Nếu door xuất hiện trƣớc  
knocked thì khoảng cách giữa hai từ là một số âm. Ví dụ, nếu có the door that she  
knocked on thì khoảng cách giữa knocked door là -3.  
Nếu khoảng cách là nhƣ nhau trong mọi trƣờng hợp thì phƣơng sai bằng 0. Nếu các  
khoảng cách đƣợc phân bổ ngẫu nhiên (trong trƣờng hợp hai ttình cxut hin cùng  
nhau) thì giá trị phƣơng sai sẽ cao. Thƣờng thì độ lch mu  
đƣợc sử dụng để  
đánh giá sự biến đổi khoảng cách giữa hai từ. Độ lệch cho các ví dụ về knocked... door là:  
Kvọng và độ lệch mô tả phân bổ của các khoảng cách giữa hai từ trong một kho  
ngữ liệu. Dựa vào điều này, ta có thể tìm ra collocation bằng cách tìm cặp từ có độ sai  
lệch thấp nhất. Độ lệch thấp có nghĩa là hai từ gần như thƣờng xuất hiện ở cùng một  
khoảng cách. Nếu độ lệch bằng 0 thì chứng tỏ hai từ xuất hiện chính xác ở cùng một  
khoảng cách.  
Hình 2 là ví dụ minh họa phân bổ về khoảng cách của một từ đối với một từ khác (từ  
trung tâm).  
2a. Vị trí của strong đối với opposition (  
)
13  
2b. Vtrí ca strong đối với support (  
)
2c. Vtrí ca strong đối với for (  
)
Hình 2.  
Biểu đồ tần suất biểu diễn vị trí tƣơng đối của strong với các “từ  
trung tâm”: opposition, support, for.  
Hình 2a. Phân bổ của strong đối với opposition có một đỉnh ở vị trí -1 (strong  
opposition). Vì vậy phƣơng sai thấp (s = 0.67), trung bình  
strong thƣờng xuất hiện ở vị trí -1 so với opposition.  
cho biết rằng  
Cần phải hạn chế các vị trí xung quanh từ trung tâm (bằng việc giới hạn kích thƣớc  
cửa sổ collocation) vì các collocation về cơ bản là cách dùng từ mang tính chất địa  
phƣơng.  
Hình 2b. Phân bổ của strong đối với support đƣợc rút ra từ một số vị trí âm có tần  
suất xuất hiện của cụm từ lớn. Ví dụ, đếm đƣợc khoảng 20 cụm từ ở vị trí -2 (strong leftist  
support hay strong business support). Bởi vậy chúng ta nhận đƣợc phƣơng sai cao hơn  
(s=1.07) và trung bình  
.
14  
 
Hình 2c. Sự xuất hiện của strong cùng với for là một phân bổ đều hơn. Có xu hƣớng  
strong xuất hiện trƣớc for (vì vậy, trung bình là ), nhƣng thực ra nó có thể xuất  
hiện ở bất cứ vị trí nào xung quanh for. Độ chênh lệch cao s = 2.15 đã chỉ ra sự thay đổi  
này. Từ đó thấy rằng for strong không tạo thành collocation.  
Bảng 5 đƣa ra các collocation có thể đƣợc tìm thấy bằng phƣơng pháp Kỳ vọng và  
phƣơng sai.  
Bảng 5.  
Bảng này cho biết độ lệch mẫu s và trung bình mẫu của các khoảng cách giữa 12  
cặp từ.  
Tìm kiếm collocation dựa vào Kỳ vọng và phƣơng sai.  
Nếu trung bình gần với 1.0 và độ lệch thấp (nhƣ trƣờng hợp từ New York), phƣơng  
pháp Kỳ vọng và phƣơng sai cho kết quả tìm kiếm collocation không khác mấy so với  
phƣơng pháp Tần suất của Justeson và Katz.  
Nếu trung bình lớn hơn rất nhiều so với 1.0 thì độ lệch thấp sẽ cho biết các cụm từ  
nào đáng đƣợc quan tâm.  
Ví dụ:  
- Cặp từ previous / games (khoảng cách là 2) tƣơng ứng với các cụm từ nhƣ in the  
previous 10 games hoặc in the previous 15 games...  
- Cặp từ minus / points tƣơng ứng với các cụm từ nhƣ minus 2 percentage points,  
minus 3 percentage points...  
15  
 
Độ lệch cao chỉ ra rằng hai từ không có mối quan hệ mật thiết với nhau. Điều này  
đƣợc chứng minh qua nhóm thứ hai (gồm 4 cặp từ với giá trị phƣơng sai cao) trong ví dụ  
ở Bảng 5.  
Phƣơng pháp tìm kiếm collocation dựa vào giá trị kỳ vọng và phƣơng sai đƣợc trình  
bày ở trên là của Smadja [24]. Smadja chỉ ra rằng phƣơng pháp của ông khá thành công  
trong việc trích ra các thuật ngữ (với độ chính xác ƣớc lƣợng khoảng 80%) và trong việc  
xác định các cụm từ phù hợp cho việc sinh ngôn ngữ – natural language generation  
(Smadja và McKeown 1990 [23]).  
Tuy nhiên, sự kết hợp knocked / door không phải collocation ta muốn phân loại –  
mặc dù có thể nó rất có ích cho mục đích sinh văn bản (text generation). Phƣơng pháp  
phát hiện collocation dựa vào phƣơng sai là một phƣơng pháp phù hợp nếu chúng ta  
muốn tìm kiếm kiểu kết hợp từ nhƣ knocked... door.  
2.3. Kiểm thử Giả thuyết (Hypothesis testing)  
Trong thực tế, có nhiều sự kết hợp từ mà giá trị tần suất cao và phƣơng sai thấp.  
Điều mà chúng ta cần tìm hiểu, đó là có hay không hai từ xuất hiện cùng với nhau thƣờng  
xuyên mà không phải là sự xuất hiện ngẫu nhiên. Việc đánh giá một biến cố có xảy ra hay  
không là một trong những bài toán kinh điển. Nó thƣờng bị ẩn đi trong các thuật ngữ của  
Kiểm thử Giả thuyết (hypothesis testing). Có một giả thuyết đƣợc gọi là Giả thuyết Không  
(null hypothesis) , chỉ xét sự kết hợp từ ngẫu nhiên. Ta sẽ tính toán xác suất p mà biến  
cố sẽ xảy ra nếu  
thông thƣờng ngƣời ta lấy ngƣỡng là  
lại trong trƣờng hợp ngƣợc lại.  
Đây là một cách phân tích dữ liệu mà chúng ta phải xem xét cùng lúc hai việc.  
đúng, và sau đó loại  
nếu p quá nh(p < 0.05, 0.01, 0.005, 0.001,  
trong các thực nghiệm khoa học) hoặc giữ  
Trƣớc mắt, chúng ta sẽ đi tìm kiếm các mẫu đặc biệt trong dữ liệu, nhƣng bên cạnh đó,  
cần phải tính toán đƣợc lƣợng dữ liệu đã đƣợc quan sát. Thậm chí nếu có một mẫu rất tốt,  
thì chúng ta vẫn sẽ đánh giá thấp nó nếu nhƣ không có đủ dữ liệu quan sát để có thể chắc  
chắn rằng mẫu đó tồn tại không phải do ngẫu nhiên.  
Giả thuyết Không là đúng nếu hai từ không tạo thành một collocation. Giả sử rằng  
mỗi từ  
và  
đƣợc sinh ra một cách hoàn toàn độc lập với nhau, vì vậy khả năng  
chúng xuất hiện cùng nhau là:  
16  
 
Công thc cho thy rng xác sut cùng xut hin ca hai tchlà kết quca các  
xác sut riêng của mỗi từ .  
2.3.1.Kiểm thử t (t test)  
Cần phải một phép thử thống kê để kiểm tra xác suất cùng xuất hiện của các từ.  
Phép thử đƣợc sử dụng rộng rãi trong việc tìm kiếm collocation là t test. T test xem  
xét trung bình và phƣơng sai của một mẫu các phép đo, mà theo Giả thuyết Không, mẫu  
đó đƣợc rút ra từ một phân bổ với trung bình μ. Phép thử xét sự khác nhau giữa trung bình  
đƣợc quan sát và trung bình kỳ vọng (đƣợc đo bằng phƣơng sai của dữ liệu) sẽ cho chúng  
ta một giá trị trung bình và phƣơng sai đặc biệt hơn, với giả thiết mẫu đƣợc rút ra từ một  
phân phối thông thƣờng với trung bình μ.  
Để xác định đƣợc xác suất của một mẫu đặc biệt, cần tính toán giá trị thống kê t:  
là trung bình mẫu  
là phƣơng sai mẫu  
là kích thƣớc mẫu  
là trung bình của phân phối  
Nếu t đủ lớn, chúng ta có thể loại bỏ Giả thuyết Không. Chúng ta có thể tìm ra chính  
xác là t cần phải lớn nhƣ thế nào bằng cách tra cứu trong Bảng phân phối t (Phụ lục).  
Để thấy rõ hơn việc sử dụng t test để tìm kiếm collocation, chúng ta sẽ tính giá trị t  
cho cụm từ new companies. Vấn đề là chúng ta sẽ đo giá trị trung bình và phƣơng sai của  
một mẫu nhƣ thế nào. Có một cách, là coi kho ngữ liệu nhƣ một chuỗi dài gồm N bigram,  
các mẫu sẽ đƣợc lấy bằng 1 nếu bigram đang kiểm tra xuất hiện, và bằng 0 trong trƣờng  
hợp ngƣợc lại.  
Các xác suất để new companies xuất hiện trong kho ngữ liệu đƣợc tính nhƣ sau:  
17  
 
Trong kho ngữ liệu ví dụ, new xuất hiện 15828 lần, companies xuất hiện 4675 lần,  
và có tất cả 14307668 bigram.  
Giả thuyết Không quy ƣớc rằng sự xuất hiện các biến cố new companies phải độc  
lập với nhau.  
Trung bình ca phân phi này là  
và phƣơng sai là  
(xấp xỉ này đƣợc sử dụng cho tất cả các bigram có xác suất p nhỏ).  
Cụm từ new companies xuất hiện 8 lần trên tổng số 14307668 bigram trong kho ngữ  
liệu. Vì thế, đối với mẫu này, chúng ta có trung bình mẫu là  
. Theo công thức tính t:  
Vì smu rt ln nên có thxem bc tdo (degrees of freedom) df = ∞, với ngƣỡng  
cho xác sut p là  
, tra trong Bảng phân phối t (Phụ lục) đƣợc giá trị 2.57583.  
Dễ thấy t < 2.57583 nên không thể loại bỏ Giả thuyết Không (Giả thuyết Không là đúng  
new companies tuy cùng xuất hiện nhƣng vẫn độc lập với nhau), vì vậy new  
companies không phải là collocation.  
Bảng 6 cho thấy các giá trị t của 10 bigram xut hin vi tn sut 20 ln trong kho  
ngliu. Đối với 5 bigram đầu tiên, chúng ta có thloi bGithuyết Không vi  
, vì vậy các bigram này rất có thể là các collocation. Phép tính t cho 5 bigram  
cuối cùng không cho kết quả tốt, vì vậy có khả năng chúng không phải là collocation.  
18  
Bảng 6.  
Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t.  
Chú ý rằng phƣơng pháp Tần suất không thể xếp hạng đƣợc 10 bigram khi chúng  
xuất hiện với tần suất bằng nhau. Nhìn vào Bảng 6, có thể thấy phép thử t test tính số lần  
cùng xuất hiện của hai từ trong bigram. C(  
) liên quan đến tần suất của các từ thành  
phần. Nếu tần suất của cả hai từ là cao (Ayatollah Ruhollah, videocassette recorder) hoặc  
ít nhất là tần suất của một trong hai từ (unsaled) trong bigram là rất cao thì giá trị t của  
chúng cũng cao. Đánh giá này dựa nhiều vào trực giác.  
Phép thử t test và các phép thử thống kê khác rất có ích trong một số phƣơng pháp  
xếp hạng collocation (ranking collocation).  
2.3.2.Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp  
(Hypothesis testing of differences)  
Trong lĩnh vực từ điển học, công thức t test không thể tìm ra các từ để phân biệt tốt  
nhất nghĩa của strong powerful. Church và Hanks (1989) [11] đã khắc phục điều này  
bằng việc đề xuất một công thức tính t khác.  
Bảng 7 liệt kê các từ đi cùng với powerful có ý nghĩa hơn là với strong (10 từ đầu),  
và các từ đi cùng với strong có ý nghĩa hơn là với powerful (10 từ cuối).  
19  
   
Bảng 7.  
Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất  
hiện có ý nghĩa với powerful strong.  
Giá trị t trong trƣờng hợp này đƣợc tính toán bằng cách sử dụng mở rộng của phép  
thử t test để so sánh các trung bình của hai tập hợp:  
Ở đây, Giả thuyết Không quy định rằng sai khác trung bình bằng 0 (μ = 0), vì thế ta  
có  
. Mẫu số là tổng các giá trị phƣơng sai riêng  
của hai tập hợp đang đƣợc so sánh.  
Các giá trị t trong Bảng 7 đƣợc tính toán nhƣ sau: Nếu w là một từ có ý nghĩa (ví dụ,  
computers hoặc symbol) và  
strong), thì ta có  
,
là các từ chúng ta sẽ so sánh (ví dụ, powerful và  
(sử dụng lại xấp xỉ  
với p rất nhỏ):  
20  
 
Rút gọn lại công thức trên, thu đƣợc:  
C(x) là số lần x xuất hiện trong văn bản.  
Công thức tính t do Church và Hanks (1989) [10] xây dựng rất có ích cho việc biên  
soạn từ điển. Khi biên soạn từ điển, ngoài việc nhìn vào ý nghĩa của từ, còn phải xem xét  
đến những đặc trƣng riêng về văn hóa. Ví dụ, ngƣời ta thƣờng nói strong tea, nhƣng mặt  
khác lại nói powerful drugs, sự khác nhau đã nói cho chúng ta biết về thói quen dùng từ  
nhiều hơn là về ngữ nghĩa của hai tính từ strong powerful (Church 1991) [11].  
2.4. Kiểm thử khi-bình phƣơng (Pearson’s chi-square test)  
T test có nhƣợc điểm là nó thừa nhận các xác suất đƣợc phân bổ theo cách xấp xỉ  
thông thƣờng, điều này trong thực tế là không đúng (theo Church và Mercer 1993) [7].  
Vào năm 1900, Karl Pearson đã phát triển một thống kê ( ) so sánh các giá trị  
đƣợc quan sát và kỳ vọng khi dữ liệu đƣợc chia thành các mục riêng biệt. Các giá trị quan  
sát (observed) và kỳ vọng (expected) có thể đƣợc giải thích trong phạm vi các giả thuyết  
kiểm tra (hypothesis testing). Tức là nếu dữ liệu đƣợc phân chia thành các mục riêng và  
có định nghĩa Giả thuyết Không trên dữ liệu đó thì giá trị đƣợc kỳ vọng là giá trị của mỗi  
mục nếu nhƣ Giả thuyết Không là đúng, giá trị đƣợc quan sát là giá trị mỗi mục mà ta  
quan sát từ dữ liệu mẫu [17].  
Kiểm thử khi-bình phƣơng ( test) của Pearson là phép thử đáng tin cậy hơn phép  
Kiểm thử t [17].  
Trong trƣờng hợp đơn giản nhất, phép thử khi-bình phƣơng đƣợc sử dụng với bảng  
2x2 nhƣ minh họa ở Bảng 8.  
21  
 

Tải về để xem bản đầy đủ

pdf 63 trang yennguyen 28/05/2025 150
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Nghiên cứu bài toán xác định collocation trong tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_nghien_cuu_bai_toan_xac_dinh_collocation_trong_tie.pdf