Khóa luận Nghiên cứu bài toán xác định collocation trong tiếng Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI

Fn H

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Thị Ngọc Bích

NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH

COLLOCATION TRONG TIẾNG VIỆT

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Thị Ngọc Bích

NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH

COLLOCATION TRONG TIẾNG VIỆT

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hƣớng dẫn: Th.S Trần Thị Oanh

Cán bộ đồng hƣớng dẫn: CN. Nguyễn Minh Tuấn

HÀ NỘI - 2009

Lời cảm ơn

Trƣớc hết, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sƣ Tiến

sỹ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh và Cử nhân Nguyễn Minh Tuấn, những ngƣời

đã tận tình quan tâm, chỉ bảo và hƣớng dẫn tôi trong suốt quá trình thực hiện Khóa luận

tốt nghiệp.

Tôi xin chân thành cảm ơn các thầy cô đã tạo cho tôi những điều kiện thuận lợi để

học tập và nghiên cứu tại Trƣờng Đại học Công nghệ.

Tôi cũng xin gửi lời cảm ơn tới các anh chị trong SIS Lab đã tận tình giúp đỡ, hỗ trợ

cho tôi về kiến thức chuyên môn.

Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, bạn bè, những ngƣời thân yêu luôn

bên cạnh động viên, là nguồn cổ vũ để tôi hoàn thành Khóa luận tốt nghiệp.

Tôi xin chân thành cảm ơn!

Sinh viên

Phạm Thị Ngọc Bích

Tóm tắt nội dung

Collocation là những cụm từ (gồm hai hay nhiều từ) thƣờng đƣợc sử dụng với nhau.

Bài toán xác định collocation trong một kho ngữ liệu đã và đang nhận đƣợc nhiều sự quan

tâm, nghiên cứu của các nhà khoa học trên thế giới. Có rất nhiều phƣơng pháp để giải

quyết bài toán này, song hiện nay, các phƣơng pháp thống kê đang đƣợc sử dụng phổ biến

bởi những ngƣời làm trong lĩnh vực Xử lý ngôn ngữ tự nhiên.

Khóa luận tốt nghiệp với đề tài “Nghiên cứu bài toán xác định collocation trong

Tiếng Việt” tập trung nghiên cứu một số phƣơng pháp thống kê điển hình (Tần suất, Kỳ

vọng và phƣơng sai, Kiểm thử t, Kiểm thử khi-bình phƣơng, Tỷ lệ likehood, Thông tin

tƣơng hỗ) để trích chọn collocation. Khóa luận đã tiến hành thử nghiệm xác định

collocation tiếng Việt cho kết quả tƣơng ứng với các phƣơng pháp kiểm thử thống kê nói

trên. Thông qua kết quả thử nghiệm, Khóa luận nhận thấy phƣơng pháp Kiểm thử khi-

bình phƣơng phù hợp nhất để xác định collocation trong tiếng Việt.

Mục lục

Lời mở đầ u ...............................................................................................................1

Ch ƣơng 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATIO N ...............3

1.1. Khái niệm collocation ................................................................................3

1.1.1.

1.1.2.

Định nghĩa collocation .......................................................................3

Đặc trƣng của collocation ..................................................................4

1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên ..........................4

Ch ƣơ ng 2. CÁC PH ƢƠNG PHÁP XÁC ĐỊNH COLLOCATION ...........................6

2.1. Ph ƣơng pháp Tần suất (Frequency )............................................................7

2.2. Ph ƣơ ng pháp Kỳ vọng và Ph ƣơ ng sai (Mean & Variance) .......................11

2.3. Kiểm thử Giả thuyết (Hypothesis testing) ................................................16

2.3.1.

2.3.2.

Kiểm thử t (t test).............................................................................17

Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis

testing of differences).......................................................................19

2.4. Kiểm thử khi -bình ph ƣơng (Pearson’s chi -square test )............................21

2.5. Các tỉ lệ likelihood (Likelihood ratios ).....................................................26

2.5.1.

2.5.2.

Tỉ lệ likelihood (Likelihood ratio) ....................................................26

Các tỉ lệ tần suất tƣơng đối (Relative Frequency Ratios) ..................29

2.6. Thông tin t ƣơng hỗ MI (Mutual information)...........................................30

Ch ƣơng 3. COLLOCATION TRONG TIẾNG VIỆT .............................................36

3.1. Đặc điểm từ vựng Tiếng Việ t ...................................................................36

3.1.1. Đơn vị cấu tạo từ ............................................................................36

3.1.2. Ph ƣơng thức cấu tạo từ ...................................................................36

3.1.3. Biến thể của từ ................................................................................37

3.1.4. Những quá trình diễn ra trong sự phát triển từ vựng Tiếng Việt ......38

3.2. Khái niệm collocation trong Tiếng Việt ...................................................40

3.3. Bài toán xác định collocation trong Tiếng Việt ........................................41

Ch ƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................44

4.1. Dữ liệu thực nghiệm ................................................................................44

4.1.1.

4.1.2.

Chuẩn bị dữ liệu ...............................................................................44

Tiền xử lý dữ liệu .............................................................................44

4.2. Thiết kế thực nghiệm ...............................................................................45

4.2.1. Ph ƣơng pháp thực nghiệm ........................................................................45

4.3. Kết quả thực nghiệm và đánh giá kết qu ả .................................................46

Kết luận ..................................................................................................................49

Tài liệu tham khảo ..................................................................................................50

Tài liệu Tiếng Việt .............................................................................................50

Tài liệu Tiếng Anh .............................................................................................50

Phụ lục ...................................................................................................................53

1.

2.

Bảng phân phối t ......................................................................................53

Bảng phân phối ..................................................................................54

Danh sách các bảng

Bảng 1. Tìm kiếm collocation dựa vào tần suất..............................................................7

Bảng 2. Các mẫu từ loại dùng cho việc lọc collocation. .................................................8

Bảng 3. Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz. ...............................9

Bảng 4. Các danh từ w xuất hiện thƣờng xuyên nhất trong các mẫu strong w và

powerful w ......................................................................................................10

Bảng 5. Tìm kiếm collocation dựa vào Kỳ vọng và ph ƣơ ng sai....................................15

Bảng 6. Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t.............19

Bảng 7. Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất hiện có ý

nghĩa với powerful và strong . .........................................................................20

Bảng 8. Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies . .................22

Bảng 9. T ƣơng ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tƣơng ứng. ...25

Bảng 10. Phép thử cho sự độc lập của các từ trong các kho ngữ liệu khác nhau, sử dụng

...................................................................................................................25

Bảng 11. Cách tính toán giá trị likelihood của Dunning. ................................................27

Bảng 12. Các bigram có chứa powerful với hạng cao nhất theo phép thử likelihood ratio

của Dunning. ..................................................................................................28

Bảng 13. Phép thử tỉ lệ tần suất của Damerau. ...............................................................30

Bảng 14. Tìm kiếm collocation dựa vào thông tin tƣơng hỗ ...........................................31

Bảng 15. Sự phù hợp của chambre và house , communes và house trong kho ngữ liệu. ..32

Bảng 16. Thông tin t ƣơng hỗ từ các dữ liệu rải rác. .......................................................33

Bảng 17. Các định nghĩa khác nhau về thông tin tƣơng hỗ.............................................35

Bảng 18. Các collocation có giá trị khi -bình ph ƣơng cao nhất .......................................43

Bảng 19. Cấu hình phần cứng sử dụng trong thực nghiệm .............................................45

Bảng 20. Giá trị ngƣỡng cho các phƣơng pháp xác định collocatio n ..............................46

Bảng 21. Đánh giá độ chính xác của các phƣơng pháp xác định collocation ..................47

Bảng 22. Một số collocation thu đƣợc từ thực nghiệ m ...................................................48

Danh sách các hình

Hình 1. Sử dụng cửa sổ collocation 3 từ để lấy đƣợc các bigram ở một khoảng cách...12

Hình 2. Biểu đồ tần suất biểu diễn vị trí tƣơng đối của strong với các “từ trung tâm”:

opposition, support, for ...................................................................................14

Hình 3. Phân loại cụm từ cố định Tiếng Việt ...............................................................41

Lời mở đầu

Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ nhƣ sinh

ngôn ngữ tự nhiên, dịch tự động, tóm tắt văn bản và xây dựng từ điển... [17] Chính vì tầm

quan trọng của collocation, nên ngƣời ta đặt ra một vấn đề là làm thế nào để xác định các

collocation trong kho ngữ liệu.

Có nhiều phƣơng pháp để giải quyết bài toán xác định collocation, trong đó có

phƣơng pháp xác định dựa vào thống kê. Phƣơng pháp thống kê sử dụng các kỹ thuật toán

học khác nhau và các kho ngữ liệu lớn để mở rộng xấp xỉ các mô hình suy rộng về hiện

tƣợng ngôn ngữ, dựa trên các ví dụ thực tế về các hiện tƣợng ngôn ngữ đƣợc cung cấp bởi

kho ngữ liệu mà không bổ sung vào các thành phần tri thức khác.

Khóa luận với đề tài “Nghiên cứu bài toán xác định collocation trong Tiếng Việt”

tập trung nghiên cứu về collocation, các phƣơng pháp xác định collocation từ các ngôn

ngữ khác nhau và lựa chọn phƣơng pháp, thi hành chƣơng trình thực nghiệm để kiểm

chứng tính khả thi của chúng trên kho ngữ liệu Tiếng Việt.

Khóa luận gồm bốn chƣơng, nội dung đƣợc mô tả sơ bộ nhƣ sau:

Chƣơng 1. Tổng quan về bài toán xác định collocation giới thiệu khái niệm

collocation, đặc trƣng của collocation. Chƣơng này cũng nêu lên tầm quan

trọng cũng nhƣ ứng dụng của collocation trong lĩnh vực Xử lý ngôn ngữ tự

nhiên.

Chƣơng 2. Các phương pháp xác định collocation phân tích các phƣơng pháp

thống kê đang đƣợc sử dụng phổ biến để xác định collocation, một số đánh

giá ƣu nhƣợc điểm cũng nhƣ mức độ phù hợp của từng phƣơng pháp đối

với mỗi loại collocation và dữ liệu khác nhau.

Chƣơng 3. Collocation trong Tiếng Việt trình bày đặc điểm của Tiếng Việt,

khái niệm collocation trong Tiếng Việt và phát biểu Bài toán xác định

collocation trong Tiếng Việt.

Chƣơng 4. Thực nghiệm và đánh giá trình bày nội dung thử nghiệm sử dụng

các phƣơng pháp Tần suất (Frequency), Kiểm thử t (t test), Kiểm thử khi-

bình phương (chi-square test), Tỉ lệ likelihood (Likelihood ratio), và Thông

1

tin tương hỗ (Mutual information) để xác định collocation trong tập văn bản

Tiếng Việt. Qua đó, Khóa luận cũng đánh giá mức độ phù hợp của các

phƣơng pháp đó trong Tiếng Việt.

Phần kết luận tổng kết và tóm lƣợc nội dung chính của khóa luận.

2

Chƣơng 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH

COLLOCATION

1.1. Khái niệm collocation

1.1.1.Định nghĩa collocation

Ngôn ngữ tự nhiên là một hệ thống giao tiếp mở và rất mềm dẻo. Con ngƣời thƣờng

tự do truyền đạt nội dung họ muốn bằng những dạng ngôn ngữ khác nhau (nói, viết) và

bằng những thứ ngôn ngữ khác nhau. Mỗi thứ tiếng trên thế giới đều có những đặc trƣng

riêng về ngôn ngữ và những cách dùng từ cũng nhƣ kết hợp từ khác nhau. Cách kết hợp

từ hay cách dùng từ là những cách nhìn khái quát nhất về khái niệm collocation.

Collocation rất phổ biến trong ngôn ngữ tự nhiên và đƣợc gặp trong mọi tài liệu

chuyên hoặc không chuyên. Khái niệm collocation là một khái niệm khó hiểu đối với

những ngƣời không chuyên về ngôn ngữ học. Có rất nhiều cách khác nhau để định nghĩa

collocation, tuy nhiên chƣa có một định nghĩa thật đầy đủ và chính xác, đặc biệt là khi

không có một ranh giới rõ ràng phân biệt giữa collocation và các cụm từ đƣợc kết hợp

ngẫu nhiên (cụm từ tự do) [17].

Một số tác giả trong lĩnh vực văn học và thống kê định nghĩa collocation nhƣ một

cụm từ gồm hai hay nhiều từ thƣờng xuyên cùng xuất hiện theo một thói quen đặc biệt. Ví

dụ, Choueka đã đƣa ra định nghĩa “Collocation là một chuỗi hai hay nhiều từ liên tiếp

nhau, có các đặc trƣng về cú pháp và ngữ nghĩa, và ý nghĩa của nó không thể đƣợc rút ra

từ nghĩa của các thành phần cấu tạo nên nó” hay cũng vậy “Collocation có thể đƣợc hiểu

là sự kết hợp các từ (hoặc các nhóm từ) thƣờng xuyên đƣợc sử dụng cùng với nhau theo

cách nói thông thƣờng” [20].

Theo Firth [17], collocation là sự sắp xếp từ theo thói quen hoặc theo phong tục (the

habitual or customary places of the word).

Benson và Morton [17] định nghĩa collocation là: sự kết hợp từ tùy ý và thƣờng tái

diễn (an arbitrary and recurrent word combination).

Theo Lin [19], collocation đƣợc định nghĩa là sự kết hợp từ theo thói quen.

3

Kết hợp các định nghĩa của nhiều nhà khoa học, có thể đƣa ra một định nghĩa chung

nhất về collocation nhƣ sau.

Định nghĩa: Collocation là một cụm từ gồm hai hay nhiều từ trở lên thƣờng đi liền

với nhau theo một trật tự nhất định (theo cách nói của ngƣời bản xứ).

1.1.2.Đặc trƣng của collocation

Smadja [24] đƣa ra bốn đặc trƣng của collocation có ích trong các ứng dụng Xử lý

ngôn ngữ tự nhiên.

a. Tính “độc đoán” (Arbitrary): điều này có nghĩa là không chấp nhận bất

kỳ một sự biến thể nào về cú pháp hoặc ngữ nghĩa đối với collocation.

b. Tính “phụ thuộc lĩnh vực” (Domain-dependent): việc xử lý văn bản

trong một lĩnh vực đòi hỏi sự hiểu biết về các thuật ngữ có liên quan và

các collocation trong lĩnh vực đó.

c. Tính “lặp lại” (Recurrent): các collocation là sự kết hợp từ đƣợc lặp lại

thƣờng xuyên trong ngữ cảnh xác định.

d. Tính “cụm từ cố kết” (Cohesive lexical cluster): đặc trƣng này đƣợc hiểu

nhƣ là sự xuất hiện của một hay một vài từ thƣờng bao hàm sự xuất hiện

của một collocation chứa nó.

1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên

Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ nhƣ sinh

ngôn ngữ tự nhiên, dịch máy, tóm tắt văn bản và xây dựng từ điển... Chính vì tầm quan

trọng của collocation, nên ngƣời ta đặt ra một vấn đề là làm thế nào để xác định

collocation.

Bài toán xác định collocation (hay còn gọi là Bài toán trích chọn collocation –

Collocation extraction) đƣợc phát biểu nhƣ sau “Xác định collocation là việc sử dụng

máy tính để trích chọn ra các collocation một cách tự động từ một kho ngữ liệu (copus)”.

Howarth và Nasi [16] cho rằng hầu hết trong các đoạn văn bản đều có chứa ít nhất

một collocation.

4

Sinh ngôn ngữ tự nhiên (Natural language generation) là việc tạo câu hoặc văn bản

từ một trình diễn phi ngôn ngữ. Có thể nhìn nhận việc phân tích ngôn ngữ là dịch từ ngôn

ngữ tự nhiên sang một kiểu trình diễn có ý nghĩa khác. Vì vậy, cần xem xét việc sinh

ngôn ngữ (language generation) nhƣ là phép dịch ngƣợc lại từ một trình diễn có ý nghĩa

sang ngôn ngữ tự nhiên. Việc phân tích một bài luận khó hơn việc phân tích các câu riêng

lẻ, việc sinh ra văn bản cũng khó hơn nhiều việc sinh ra chuỗi các câu độc lập. Để có một

văn bản dễ hiểu, phải dựa vào các nguyên tắc sắp xếp từ và câu theo đặc trƣng riêng của

mỗi loại ngôn ngữ [22].

Dịch tự động (Machine translation) đƣợc xem nhƣ là một trong những công việc khó

khăn nhất trong xử lý ngôn ngữ tự nhiên, và trong trí tuệ nhân tạo. Việc dịch đúng dƣờng

nhƣ là không thể nếu không có những hiểu biết về văn bản. Theo Gitsaki [14], một

collocation trong ngôn ngữ này khác với chính nó trong ngôn ngữ khác, vì thế việc dịch

collocation là một việc không dễ.

Thông tin về collocation cũng là chủ yếu trong các công việc tóm tắt văn bản (Text

simplification task). Điều này đòi hỏi phải có những kỹ thuật để thay thế các từ khó bởi

những từ đơn giản hơn. Không có hiểu biết về collocation và các ràng buộc liên quan thì

có thể dẫn đến những văn bản không dùng đƣợc.

Collocation cũng quan trọng trong lĩnh vực xây dựng từ điển (Computational

lexicography). Chúng đƣợc sử dụng để mô tả một cách đầy đủ các mục từ vựng. Theo

Richardson “đối với một phân tích từ điển chi tiết, chỉ các collocation có mặt trong từ

điển mới cung cấp thêm các đặc điểm biểu diễn trực tiếp các mối quan hệ ngữ nghĩa trong

các mục từ” [17].

Smith [25] xem xét các collocation để tìm ra các sự kiện liên quan đến thông tin

ngày tháng và địa điểm trong văn bản không có cấu trúc.

5

Chƣơng 2. CÁC PHƢƠNG PHÁP XÁC ĐỊNH

COLLOCATION

Những năm gần đây, các phƣơng pháp thống kê đƣợc sử dụng nhiều để giải quyết

các bài toán về ngôn ngữ tự nhiên, trong đó có Bài toán xác định collocation [20]. Trong

ngôn ngữ học, có sự khác biệt lớn giữa các phép đo về sự kết hợp từ vựng đƣợc sử dụng

trong việc phát hiện và trích ra (bán tự động) các collocation. Có 3 nhóm số đo sau [16]:

a. Các số đo dựa vào tần suất (dựa hoàn toàn vào tần suất của sự đồng xuất hiện

các từ).

b. Các số đo dựa vào thông tin lý thuyết: ví dụ, thông tin tƣơng hỗ MI (mutual

information), entropy.

c. Các số đo dựa vào thống kê: ví dụ, chi-square ( ), t-test, log-likelihood, hệ số

Dice.

Các độ đo trên cùng những tính chất toán học (Dunning, 1993; Manning & Schütze,

1999) [13][20] và sự phù hợp của chúng trong việc xác định collocation (Krenn & Evert,

2001) [18] đã đƣợc thảo luận rộng rãi trong lĩnh vực ngôn ngữ học. Độ đo đƣợc lựa chọn

sẽ gán cho mỗi cặp từ một điểm số để đánh giá sự kết hợp từ. Điểm số này đƣợc tính toán

dựa nhiều vào tần suất xuất hiện từ.

Trong khi các số đo về sự kết hợp có giá trị thống kê trong việc phát hiện

collocation, cần chú ý rằng có vài công việc cần làm với các đặc trƣng của ngôn ngữ. Vì

thế, việc nghiên cứu, lựa chọn, tiến hành một phép đo phải đƣợc kết hợp chặt chẽ với các

tiêu chuẩn về ngôn ngữ trong việc phát hiện collocation.

Chƣơng này sẽ trình bày một số phƣơng pháp thống kê để xác định collocation, đó

là: Frequency – tần suất, Mean and variance - dựa vào Kỳ vọng và phƣơng sai của

khoảng cách giữa từ trung tâm và việc sắp xếp từ, Hypothesis testing – kiểm thử Giả

thuyết, Likelihood ratio – Tỷ lệ likelihood, và Mutual information – thông tin tƣơng hỗ.

Kho ngữ liệu (corpus) đƣợc sử dụng trong các ví dụ minh họa là các ấn phẩm của tờ

New York Times (từ tháng 8 đến tháng 11 năm 1990). Kho ngữ liệu này có 115 MB dữ

liệu văn bản và khoảng 14 triệu từ. Thông thƣờng, cả những cụm từ cố định hay không cố

định đều có thể là collocation [20].

6

2.1. Phƣơng pháp Tần suất (Frequency)

Phƣơng pháp đơn giản nhất để tìm kiếm collocation trong một tập văn bản là đếm số

lần xuất hiện các từ. Nếu hai từ cùng xuất hiện với nhau nhiều, thì đó là dấu hiệu cho thấy

sự kết hợp của chúng mang một chức năng đặc biệt.

Bảng 1 chỉ ra các bigram xuất hiện nhiều nhất trong copus và tần suất xuất hiện của

chúng. Ngoại trừ New York, tất cả các biagram đều là các cặp từ chức năng.

Bảng 1.

Tìm kiếm collocation dựa vào tần suất.

C(.) là tần suất của một từ trong kho ngữ liệu

Có một phƣơng pháp rất đơn giản để cải thiện các kết quả (Justeson & Katz 1995):

cho các cụm từ dự tuyển qua một bộ lọc từ loại [20]. Bộ lọc này sẽ chỉ cho đi qua những

mẫu có khả năng là một cụm từ (phrase). Justeson và Katz đã đƣa ra các mẫu trong Bảng

2. Mỗi mẫu đƣợc đƣa ra kèm theo một ví dụ lấy từ tập test.

7

Bảng 2.

Các mẫu từ loại dùng cho việc lọc collocation.

Đây là những mẫu đƣợc sử dụng bởi Justeson và Katz để xác định collocation dựa

vào tần suất xuất hiện của từ.

A: tính từ (Adjective), P: giới từ (Preposition), N: danh từ (Noun)

Bảng 3 biểu diễn những cụm từ đƣợc xếp hạng cao nhất sau khi đƣợc lọc. Các kết

quả có đƣợc khá tốt. York City là một lỗi nhận đƣợc qua bộ lọc Justeson & Katz. Do đó

cần tìm kiếm một chuỗi dài nhất phù hợp với một trong các mẫu từ loại và tìm ra cụm từ

dài hơn có chứa York City, đó là New York City.

8

Bảng 3.

Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz.

Bảng 4 liệt kê hai mƣơi cụm từ hạng cao nhất có chứa strong và powerful có dạng

AN (A là strong hoặc powerful).

9

Bảng 4.

Các danh từ w xuất hiện thƣờng xuyên nhất trong các mẫu strong w và

powerful w.

Đối với một phƣơng pháp đơn giản thế này, các kết quả tìm đƣợc lại chính xác một

cách bất ngờ. Ví dụ phƣơng pháp này đã xác định đƣợc chính xác strong challenges và

powerful computers chứ không phải là powerful challenges và strong computers.

Tuy nhiên, có thể nhìn thấy những hạn chế của phƣơng pháp xác định collocation

dựa vào tần suất. Ví dụ trong Bảng 4, các danh từ man và force đƣợc sử dụng với cả hai

tính từ strong và powerful. Cần phải có các phân tích tinh vi hơn trong những trƣờng hợp

nhƣ thế này.

Cả strong tea và powerful tea đều không xuất hiện trong kho ngữ liệu ví dụ (New

York Times). Nhƣng nếu tìm kiếm trên kho ngữ liệu rộng hơn, sẽ thấy 799 lần xuất hiện

strong tea và 17 lần xuất hiện powerful tea, chứng tỏ rằng strong tea là cách dùng từ đúng

(việc tìm kiếm này đƣợc thực hiện trên AltaVista vào 28 tháng 3 năm 1998) [20].

Phƣơng pháp tìm kiếm collocation của Justeson và Katz đã chứng minh một điều

quan trọng: Một kỹ thuật định lƣợng đơn giản (trong trƣờng hợp này là bộ lọc tần suất)

10

kết hợp với một chút ít hiểu biết về ngôn ngữ học (về từ loại) trở thành một phƣơng pháp

khá hay.

Có thể sử dụng thêm danh sách từ dừng (là các từ có tần suất xuất hiện cao, nhƣng

không phải là động từ, danh từ hay tính từ...) để nâng cao hiệu quả của phƣơng pháp này.

2.2. Phƣơng pháp Kỳ vọng và Phƣơng sai (Mean & Variance)

Phƣơng pháp Tần suất làm việc khá hiệu quả với các cụm danh từ, và chỉ thực sự có

ích với các cụm từ cố định (fixed phrase). Tuy nhiên ở nhiều ngôn ngữ, có những

collocation bao gồm các từ đứng trong mối quan hệ mềm dẻo hơn với nhau. Phƣơng pháp

Kỳ vọng và phƣơng sai (Mean & Variance) [24] khắc phục đƣợc điều này bằng cách tính

toán khoảng cách giữa hai từ và tìm ra chiều rộng của phân bổ khoảng cách ấy. Nếu phân

bổ hẹp (khoảng cách giữa cách đỉnh phân bổ nhỏ), thì có thể tìm ra collocation. Nhƣng

nếu phƣơng sai cao, các đỉnh đƣợc phân bổ ngẫu nhiên thì ko thể tìm đƣợc collocation.

Xét động từ knock và một trong những từ có tần suất xuất hiện cao nhất cùng với nó

là door. Đây là một số ví dụ lấy từ kho ngữ liệu:

a. She knocked on his door

b. They knocked at the door

c. 100 women knocked on Donaldon’s door

d. A man knocked on the metal front door

Các từ xuất hiện ở giữa knocked và door là khác nhau và khoảng cách giữa hai từ

thay đổi, cho nên phƣơng pháp Tần suất sẽ không sử dụng đƣợc ở đây. Nhƣng có đủ tính

hợp thức trong các mẫu để cho phép chúng ta xác định đƣợc rằng trong tình huống này,

sử dụng knock là đúng, chứ không phải hit, beat, hay rap.

11

Câu:

Các bigram:

Hình 1.

Sử dụng cửa sổ collocation 3 từ để lấy đƣợc các bigram ở một khoảng

cách.

Cần định nghĩa một cửa sổ collocation (collocational window), thông thƣờng mỗi

cửa sổ từ 3 đến 4 từ, mỗi cặp từ sẽ làm thành một bigram (Hình 1). Sau đó, tiếp tục công

việc tính toán nhƣ bình thƣờng trên tập các bigram lớn hơn.

Phƣơng pháp Kỳ vọng và phƣơng sai xét khoảng cách khác nhau giữa hai từ. Để tìm

mối quan hệ giữa knocked và door, cần tính kỳ vọng và phƣơng sai của các khoảng cách

giữa hai từ trong kho ngữ liệu.

Kỳ vọng (trung bình mẫu) của các khoảng cách:

Phƣơng sai đo độ lệch của các khoảng riêng so với trung bình. Nó đƣợc ƣớc lƣợng

nhƣ sau:

n là số lần 2 từ cùng xuất hiện

là khoảng cách của lần cùng xuất hiện thứ i

Ví dụ, trung bình khoảng cách giữa knocked và door đƣợc tính nhƣ sau:

12

(Giả sử rằng Donaldson’s là 3 từ tố Donaldson, ’, s). Nếu door xuất hiện trƣớc

knocked thì khoảng cách giữa hai từ là một số âm. Ví dụ, nếu có the door that she

knocked on thì khoảng cách giữa knocked và door là -3.

Nếu khoảng cách là nhƣ nhau trong mọi trƣờng hợp thì phƣơng sai bằng 0. Nếu các

khoảng cách đƣợc phân bổ ngẫu nhiên (trong trƣờng hợp hai từ tình cờ xuất hiện cùng

nhau) thì giá trị phƣơng sai sẽ cao. Thƣờng thì độ lệch mẫu

đƣợc sử dụng để

đánh giá sự biến đổi khoảng cách giữa hai từ. Độ lệch cho các ví dụ về knocked... door là:

Kỳ vọng và độ lệch mô tả phân bổ của các khoảng cách giữa hai từ trong một kho

ngữ liệu. Dựa vào điều này, ta có thể tìm ra collocation bằng cách tìm cặp từ có độ sai

lệch thấp nhất. Độ lệch thấp có nghĩa là hai từ gần như thƣờng xuất hiện ở cùng một

khoảng cách. Nếu độ lệch bằng 0 thì chứng tỏ hai từ xuất hiện chính xác ở cùng một

khoảng cách.

Hình 2 là ví dụ minh họa phân bổ về khoảng cách của một từ đối với một từ khác (từ

trung tâm).

2a. Vị trí của strong đối với opposition (

)

13

2b. Vị trí của strong đối với support (

)

2c. Vị trí của strong đối với for (

)

Hình 2.

Biểu đồ tần suất biểu diễn vị trí tƣơng đối của strong với các “từ

trung tâm”: opposition, support, for.

Hình 2a. Phân bổ của strong đối với opposition có một đỉnh ở vị trí -1 (strong

opposition). Vì vậy phƣơng sai thấp (s = 0.67), trung bình

strong thƣờng xuất hiện ở vị trí -1 so với opposition.

cho biết rằng

Cần phải hạn chế các vị trí xung quanh từ trung tâm (bằng việc giới hạn kích thƣớc

cửa sổ collocation) vì các collocation về cơ bản là cách dùng từ mang tính chất địa

phƣơng.

Hình 2b. Phân bổ của strong đối với support đƣợc rút ra từ một số vị trí âm có tần

suất xuất hiện của cụm từ lớn. Ví dụ, đếm đƣợc khoảng 20 cụm từ ở vị trí -2 (strong leftist

support hay strong business support). Bởi vậy chúng ta nhận đƣợc phƣơng sai cao hơn

(s=1.07) và trung bình

.

14

Hình 2c. Sự xuất hiện của strong cùng với for là một phân bổ đều hơn. Có xu hƣớng

strong xuất hiện trƣớc for (vì vậy, trung bình là ), nhƣng thực ra nó có thể xuất

hiện ở bất cứ vị trí nào xung quanh for. Độ chênh lệch cao s = 2.15 đã chỉ ra sự thay đổi

này. Từ đó thấy rằng for và strong không tạo thành collocation.

Bảng 5 đƣa ra các collocation có thể đƣợc tìm thấy bằng phƣơng pháp Kỳ vọng và

phƣơng sai.

Bảng 5.

Bảng này cho biết độ lệch mẫu s và trung bình mẫu của các khoảng cách giữa 12

cặp từ.

Tìm kiếm collocation dựa vào Kỳ vọng và phƣơng sai.

Nếu trung bình gần với 1.0 và độ lệch thấp (nhƣ trƣờng hợp từ New York), phƣơng

pháp Kỳ vọng và phƣơng sai cho kết quả tìm kiếm collocation không khác mấy so với

phƣơng pháp Tần suất của Justeson và Katz.

Nếu trung bình lớn hơn rất nhiều so với 1.0 thì độ lệch thấp sẽ cho biết các cụm từ

nào đáng đƣợc quan tâm.

Ví dụ:

- Cặp từ previous / games (khoảng cách là 2) tƣơng ứng với các cụm từ nhƣ in the

previous 10 games hoặc in the previous 15 games...

- Cặp từ minus / points tƣơng ứng với các cụm từ nhƣ minus 2 percentage points,

minus 3 percentage points...

15

Độ lệch cao chỉ ra rằng hai từ không có mối quan hệ mật thiết với nhau. Điều này

đƣợc chứng minh qua nhóm thứ hai (gồm 4 cặp từ với giá trị phƣơng sai cao) trong ví dụ

ở Bảng 5.

Phƣơng pháp tìm kiếm collocation dựa vào giá trị kỳ vọng và phƣơng sai đƣợc trình

bày ở trên là của Smadja [24]. Smadja chỉ ra rằng phƣơng pháp của ông khá thành công

trong việc trích ra các thuật ngữ (với độ chính xác ƣớc lƣợng khoảng 80%) và trong việc

xác định các cụm từ phù hợp cho việc sinh ngôn ngữ – natural language generation

(Smadja và McKeown 1990 [23]).

Tuy nhiên, sự kết hợp knocked / door không phải collocation ta muốn phân loại –

mặc dù có thể nó rất có ích cho mục đích sinh văn bản (text generation). Phƣơng pháp

phát hiện collocation dựa vào phƣơng sai là một phƣơng pháp phù hợp nếu chúng ta

muốn tìm kiếm kiểu kết hợp từ nhƣ knocked... door.

2.3. Kiểm thử Giả thuyết (Hypothesis testing)

Trong thực tế, có nhiều sự kết hợp từ mà giá trị tần suất cao và phƣơng sai thấp.

Điều mà chúng ta cần tìm hiểu, đó là có hay không hai từ xuất hiện cùng với nhau thƣờng

xuyên mà không phải là sự xuất hiện ngẫu nhiên. Việc đánh giá một biến cố có xảy ra hay

không là một trong những bài toán kinh điển. Nó thƣờng bị ẩn đi trong các thuật ngữ của

Kiểm thử Giả thuyết (hypothesis testing). Có một giả thuyết đƣợc gọi là Giả thuyết Không

(null hypothesis) , chỉ xét sự kết hợp từ ngẫu nhiên. Ta sẽ tính toán xác suất p mà biến

cố sẽ xảy ra nếu

thông thƣờng ngƣời ta lấy ngƣỡng là

lại trong trƣờng hợp ngƣợc lại.

Đây là một cách phân tích dữ liệu mà chúng ta phải xem xét cùng lúc hai việc.

đúng, và sau đó loại

nếu p quá nhỏ (p < 0.05, 0.01, 0.005, 0.001,

trong các thực nghiệm khoa học) hoặc giữ

Trƣớc mắt, chúng ta sẽ đi tìm kiếm các mẫu đặc biệt trong dữ liệu, nhƣng bên cạnh đó,

cần phải tính toán đƣợc lƣợng dữ liệu đã đƣợc quan sát. Thậm chí nếu có một mẫu rất tốt,

thì chúng ta vẫn sẽ đánh giá thấp nó nếu nhƣ không có đủ dữ liệu quan sát để có thể chắc

chắn rằng mẫu đó tồn tại không phải do ngẫu nhiên.

Giả thuyết Không là đúng nếu hai từ không tạo thành một collocation. Giả sử rằng

mỗi từ

và

đƣợc sinh ra một cách hoàn toàn độc lập với nhau, vì vậy khả năng

chúng xuất hiện cùng nhau là:

16

Công thức cho thấy rằng xác suất cùng xuất hiện của hai từ chỉ là kết quả của các

xác suất riêng của mỗi từ .

2.3.1.Kiểm thử t (t test)

Cần phải có một phép thử thống kê để kiểm tra xác suất cùng xuất hiện của các từ.

Phép thử đƣợc sử dụng rộng rãi trong việc tìm kiếm collocation là t test. T test xem

xét trung bình và phƣơng sai của một mẫu các phép đo, mà theo Giả thuyết Không, mẫu

đó đƣợc rút ra từ một phân bổ với trung bình μ. Phép thử xét sự khác nhau giữa trung bình

đƣợc quan sát và trung bình kỳ vọng (đƣợc đo bằng phƣơng sai của dữ liệu) sẽ cho chúng

ta một giá trị trung bình và phƣơng sai đặc biệt hơn, với giả thiết mẫu đƣợc rút ra từ một

phân phối thông thƣờng với trung bình μ.

Để xác định đƣợc xác suất của một mẫu đặc biệt, cần tính toán giá trị thống kê t:

là trung bình mẫu

là phƣơng sai mẫu

là kích thƣớc mẫu

là trung bình của phân phối

Nếu t đủ lớn, chúng ta có thể loại bỏ Giả thuyết Không. Chúng ta có thể tìm ra chính

xác là t cần phải lớn nhƣ thế nào bằng cách tra cứu trong Bảng phân phối t (Phụ lục).

Để thấy rõ hơn việc sử dụng t test để tìm kiếm collocation, chúng ta sẽ tính giá trị t

cho cụm từ new companies. Vấn đề là chúng ta sẽ đo giá trị trung bình và phƣơng sai của

một mẫu nhƣ thế nào. Có một cách, là coi kho ngữ liệu nhƣ một chuỗi dài gồm N bigram,

các mẫu sẽ đƣợc lấy bằng 1 nếu bigram đang kiểm tra xuất hiện, và bằng 0 trong trƣờng

hợp ngƣợc lại.

Các xác suất để new và companies xuất hiện trong kho ngữ liệu đƣợc tính nhƣ sau:

17

Trong kho ngữ liệu ví dụ, new xuất hiện 15828 lần, companies xuất hiện 4675 lần,

và có tất cả 14307668 bigram.

Giả thuyết Không quy ƣớc rằng sự xuất hiện các biến cố new và companies phải độc

lập với nhau.

Trung bình của phân phối này là

và phƣơng sai là

(xấp xỉ này đƣợc sử dụng cho tất cả các bigram có xác suất p nhỏ).

Cụm từ new companies xuất hiện 8 lần trên tổng số 14307668 bigram trong kho ngữ

liệu. Vì thế, đối với mẫu này, chúng ta có trung bình mẫu là

. Theo công thức tính t:

Vì số mẫu rất lớn nên có thể xem bậc tự do (degrees of freedom) df = ∞, với ngƣỡng

cho xác suất p là

, tra trong Bảng phân phối t (Phụ lục) đƣợc giá trị 2.57583.

Dễ thấy t < 2.57583 nên không thể loại bỏ Giả thuyết Không (Giả thuyết Không là đúng

vì new và companies tuy cùng xuất hiện nhƣng vẫn độc lập với nhau), vì vậy new

companies không phải là collocation.

Bảng 6 cho thấy các giá trị t của 10 bigram xuất hiện với tần suất 20 lần trong kho

ngữ liệu. Đối với 5 bigram đầu tiên, chúng ta có thể loại bỏ Giả thuyết Không với

, vì vậy các bigram này rất có thể là các collocation. Phép tính t cho 5 bigram

cuối cùng không cho kết quả tốt, vì vậy có khả năng chúng không phải là collocation.

18

Bảng 6.

Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t.

Chú ý rằng phƣơng pháp Tần suất không thể xếp hạng đƣợc 10 bigram khi chúng

xuất hiện với tần suất bằng nhau. Nhìn vào Bảng 6, có thể thấy phép thử t test tính số lần

cùng xuất hiện của hai từ trong bigram. C(

) liên quan đến tần suất của các từ thành

phần. Nếu tần suất của cả hai từ là cao (Ayatollah Ruhollah, videocassette recorder) hoặc

ít nhất là tần suất của một trong hai từ (unsaled) trong bigram là rất cao thì giá trị t của

chúng cũng cao. Đánh giá này dựa nhiều vào trực giác.

Phép thử t test và các phép thử thống kê khác rất có ích trong một số phƣơng pháp

xếp hạng collocation (ranking collocation).

2.3.2.Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp

(Hypothesis testing of differences)

Trong lĩnh vực từ điển học, công thức t test không thể tìm ra các từ để phân biệt tốt

nhất nghĩa của strong và powerful. Church và Hanks (1989) [11] đã khắc phục điều này

bằng việc đề xuất một công thức tính t khác.

Bảng 7 liệt kê các từ đi cùng với powerful có ý nghĩa hơn là với strong (10 từ đầu),

và các từ đi cùng với strong có ý nghĩa hơn là với powerful (10 từ cuối).

19

Bảng 7.

Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất

hiện có ý nghĩa với powerful và strong.

Giá trị t trong trƣờng hợp này đƣợc tính toán bằng cách sử dụng mở rộng của phép

thử t test để so sánh các trung bình của hai tập hợp:

Ở đây, Giả thuyết Không quy định rằng sai khác trung bình bằng 0 (μ = 0), vì thế ta

có

. Mẫu số là tổng các giá trị phƣơng sai riêng

của hai tập hợp đang đƣợc so sánh.

Các giá trị t trong Bảng 7 đƣợc tính toán nhƣ sau: Nếu w là một từ có ý nghĩa (ví dụ,

computers hoặc symbol) và

strong), thì ta có

,

là các từ chúng ta sẽ so sánh (ví dụ, powerful và

(sử dụng lại xấp xỉ

với p rất nhỏ):

20

Rút gọn lại công thức trên, thu đƣợc:

C(x) là số lần x xuất hiện trong văn bản.

Công thức tính t do Church và Hanks (1989) [10] xây dựng rất có ích cho việc biên

soạn từ điển. Khi biên soạn từ điển, ngoài việc nhìn vào ý nghĩa của từ, còn phải xem xét

đến những đặc trƣng riêng về văn hóa. Ví dụ, ngƣời ta thƣờng nói strong tea, nhƣng mặt

khác lại nói powerful drugs, sự khác nhau đã nói cho chúng ta biết về thói quen dùng từ

nhiều hơn là về ngữ nghĩa của hai tính từ strong và powerful (Church 1991) [11].

2.4. Kiểm thử khi-bình phƣơng (Pearson’s chi-square test)

T test có nhƣợc điểm là nó thừa nhận các xác suất đƣợc phân bổ theo cách xấp xỉ

thông thƣờng, điều này trong thực tế là không đúng (theo Church và Mercer 1993) [7].

Vào năm 1900, Karl Pearson đã phát triển một thống kê ( ) so sánh các giá trị

đƣợc quan sát và kỳ vọng khi dữ liệu đƣợc chia thành các mục riêng biệt. Các giá trị quan

sát (observed) và kỳ vọng (expected) có thể đƣợc giải thích trong phạm vi các giả thuyết

kiểm tra (hypothesis testing). Tức là nếu dữ liệu đƣợc phân chia thành các mục riêng và

có định nghĩa Giả thuyết Không trên dữ liệu đó thì giá trị đƣợc kỳ vọng là giá trị của mỗi

mục nếu nhƣ Giả thuyết Không là đúng, giá trị đƣợc quan sát là giá trị mỗi mục mà ta

quan sát từ dữ liệu mẫu [17].

Kiểm thử khi-bình phƣơng ( test) của Pearson là phép thử đáng tin cậy hơn phép

Kiểm thử t [17].

Trong trƣờng hợp đơn giản nhất, phép thử khi-bình phƣơng đƣợc sử dụng với bảng

2x2 nhƣ minh họa ở Bảng 8.

21