Luận văn Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh - Việt
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
BÙI THANH HUY
- 9912567
LÊ PHƯƠNG QUANG - 9912653
NGHIÊN CỨU VÀ CÀI ĐẶT
BỘ GÁN NHÃN TỪ LOẠI
CHO SONG NGỮ ANH-VIỆT
LUẬN VĂN CỬ NHÂN TIN HỌC
GIÁO VIÊN HƯỚNG DẪN
GS.TSKH HOÀNG KIẾM
NIÊN KHÓA 1999 - 2003
`
Nhận xét của giáo viên hướng dẫn
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
TP. Hồ Chí Minh, ngày…. tháng ….năm 2003
Giáo viên hướng dẫn
GS.TSKH Hoàng Kiếm
`
Nhận xét của giáo viên phản biện
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
TP. Hồ Chí Minh, ngày…. tháng ….năm 2003
Giáo viên phản biện
`
Lời cảm ơn.
Đầu tiên, chúng em xin chân thành cảm ơn thầy giáo
hướng dẫn, GS.TSKH Hoàng Kiếm, người đã tận tình
hướng dẫn bọn em trong suốt quá trình làm luận văn. Đồng
thời, chúng em xin gửi lời cảm ơn đến các thầy cô trong
khoa Công Nghệ Thông Tin trường Đại học Khoa Học Tự
Nhiên đã truyền đạt rất nhiều kiến thức quý báu cho chúng
em.
Chúng em cũng muốn cảm ơn những người thân
trong gia đình đã động viên, giúp đỡ và tạo điều kiện để
chúng em có thể hoàn thành tốt luận văn này.
Cuối cùng, chúng em xin gửi lời cảm ơn thầy Đinh
Điền và các bạn trong nhóm VCL đã giúp đỡ và hỗ trợ
chúng em rất nhiều để hoàn thành luận văn này.
Tp. Hồ Chí Minh, 7-2003
Bùi Thanh Huy - Lê Phương Quang.
`
Mục lục
Mục lục............................................................................................ ii
Danh sách các hình........................................................................ vi
Lời nói đầu .................................................................................... vii
Chương 1: Tổng quan .................................................................... 1
1.1 Giới thiệu ............................................................................................... 2
1.2 Tổng quan về gán nhãn từ loại ............................................................ 3
1.2.1 Gán nhãn từ loại là gì?..................................................................... 3
1.2.2 Vai trò của gán nhãn từ loại............................................................. 4
1.3 Các vấn đề gặp phải và hướng giải quyết trong bài toán gán nhãn
từ loại................................................................................................................ 6
1.3.1 Các vấn đề gặp phải khi giải quyết bài toán .................................... 6
1.3.2 Hướng giải quyết.............................................................................. 7
1.4 Bố cục ..................................................................................................... 8
Chương 2: Cơ sở lý thuyết............................................................. 9
2.1 Máy học và xử lý ngôn ngữ tự nhiên................................................. 10
2.1.1 Hướng tiếp cận thống kê................................................................ 11
2.1.2 Hướng tiếp cận theo biểu trưng ..................................................... 12
2.1.2.1 Cây quyết định:...................................................................................12
2.1.2.2 Danh sách quyết định..........................................................................13
2.1.2.3 Phương pháp học hướng lỗi dựa trên các luật biến đổi trạng thái
(TBL) 13
2.1.3 Hướng tiếp cận thay thế biểu trưng ............................................... 14
2.1.3.1 Mạng Neural .......................................................................................14
2.1.3.2 Thuật toán di truyền ( Genetic Algorithm : GA) ................................14
2.2 Một số giải thuật áp dụng cho bài toán gán nhãn từ loại ............... 15
2.2.1 Giải thuật học chuyển đổi dựa trên luật cải biến (TBL)................ 15
2.2.1.1 Sơ đồ của giải thuật TBL....................................................................17
2.2.1.2 Mô tả hoạt động của giải thuật............................................................17
2.2.1.3 Trình bày giải thuật.............................................................................20
`
2.2.1.4 Kết luận:..............................................................................................21
2.2.2 Mô hình mạng neural..................................................................... 22
2.2.2.1 Giới thiệu: ...........................................................................................22
2.2.2.2 Mạng neural:.......................................................................................22
2.2.2.3 Giải thuật gán nhãn từ loại dựa trên mạng neural...............................25
2.2.2.4 Từ điển:...............................................................................................27
2.2.3 Mô hình Maximum Entropy (ME): ............................................... 28
2.2.3.1 Giới thiệu: ...........................................................................................28
2.2.3.2 Các đặc trưng của gán nhãn từ loại:....................................................29
2.2.3.3 Mô hình kiểm tra:................................................................................33
2.2.4 Mô hình TBL nhanh (FnTBL)....................................................... 34
2.2.4.1 Giới thiệu giải thuật FnTBL: ..............................................................34
2.2.4.2 Tính điểm và phát sinh luật:................................................................36
2.2.4.3 Giải thuật FnTBL:...............................................................................39
Chương 3: Mô hình ...................................................................... 41
3.1 Một số khái niệm sử dụng trong mô hình: ....................................... 42
3.1.1 Ngữ liệu(Corpus): .......................................................................... 42
3.1.2 Ngữ liệu vàng(Golden Corpus)...................................................... 44
3.1.3 Ngữ liệu huấn luyện(Training corpus): ......................................... 45
3.2 Một số mô hình kết hợp hiện nay:..................................................... 46
3.2.1 Mô hình kết hợp sử dụng nhiều mô hình liên kết.......................... 47
3.2.2 Phương pháp kết hợp dựa trên tính điểm cho các nhãn ứng viên.. 48
3.2.3 Phương pháp kết hợp dựa trên gợi ý của ngữ cảnh. ...................... 50
3.2.4 Phương pháp kết hợp dựa trên tính kế thừa kết quả của giải thuật
TBL
51
3.3 Mô hình gán nhãn từ loại dựa trên song ngữ Anh-Việt.................. 52
3.3.1 Sơ đồ hoạt động của mô hình: ....................................................... 55
3.3.1.1 Ngữ liệu huấn luyện:...........................................................................56
3.3.1.2 Quá trình khởi tạo:..............................................................................58
3.3.1.3 Quá trình huấn luyện:..........................................................................58
3.3.1.4 Quá trình gán nhãn từ loại trên cặp câu song ngữ ..............................61
3.3.2 Thuật giải ....................................................................................... 63
3.3.3 Khung luật (Template):.................................................................. 64
3.3.4 Cải tiến ........................................................................................... 66
3.3.5 Chiếu sang tiếng Việt..................................................................... 67
Chương 4: Cài đặt thử nghiệm và đánh giá kết quả ................. 70
`
4.1 Cài đặt.................................................................................................. 71
4.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mô hình kết hợp FnTBL và
ME.
71
4.1.2 Cài đặt bộ gán nhãn từ loại có sử dụng thông tin tiếng Việt. ........ 72
4.1.3 Cài đặt mô hình chiếu từ loại từ tiếng Anh sang tiếng Việt .......... 73
4.2 Thử nghiệm.......................................................................................... 74
4.2.1 Thử nghiệm với các mô hình khởi tạo khác nhau. ....................... 74
4.2.1.1 Kết quả thử nghiệm dùng Unigram là giải thuật gán nhãn cơ sở. ......75
4.2.1.2 Kết quả thử nghiệm với nhãn khởi tạo của mô hình Markov ẩn .......78
4.2.1.3 Kết quả thử nghiệm dùng Maximum Entropy làm giải thuật gán nhãn
cơ sở. 81
4.2.2 Thử nghiệm với các khung luật khác nhau cho giải thuật TBL
nhanh 84
4.2.3 Kết quả gán nhãn từ loại khi dùng thông tin tiếng Việt................. 85
4.3 Nhận xét............................................................................................... 85
Chương 5: Tổng kết ..................................................................... 86
5.1 Kết quả đạt được................................................................................. 87
5.2 Hạn chế ................................................................................................ 88
5.3 Hướng phát triển: ............................................................................... 89
Phụ lục A:Các tập nhãn của Penn Tree Bank ........................... 90
Phụ lục B: Bộ nhãn từ loại tiếng Việt. ........................................ 92
Phụ lục C: Bảng ánh xạ từ loại từ tiếng Anh sang tiếng Việt... 93
Phụ lục D: Một số luật chuyển đổi.............................................. 95
Phụ lục E: Kết quả gán nhãn từ loại trong mô hình kết hợp
không dùng thông tin tiếng Việt.................................................. 97
Phụ lục F: Kết quả gán nhãn từ loại trong mô hình kết hợp có
dùng thông tin tiếng Việt ............................................................. 99
`
Tài liệu tham khảo................................................................... 102
`
Danh sách các hình
Hình 1-1: Các giai đoạn của dịch máy ....................................................................2
Hình 2-1: Sơ đồ hoạt động của giải thuật TBL. ...................................................17
Hình 2-2: Mô tả quá trình huấn luyện của giải thuật TBL.................................19
Hình 2-3:Mạng lan truyền 2 lớp ............................................................................23
Hình 2-4: Cấu trúc của mô hình gán nhãn ...........................................................25
Hinh 2-5: Cây từ điển trong mô hình mạng. .......................................................27
Hình 3-1: Cây cú pháp trong ngữ liệu...................................................................43
Hình 3-2: Sơ đồ hoạt động của mô hình gán nhãn từ loại trên ngữ liệu song
ngữ Anh-Việt. ..................................................................................................55
Hình 3-4: Mô hình huấn luyện cho nhãn tiếng Anh ............................................60
Hình 3-5: Mô hình gán nhãn cho tiếng Anh trong ngữ liệu song ngữ Anh-Việt
...........................................................................................................................61
Hình 4-1: Sơ gán nhãn cho mô hình kết hợp........................................................71
Hình 4-2: Sơ đồ mô hình gán nhãn sử dụng thông tin tiếng Việt.......................72
Hình 4-3: Sơ đồ mô hình chiếu từ loại sang tiếng Việt........................................73
`
Lời nói đầu
Ngày nay, khi khoa học công nghệ phát triển hết sức mạnh mẽ, yêu
cầu nắm bắt thông tin về khoa học, kỹ thuật, công nghệ nhanh chóng và
chính xác là hết sức cần thiết. Hiện nay, đa số các tài liệu đều được viết bằng
tiếng Anh. Do đó, việc chuyển các tài liệu này về tiếng Việt là điều rất cần
thiết. Nếu làm được điều này, mọi người sẽ có được nhiều cơ hội tiếp cận với
các thông tin tri thức mới. Nhưng công việc này tương đối khó khăn mặc dù
hiện nay có khá nhiều hệ dịch tự động ( như dịch trực tiếp, dịch qua ngôn
ngữ trung gian, dịch dựa trên luật hoặc dịch dựa trên thống kê…) nhưng đa
số các các hệ dịch này đều chưa đạt kết quả cao. Do đó, việc cải tiến chất
lượng các hệ dịch máy luôn được quan tâm. Hiện nay, hệ dịch máy dựa trên
chuyển đổi cú pháp được đánh giá khá cao. Hệ dịch máy này bao gồm khá
nhiều giai đoạn như tiền xử lý, gán nhãn từ loại, phân tích hình thái, phân
tích cú pháp, chuyển đổi trật tự từ, xử lý ngữ nghĩa,…
Dịch máy là một qui trình tương đối phức tạp, do vậy, trong luận văn
này chúng tôi chỉ tập trung giải quyết một bài toán trong hệ dịch máy này, đó
là giai đoạn gán nhãn từ loại. Đây là một bước cơ sở, làm nền tảng cho các
giai đoạn sau. Kết quả của việc gán nhãn từ loại sẽ ảnh hưởng tới các giai
đoạn khác. Trong luận văn này, ngoài việc cố gắng cải tiến kết quả của gán
nhãn từ loại, chúng tôi còn sử dụng các thông tin có được sau khi gán nhãn
từ loại để xây dựng một ngữ liệu về từ loại cho tiếng Việt. Nó sẽ giúp tiết
kiệm rất nhiều thời gian và chi phí trong việc xây dựng ngữ liệu tiếng Việt,
và ngữ liệu được tạo ra sẽ là nguồn dữ liệu vô cùng quý giá phục vụ cho các
mục đích nghiên cứu về tiếng Việt khác.
`
Chương 1
Tổng quan
Chương 1: Tổng quan
Trong chương này, chúng ta sẽ tìm hiểu tổng quan về gán nhãn từ loại
và tầm quan trọng của gán nhãn từ loại trong xử lý ngôn ngữ từ loại nói
chung và dịch máy nói riêng.
1.1 Giới thiệu
Từ trước đến nay, dịch máy luôn là một bài toán rất khó do ngôn ngữ
tự nhiên rất phức tạp. Mặc dù cho đến nay đã có rất nhiều cải tiến nhằm tăng
chất lượng dịch máy nhưng kết quả đạt được vẫn còn tương đối hạn chế.
Dịch máy là một quá trình khá phức tạp, gồm nhiều giai đoạn khác
nhau như tiền xử lý, gán nhãn từ loại, phân tích cú pháp, chuyển đổi cú pháp,
xử lý ngữ nghĩa… Các giai đoạn này đều ảnh hưởng rất lớn đến kết quả của
quá trình dịch máy.
Gán nhãn từ loại là một giai đoạn khá quan trọng trong dịch máy. Nó
có ảnh hưởng to lớn đến kết quả của các giai đoạn sau nó cũng như kết quả
dịch máy. Việc gán nhãn từ loại chính xác không những ảnh hưởng đến kết
quả của dịch máy, nó còn ảnh hưởng rất lớn đến kết quả của các bài toán
khác trong xử lý ngôn ngữ tự nhiên, khai khoán dữ liệu như bài toán tìm từ
đồng nghĩa, gần nghĩa, bài toán trích chọn thông tin, bài toán phân loại, làm
chỉ mục…
Vị trí của gán nhãn từ loại trong hệ dịch máy dựa trên chuyển đổi cú
pháp:
Tiền xử
Phân tích
hình thái
Phân tích
cú pháp
Xử lý ngữ
nghĩa
Văn bản
nhập
lý
Kết quả
dịch
Chuyển đỗi
cú pháp
Gán nhãn
từ loại
Hình 1-1: Các giai đoạn của dịch máy
2
Chương 1: Tổng quan
1.2 Tổng quan về gán nhãn từ loại
1.2.1 Gán nhãn từ loại là gì?
Để hiểu rõ hơn về gán nhãn từ loại là gì thì trước tiên, chúng ta cần
phải biết một số khái niệm về nhãn từ loại. Vậy nhãn từ loại là gì?
Trong một câu, mỗi từ đóng một vai trò nhất định. Để thể hiện chức
năng ngữ pháp của mỗi từ, người ta sử dụng nhãn từ loại. Ví dụ như trong
câu tiếng Anh sau:
I want to book a book.
Từ “book” có hai nhãn từ loại là động từ và danh từ.
Hoặc trong câu tiếng Việt sau:
Tôi đi học.
thì nhãn từ loại của từ “tôi” là đại từ, “đi học” là động từ
Trong luận văn này, chúng tôi chỉ tập trung vào việc gán nhãn cho câu
tiếng Anh. Do đó, trong phần này chúng tôi sẽ chỉ đề cập các nhãn từ loại
cho tiếng Anh.
Hiện nay trên thế giới có khá nhiều bộ nhãn từ loại. Trong luận văn
này, chúng tôi sử dụng bộ nhãn của Pen Tree Bank, môt bộ nhãn khá phổ
biến hiện nay. Dưới đây là một số nhãn trong bộ nhãn này :
IN
JJ
Giới từ(Preposition or subordinating conjunction)
Tính từ(Adjective)
NN Danh từ, số ít hay không đếm được(Noun, singular or mass)
NP Danh từ riêng số ít(Proper noun, singular)
RB
VB
Trạng từ(Adverb)
Động từ dạng nguyên thể không “to”(Verb, base form)
VBP Động từ không phải ngôi 3 số ít hiện tạ (Verb, non-3rd person
singular present )
(Tham khảo thêm phần phụ lục A ).
Trong một câu, mỗi từ đóng một vai trò ngữ pháp khác nhau, do đó
tuỳ theo ngữ cảnh trong câu mà mỗi từ có một loại nhãn thích hợp. Nhưng để
3
Chương 1: Tổng quan
xác định được nhãn từ loại của các từ trong một câu không đơn giản, do đa
số các từ đều có nhiều từ loại khác nhau, tuỳ vào ngữ cảnh mà chúng ta có
thể chọn nhãn từ loại thích hợp cho từ. Đây chính là công việc chủ yếu của
gán nhãn từ loại, tìm nhãn từ loại chính xác cho các từ trong một câu.
1.2.2 Vai trò của gán nhãn từ loại
Gán nhãn từ loại là một giai đoạn trong quá trình dịch máy. Kết quả
của gán nhãn từ loại sẽ ảnh hưởng rất lớn đến các giai đoạn khác.
Chẳng hạn như đối với việc chuyển đổi trật tự từ từ tiếng Anh sang
tiếng Việt ( đây là một công việc hết sức quan trọng trong quá trình dịch
máy), nếu từ loại của các từ trong câu được đánh chính xác thì việc chuyển
trật tự từ sẽ tốt hơn. Ví dụ như trong cụm danh từ sau:
Tiếng Anh: A good book
Câu dịch : Một hay cuốn sách.
Tiếng Việt: Một cuốn sách hay.
Trong ví dụ trên, từ “good” nằm trước từ “book” nhưng khi dịch ra
tiếng Việt, ta phải đảo trật tự hai từ này thì câu tiếng Việt mới có ý nghĩa.
Chính vì sự khác nhau về trật tự từ này nên khi dịch từ tiếng Anh sang tiếng
Việt, cần phải có sự thay đổi trật tự từ cho thích hợp. Công việc chuyển đổi
này dựa trên nhãn từ loại và cây cú pháp của tiếng Anh. Nếu giải quyết tốt
vấn đề gán nhãn từ loại thì việc chuyển đổi sẽ gặp ít khó khăn hơn và kết quả
đạt được sẽ tốt hơn.
Hoặc đối với vấn đề xử lý ngữ nghĩa ( chọn nghĩa đúng cho một từ tuỳ
theo ngữ cảnh), từ loại của từ có ảnh hưởng rất lớn. Ta thử xét ví dụ sau:
I want to book two books.
Trong câu trên, mặc dù hai từ “book” giống nhau nhưng chúng có vai
trò ngữ pháp và ngữ nghĩa khác nhau. Do đó, muốn chọn nghĩa chính xác
cho từng từ thì ta phải biết từ loại của từ đó. Nếu nhãn từ loại bị đánh sai thì
sẽ dẫn đến việc chọn nghĩa cho từ sai hoàn toàn.
4
Chương 1: Tổng quan
Ngoài ra, một ứng dụng khác của gán nhãn từ loại là sử dụng các
thông tin đã có bên tiếng Anh để gán nhãn từ loại cho câu tiếng Việt. Đây
cũng là một phần của luận văn này.
Hiện nay, khi công nghệ thông tin phát triển và các công trình nghiên
cứu về ngôn ngữ, đặc biệt là tiếng Việt, ngày càng phát triển thì việc xây
dựng một kho ngữ liệu bao gồm các thông tin về tiếng Việt hết sức cần thiết.
Với mục đích đó, chương trình gán nhãn ngoài việc gán nhãn từ loại cho
tiếng Anh còn sử dụng các thông tin về nhãn từ loại tiếng Anh đã có được
kết hợp với các thông tin của tiếng Việt để gán nhãn từ loại cho câu tiếng
Việt.
Muốn thực hiện được điều này thì dữ liệu đầu vào của ta cần có một
câu tiếng Anh đã được gán nhãn và một câu tiếng Việt đã được dịch tương
ứng với câu tiếng Anh trên. Nhãn từ loại trên câu tiếng Anh sẽ được lấy từ
kết quả của chương trình. Như ví dụ sau:
Câu tiếng Anh: I draw a picture.
Câu tiếng Anh đã được gán nhãn từ loại: I/PRP draw/VBP a/DT
picture/NN1
Câu tiếng Việt: Tôi vẽ một bức tranh.
Mục đích cần đạt được chính là câu tiếng Việt được gán nhãn từ như
sau:
Tôi/P vẽ/V một/DT bức_tranh/N
Trong đó P là đại từ, V là động từ, DT là mạo từ, N là danh từ. Các
nghiên cứu của các nhà ngôn ngữ học đã cho thấy giữa các ngôn ngữ luôn có
một liên quan lẫn nhau về cấu trúc, từ loại, ... Do đó, việc chuyển đổi có thể
thực hiện được nếu áp dụng một số quy tắc ánh xạ về sự tương ứng giữa các
ngôn ngữ.
Bên cạnh đó, để thực hiện được việc này thì các từ tiếng Anh phải
được liên kết với các từ tiếng Việt thông qua mối liên kết từ. Ví dụ như câu
trên là:
1 Các nhãn sủ dụng trong câu thuộc bộ nhãn từ loại của Penn Tree Bank, tham khao thêm ở phụ lục A
5
Chương 1: Tổng quan
I --- > Tôi
Draw--------- >vẽ
A ----------- > một
Picture ----------- > bức tranh.
Công việc này được thực hiện qua việc sử dụng mô hình tìm liên kết
từ cho song ngữ Anh-Việt, cụ thể ở đây là mô hình thống kê.
Bên cạnh đó, gán nhãn từ loại còn được áp dụng trên nhiều lĩnh vực
khác. Trong các ứng dụng trích chọn thông tin, việc gán nhãn từ loại giúp
cho quá trình tìm kiếm thông tin tốt hơn. Ngoài ra chúng ta còn có thể áp
dụng gán nhãn từ loại vào các bài toán phân loại trong khai khoáng dữ liệu,
bài toán tìm từ đồng nghĩa, từ gần nghĩa sẽ hiệu quả hơn.
Trong mức độ của một luận văn, do thời gian có hạn nên chúng tôi chỉ
tập trung vào việc gán nhãn từ loại cho các câu tiếng Anh. Sau đó, dựa trên
mối liên kết từ giữa tiếng Anh và tiếng Việt để ánh xạ từ loại của từ tiếng
Anh sang cho từ tiếng Việt. Từ đó, chúng ta có thể xây dụng một ngữ liệu về
từ loại cho tiếng Việt.
1.3 Các vấn đề gặp phải và hướng giải quyết trong bài
toán gán nhãn từ loại
1.3.1 Các vấn đề gặp phải khi giải quyết bài toán
Khi thực hiện bài toán gán nhãn từ loại, ta gặp phải một số khó khăn.
Khó khăn này chủ yếu là do các từ thường có nhiều hơn một từ loại.
Ta hãy xét câu sau:
I can can a can.
Trong câu này, ta thấy để xác định chính xác nhãn của từ “can” là một
việc khá khó khăn. Từ “can” ở đây có ba từ loại là trợ động từ (MD), động từ
(VB), danh từ (NN) tương ứng với các vị trí trong câu. Do đó, câu được gán
nhãn từ loại đúng như sau:
I/PRP can/MD can/VB a/DT can/DT.
6
Chương 1: Tổng quan
Vấn đề đặt ra của gán nhãn từ loại ở đây là giải quyết nhập nhằng đối
với các từ có nhiều từ loại, làm thế nào xác định chính xác nhãn của từ đó
trong câu.
1.3.2 Hướng giải quyết
Hiện nay, trên thế giới đã có rất nhiều hướng tiếp cận cho vấn đề này
như Unigram, N-gram, mô hình Markov ẩn, Maximum-Entropy, TBL… Mỗi
giải thuật đều có những ưu khuyết điểm riêng. Đồng thời, kết quả của các
giải thuật này tương đối cao. Do đó, nếu chúng ta làm lại tất cả từ đầu thì sẽ
tốn rất nhiều thời gian và công sức. Ngoài ra, do được phát triển từ lâu nên
các hướng tiếp cận của này đã khai thác toàn bộ các thông tin có trong tiếng
Anh để hỗ trợ cho việc gán nhãn từ loại. Nếu làm lại, chúng ta sẽ khó đạt kết
quả cao hơn các mô hình trước đã làm được. Do đó, trong luận văn này,
hướng giải quyết của chúng tôi là kế thừa các kết quả đã đạt được. Đồng
thời, chúng ta sẽ tận dụng ưu điểm của các giải thuật đó để tạo ra một mô
hình mới, một mô hình kết hợp các giải thuật khác nhau với nhau. Mô hình
kết hợp này sẽ khai thác triệt để các ưu điểm của mỗi giải thuật có trong mô
hình. Bên cạnh đó, chúng tôi còn sử dụng thêm các thông tin của tiếng Việt
để cải tiến chất lượng của bộ gán nhãn từ loại. Đó là các thông tin về từ và từ
loại của từ tiếng Việt tương ứng với từ tiếng Anh đang xét. Các thông tin này
được rút ra từ từ điển và thông qua mối liên kết từ giữa tiếng Anh và tiếng
Việt.
Sau một thời gian nghiên cứu về các hướng kết hợp đã có. Chúng tôi
quyết định sử dụng mô hình được kết hợp bởi hai giải thuật Maximum
Entropy (một mô hình tiếp cận theo hướng xác suất thống kê) của Adwait
Ratnaparkhi và TBL nhanh2 (một mô hình tiếp cận theo hướng biểu trưng)
của hai nhà khoa học Radu Florian and Grace Ngai. Bên cạnh đó, chúng tôi
có kết hợp sử dụng các thông tin của tiếng Việt như từ loại, ngữ nghĩa để làm
2 Các giải thuật này sẽ được trình bày cụ thể ở chương 2
7
Chương 1: Tổng quan
tăng kết quả chương trình. Sau khi chúng ta có được kết quả gán nhãn từ loại
chính xác trên tiếng Anh chúng tôi sẽ thông qua mối liện kết từ giữa tiếng
Anh và tiếng Việt để chọn nhãn từ loại cho từ tiếng Việt để tạo nên một ngữ
liệu chính xác về từ loại của tiếng Việt.
1.4 Bố cục
Luận văn được chia làm 5 phần.
Chương 1: Tổng quan. Trình bày khái quát về dịch máy và khái quát
công việc cần làm. Các vấn đề gặp phải trong bài toán gán nhãn từ loại và
giới hạn vấn đề.
Chương 2: Cơ sở lý thuyết. Trình bày cơ sở lý thuyết của chương
trình. Chương này sẽ giới thiệu một số hướng tiếp cận cho bài toán này.
Đồng thời sẽ phân tích ưu khuyết điểm của chúng.
Chương 3: Mô hình. Đây chính là trọng tâm của luận văn. Chương
này sẽ trình bày về mô hình được sử dụng trong chương trình, bao gồm thuật
giải, các khung luật và các cải tiến của mô hình.
Chương 4: Cài đặt thực tiễn. Trình bày các kết quả thực tiễn đạt được
của chương trình. Đồng thời, đánh giá, phân tích các kết quả đạt được.
Chương 5: Kết luận. Chương này sẽ tóm tắt lại những gì đã làm được
trong và những hạn chế của chương trình. Bên cạnh đó sẽ đưa ra hướng phát
triển cho chương trình.
8
Chương 2
Cơ sở lý thuyết
Chương 2:Cơ sở lý thuyết
Trong chương này, chúng tôi sẽ trình bày các cơ sở lý thuyết và các
hướng tiếp cận trước đây của mô hình gán nhãn từ loại.
2.1 Máy học và xử lý ngôn ngữ tự nhiên
Trong những năm gần đây, xử lý ngôn ngữ tự nhiên đã có một sự
chuyển biến đột ngột từ việc xây dựng cơ sở tri thức về ngôn ngữ một cách
thủ công sang tự động hóa từng phần hoặc toàn phần bằng cách sử dụng các
phương pháp học, thống kê trên các tập ngữ liệu lớn. Sự chuyển biến này bắt
nguồn từ các nguyên nhân sau:
¾ Sự xuất hiện ngày càng nhiều các tập ngữ liệu học lớn cho máy
tính từ nhiều nguồn và trên nhiều ngôn ngữ khác nhau, ví dụ
như Penn Tree Bank, Susanne, Brown, …
¾ Sự phát triển mạnh phần cứng máy tính, cho phép xử lý với
một số lượng lớn thông tin và với các thuật toán có chi phí
(thời gian, bộ nhớ) cao.
¾ Sự thành công bước đầu của các mô hình thống kê trong việc
giải quyết một số vấn đề ngôn ngữ như nhận dạng tiếng nói,
gán nhãn từ loại, phân tích cú pháp, dịch tự động song ngữ
Anh-Việt, liên kết từ...
¾ Sự xuất hiện và phát triển của một số lượng lớn các giải thuật
trong xử lý ngôn ngữ tự nhiên, cùng với sự khó khăn trong việc
xây dựng cơ sở tri thức cho các phương pháp trước đây, đã làm
cho các phương pháp trước đây không còn phù hợp với yêu cầu
hiện nay nữa.
Các thống kê trong thời gian gần đây cho thấy xu hướng phát triển
trong lĩnh vực xử lý ngôn ngữ tự nhiên: vào năm 1990 chỉ có 12,8% các công
trình công bố ở hội nghị hằng năm của tổ chức ngôn ngữ học máy tính
(Proceedings of Annnual Meeting of the Association for Computational
Linguistics) và 15,4% công trình đăng trên tạp chí Ngôn ngữ học máy tính
10
Chương 2:Cơ sở lý thuyết
(Computational Linguistics) liên quan dến hướng nghiên cứu sử dụng tập dữ
liệu, các con số này vào năm 1997 lần lượt là 63,5% và 47,7%.
Về sau, các phương pháp thống kê áp dụng cho việc xử lý ngôn ngữ
tự nhiên ngày càng phát triển. Các phương pháp này đặc biệt phù hợp cho
việc rút trích tri thức từ vựng và khử nhập nhằng, bên cạnh đó là các nghiên
cứu ứng dụng cho việc suy diễn ngữ pháp, phân tích thô, xử lý ngữ nghĩa,
chuyển đổi cú pháp...
Các phương pháp máy học được áp dụng trong lĩnh vực xử lý ngôn
ngữ tự nhiên được phân loại như sau:
¾ Hướng tiếp cận theo thống kê (stochastic approach).
¾ Hướng tiếp cận theo biểu trưng (symbolic approach): học theo ví dụ
(instance – based learning), cây quyết định (decision tree), logic quy
nạp (inductive logic), phân tách tuyến tính theo ngưỡng (threshold
linear separator)... Trong các phương pháp này, đáng chú ý nhất ; là
phương pháp học dựa trên các luật chuyển đổi (TBL – Transformation
Based Learning). Phương pháp này cho phép đưa ra tập các khung
luật tổng quát có thể giải quyết các vấn đề nhập nhằng tương tự nhau
(như trong bài toán gán nhãn từ loại).
¾ Hướng tiếp cận theo biểu trưng thay thế (sybsymbolic approach):
mạng nơ-ron (neural network), thuật toán di tuyền (genetic
algorithm), ...
¾ Các hướng khác: học không giám sát (unsupervised approach) và
hướng các tiếp cận kết hợp.
2.1.1 Hướng tiếp cận thống kê
Hướng tiếp cận thống kê được xem là một hướng tiếp cận mô tả quá
trình thế giới thực tạo ra dữ liệu quan sát được. Các mô hình trong hướng
tiếp cận thống kê thường được thể hiện dưới dạng một mạng thống kê các
mối quan hệ phụ thuộc giữa các biến ngẫu nhiên. Mỗi nút của mạng có một
11
Chương 2:Cơ sở lý thuyết
phân phối, và từ những phân phối này chúng ta cố gắng tìm ra các phân phối
chung của dữ liệu quan sát. Các hướng tiếp cận khác nhau của phương pháp
này xuất phát từ cách tạo ra mạng thống kê và cách kết hợp các phân phối
của mỗi nút.
Có khá nhiều mô hình trong hướng tiếp cận này được áp dụng trong
lĩnh vực xử lý ngôn ngữ tự nhiên. Ví dụ như mô hình phân loại Bayes ngây
thơ (Naïve Bayes classifier), nguyên lý hỗn loạn cực đại (Maximum Entropy
Principle), mô hình Markov ẩn (Hidden Markov model). Các mô hình này
được áp dụng để giải quyết nhiều bài toán trong xử lý ngôn ngữ tự nhiên
như : sửa lỗi chính tả theo ngữ cảnh, gán nhãn từ loại, nhận dạng mệnh đề,
nhận dạng tiếng nói …
Hiện nay trong bài toán gán nhãn từ loại thì hướng tiếp cận thống kê
được xem là một trong những hương tiếp cận có kết quả cao. Trong luận văn
chúng tôi có sử dụng một trong các hướng tiếp cận này là Maximum Entropy
2.1.2 Hướng tiếp cận theo biểu trưng
Tiếp cận theo biểu trưng gồm một số hướng sau đây
2.1.2.1 Cây quyết định:
Các phương pháp dựa trên cây quyết định được áp dụng vào việc học
giám sát các mẫu là một trong những cách tiếp cận thông dụng của trí tuệ
nhân tạo để giải quyết các bài toàn về phân lớp. Phương pháp cây quyết định
học dựa trên việc xấp xỉ hàm đích có giá trị rời rạc mà trong đó hàm học
được biểu diễn bằng cây quyết định. Phương pháp này học trên một tập thực
thể đã được phân lớp từ trước và kết quả nhận được là một tập các câu hỏi
dùng để phân loại các thực thể mới. Nó sẽ cố gắng lựa chọn các câu hỏi sao
cho sự phân loại các thực thể thành các tập con mà trong đó các tập con
thuần nhất nhất. Quá trình phân chia các thực thể lại tiếp tục trên các tập con
chưa thuần nhất cho đến khi tất cả các tập con đều thuần nhất. Các cây quyết
định được dùng để lưu trữ các luật được rút ra trong quá trình học dưới dạng
12
Chương 2:Cơ sở lý thuyết
các cấu trúc phân cấp tuần tự, qua đó phân hoạch dữ liệu một cách đệ quy.
Cây quyết định đã được áp dụng từ lâu trong các ứng dụng trong các lĩnh vực
như : thống kê, nhận dạng dạng mẫu, lý thuyết quyết định và xử lý tín hiệu
số. Trong các ứng dụng này, cây quyết định được dùng để thao tác trên dữ
liệu với mục đích mô tả phân loại và tổng quát hoá.
Trong lĩnh vực xử lý ngôn ngữ tự nhiên, ứng dụng của cây quyết định
cũng rất đáng chú ý trong việc xử lý nhập nhằng trong các bài toán gán nhãn
từ loại, phân tích cú pháp, phân loại tài liệu …
2.1.2.2 Danh sách quyết định
Danh sách quyết định bao gồm một danh sách các luật kết hợp có thứ
tự, các luật kết hợp này sẽ được áp dụng vào dữ liệu bằng cách kiểm tra xem
trong danh sách các luật, luật phù hợp đầu tiên sẽ được chọn. phương pháp
này phù hợp cho các lĩnh vực cần tránh sự phân mảnh dữ liệu.
Trong xử lý ngôn ngư tự nhiên, phương pháp này được áp dụng để
giải quyết các nhập nhằng về mặt từ vựng
2.1.2.3 Phương pháp học hướng lỗi dựa trên các luật biến đổi trạng thái
(TBL)
Phương pháp TBL được giới thiệu bởi Eric Brill, thuộc đại học
Pennsylvania, vào năm 1993. Hiện nay phương pháp này là một trong những
phương pháp được áp dụng rộng rãi trong các lĩnh vực của xử lý ngôn ngữ tự
nhiên. Trong quá trình huấn luyện, phương pháp này sẽ tiến hành tạo ra các
luật ứng viên dựa trên các mẫu luật cho trước, các luật úng viên này sẽ được
tính điểm dựa trên số trường hợp luật chỉnh ngữ liệu từ sai thành đúng và từ
đúng thành sai. Các luật có điểm cao sẽ được giữ lại cho việc gán nhãn. Đây
là một trong những phương pháp rất trực quan và linh động. Chúng ta có thể
can thiệp vào quá trình học của thuật toán bằng cách quản lý mẫu luật.
13
Chương 2:Cơ sở lý thuyết
2.1.3 Hướng tiếp cận thay thế biểu trưng
2.1.3.1 Mạng Neural
Mạng Neural là một trong những phương pháp phổ biến trong lĩnh
vực máy học. Mạng Neural học dựa trên số bằng cách xác định một hàm sao
cho càng khớp với đường cong đi qua các điểm không gian gian của các mẫu
huấn luyện càng tốt. Các yếu tố ngữ cảnh ảnh hưởng đến quyết định nào đó
được biểu diễn bằng các giá trị đã được lượng hoá, nhân với trọng số và gán
cho các nút của tầng nhập. Chính việc lượng hoá các các yếu tố ngữ cảnh đã
làm cho phương pháp này không còn trực quan về mặt ngôn ngữ học. Ngoài
ra, không phải yếu tố ngôn ngữ nào cũng có thể lượng hoá dễ dàng, điều này
làm cho phương pháp mạng Nueral không thể áp dụng trong hầu hết các bài
toán trong xử lý ngôn ngữ tự nhiên. Ngoài ra, phương pháp mạng Neural có
độ rộng ngữ cảnh chính là số nút của tầng nhập nên phương pháp này không
có tính linh động trong trường hợp ngữ cảnh thay đổi. Trong xử lý ngôn ngữ
tự nhiên mạng Neural được áp dụng trong các bài toán nhận dạng ký tự (
OCR ), gán nhãn từ loại, nhận dạng và tổng hợp tiếng nói. Các mô hình xử lý
cơ bản sử dụng các mạng Neural feed-forward đa tầng được huấn luyện
bằng giải thuật lan truyền ngược, bên cạnh đó cũng xuất hiện kiểu mạng hồi
quy và kết hợp các mạng Neural đơn lẻ.
2.1.3.2 Thuật toán di truyền ( Genetic Algorithm : GA)
Giải thuật di truyền đã được dùng để rút ra loại từ và cấu trúc cú pháp
từ nguồn thông tin duy nhất là tập dữ liệu không được chú thích và không sử
dụng thêm tri thức nào. Hướng tiếp cận này cũng được kết hợp với phương
pháp học không giám sát cho bài toán phân vùng.
Bài toán gán nhãn từ loại là một trong những bài toán xuất hiện tương
đối sớm trong lĩnh vực xử lý ngôn ngữ tự nhiên,và nó cũng là một bài toán
14
Chương 2:Cơ sở lý thuyết
làm tiền đề cho các bài toán khác ( chẳng hạn như bài toán phân tích cú pháp,
chuyển đổi cây cú pháp, xử lý ngữ nghĩa … ). Kết quả của nó sẽ ảnh hưởng
tới các giai đoạn sau. Chẳng hạn như trong bài toán phân tích cú pháp : nếu
như kết quả việc gán nhãn từ loại sai thì sẽ dẫn tới việc chọn cây cú pháp và
cấu trúc cây sai. Một cấu trúc câu có thể bị thay đổi nếu như từ loại của một
từ nào đó trong câu bị thay đổi. Trong bài toán xử lý ngữ nghĩa, một trong
những yếu tố quan trọng nhất đó là từ loại. Một từ có từ loại sai thì dẫn đến
việc chọn nghĩa cho từ sẽ sai. Ví dụ trong câu “I can can a can” cả 3 từ “can”
trong câu đều có ý nghĩa khác nhau. Từ “can” đầu tiên là trợ động từ nó có
nghĩa là “có thể”, từ “can” thứ 2 là động từ chính của câu nó có ý nghĩa là
“đóng” ( hay “đóng hộp” ) còn từ “can” cuối cùng là một danh từ có nghĩa là
“cái hộp”. Nếu như một trong 3 từ “can” này bị gán sai nhãn từ loại thì việc
chọn nghĩa cho câu trên chắc chắn sai.
Vì bài toán gán nhãn từ loại là một trong những bài toán quan trọng
làm tiền đề cho các bài toán khác trong xử lý ngôn ngữ tự nhiên nên bài toán
này đã được rất nhiều người quan tâm. Cho đến hiện nay đã có nhiều giải
thuật cho kết quả có độ chính xác khá cao, chúng tôi xin giới thiệu một số
phương pháp cho kết quả khá cao trong vấn đề này.
2.2 Một số giải thuật áp dụng cho bài toán gán nhãn từ
loại
2.2.1 Giải thuật học chuyển đổi dựa trên luật cải biến (TBL)
Giải thuật TBL (Transformation-Based Learning)là một giải thuật học
giám sát được Eric Brill đưa ra trong luật văn tiến sĩ của ông năm 1993. Giải
thuật TBL được áp dụng rộng rãi trong xử lý ngôn ngữ tự nhiên và được
đánh giá là một trong những giải thuật cho kết quả khả quan nhất đối với các
bài toán xử lý ngôn ngữ tự nhiên như : các bài toán tách từ, tách câu, gán
nhãn từ loại, phân tích cú pháp khử nhập nhằng ngữ nghĩa…
15
Chương 2:Cơ sở lý thuyết
Trong các bài toán trên, kết quả nhận đuợc khi sử dụng giải thuật TBL
là khá cao, có thể so sánh với nhiều giải thuật tiên tiến khác. Sở dĩ giải thuật
TBL có được những kết quả cao như vậy là do nó có được những ưu điểm
mà nhiều giải thuật khác không có, đó là tính trực quan, dễ hiểu, dễ kiểm
soát. Chúng ta có thể quan sát, theo dõi và can thiệp vào quá trình học cũng
như quá trình thực thi của giải thuật. Một đặc điểm nỗi bật khác của giải
thuật TBL là tính kế thừa, giải thuật khã năng phát triển lên từ kết quả trung
gian, kết quả đầu ra của một giải thuật khác.
16
Chương 2:Cơ sở lý thuyết
2.2.1.1 Sơ đồ của giải thuật TBL
Ngữ liệu thô
(Ngữ liệu chưa
được gán nhãn_
Gán nhãn cơ sở
(baseline)
Ngữ liệu đã được
Ngữ liệu chính
xác(Golden Corpus)
gán nhãn
Tập luật
Bộ học
Hình 2-1: Sơ đồ hoạt động của giải thuật TBL.
2.2.1.2 Mô tả hoạt động của giải thuật
Quá trình huấn luyện
Quá trình học của giải thuật được bắt đầu với một ngữ liệu thô
(ngữ liệu chưa được gán nhãn). Sau đó, ngữ liệu này được tiến hành gán
nhãn cơ sở, hay còn gọi là gán nhãn ban đầu(initial state). Việc gán nhãn
cơ sở chỉ là gán cho ngữ liệu một giá trị ban đầu. Việc gán nhãn có sở có
thể không chính xác, chẳng hạn gán nhãn từ loại cho các từ trong câu là
danh từ, hoặc cũng có rất chính xác, chúng ta có thể chọn kết quả của một
17
Chương 2:Cơ sở lý thuyết
giải thuật nào đó làm nhãn cơ sở. Nhãn này có thể chính xác hoặc không
chính xác. Sau khi dữ liệu đã nhận trạng thái khởi tạo, dữ liệu này được
so sánh với các trạng thái đúng của chúng (ngữ liệu vàng). Qua việc so
sánh này, các lỗi của dữ liệu hiện hành được xác định. Thông qua các lỗi
này chúng xác định được các luật chuyển đổi nhằm biến đổi ngữ liệu từ
trạng thái ngây thơ (trong quá quá trình khởi tạo) hay trạng thái hiện hành
(đã có áp dụng qua luật chuyển đổi) thành dạng giống hơn so với các
trạng thái đúng. Một tập hợp các khung luật lúc này được sử dụng để tạo
ra các luật ứng viên. Các khung luật được xác định trước như quy tắc xác
định trạng thái "ngây thơ" ở giai đoạn khởi tạo. Mỗi khung luật chứa các
biến điều kiện chưa xác định giá trị. Ví dụ mẫu luật sau:
"Nếu nhãn đứng trước X là Z thì đổi nhãn X thành Y". X, Y, và Z là
các biến. Với mỗi bộ giá trị của X, Y, Z ta được một luật phát sinh từ
mẫu luật này. Trong khung luật trên X và Y là các biến, nó có thể nhận
bất kì một giá trị nào trong bộ nhãn mà chúng ta đề ra.
Thuật toán sinh ra các luật ứng viên bằng cách thay các giá trị có thể
vào cho các biến trong khung luật. Luật ứng viên sau khi được tạo ra nó
sẽ được áp dụng vào trong ngữ liệu đang được gán nhãn hiện hành để tạo
ra ngữ liệu được gán nhãn khi áp dụng luật ứng viên này. Ngữ liệu được
gán nhãn theo luật ứng viên vừa tạo ra sẽ được so sánh đối chiếu với ngữ
liệu đúng ( hay ngữ liệu vàng ). Khi so sánh với ngữ liệu chính xác chúng
ta sẽ biết được luật ứng viên vừa tạo ra chỉnh ngữ liệu từ đúng thành sai
bao nhiêu trường hợp và từ sai thành đúng bao nhiêu trường hợp. Từ đó
ta tính ra được điểm cho luật ứng viên này. Điểm của luật ứng viên này
chính là hiệu số giữa số trường hợp luật chỉnh ngữ liệu từ sai thành đúng
và số trường hợp luật chỉnh ngữ liệu từ đúng thành sai. Sau khi tất cả các
luật ứng viên được tạo ra chúng ta sẽ biết được luật ứng viên nào có điểm
cao nhất, luật ứng viên có điểm cao nhất sẽ được giữ lại cho các lần gán
nhãn sau nếu như luật này thoả mãn điều kiện nó có điểm lớn hơn một
18
Chương 2:Cơ sở lý thuyết
mức ngưỡng mà chúng ta cho trước. Luật này sẽ được áp dụng để chuyển
ngữ liệu ở trạng thái thứ k sang trạng thái mới trạng thái thứ k+1. Ngữ
liệu ở trạng thái mới này lại lần lượt thử trên các luật ứng viên để chọn ra
luật tối ưu mới. Quá trình này sẽ được lặp đi lặp lại cho đến khi không
còn có luật tối ưu nào có điểm lớn hơn mức ngưỡng.
Ngữ liệu
Ngữ liệu
T1-2
T1-1
Số lỗi: 220
Số lỗi:250
Ngữ liệu
T2-1
Số lỗi: 435
Ngữ liệu
T1-2
Số lỗi: 60
Ngữ liệu ban
đầu
Số lỗi: 500
Ngữ liệu
T3-1
Ngữ liệu
T1-2
Số lỗi: 350
Số lỗi: 150
Hình 2-2: Sơ đồ quá trình huấn luyện của giải thuật TBL.
Kết thúc giai đoạn huấn luyện chúng ta sẽ thu được một danh sách các
luật tối ưu. Các luật tối ưu này sẽ được sử dụng vào quá trình thực thi của
giải thuật theo thư tự các luật có điểm cao được áp dụng trước các luật thấp
được áp dụng sau.
Quá trình thực thi
Cũng tương tự như quá trình huấn luyện, dữ liệu muốn gán nhãn phải
được gán nhãn cơ sở. Quá trình gán nhãn cơ sở này giống như quá trình gán
nhãn cơ sở của quá trình học. Nhãn cơ sở này có thể là nhãn ngây thơ cũng
có thể là nhãn chính xác hay đầu ra của một mô hình gán nhãn khác.
Chúng ta lần lượt áp dụng các luật tối ưu mà chúng ta nhận được
trong quá trình học vào ngữ liệu. các luật có số điểm cao trong quá trình
huấn luyện sẽ được áp dụng trước các luật có điểm thấp được áp dụng sau.
19
Chương 2:Cơ sở lý thuyết
Sau quá trình áp dụng tất cả các luật chúng ta sẽ nhận được một kết quả với
nhãn chính xác cho từng từ.
2.2.1.3 Trình bày giải thuật
Trong bài toán gán nhãn từ loại chúng ta có một số quy ước sau:
T : tập hợp các nhãn từ loại ví dụ T= {PRP,VB,NN,… }
µ : vị từ được định nghĩa trên không gian C+, C+ thường là một dãy các
trạng thái, ví dụ (word_-1,PRP) ∧ (word_1,NN) hay dãy các mẫu như :
(word_-1=a) v (word_-1=the). Các vị từ là các thể hiện của khung luật
Một luật l được định nghĩa như một cặp (µ , t) gồm một vị từ µ và
một nhãn từ loại t. Luật l sẽ được biểu diễn dưới dạng là µ => t nghĩa là luật
l sẽ được áp dụng trên mẫu x nếu vị từ vị từ µ thoả mãn, khi đó mẫu x sẽ
được gán nhãn mới t.
Cho một trạng thái c=(x,t) và luật l=(µ,t’), thì trạng thái kết quả của
việc áp dụng luật l trên trạng thái c được định nghĩa :
Nếu µ(c) = Sai
Nếu µ(c) = Đúng
c
l (c ) =
( x, t ' )
D : tập các mẫu huấn luyện đã được gán nhãn đúng.
Điểm được tính cho mỗi luật l chính là hiệu số khác biệt giữa kết quả
thực hiện của luật l so với tình trạng ban đầu theo công thức :
Diem(l) =
diem(l(c)) − diem(c)
∑
∑
c∈D
c∈D
trong đó :
Nếu t = True (x)
Nếu t ≠ True(x)
1
0
diem (( x , t )) =
20
Tải về để xem bản đầy đủ
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh - Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
luan_van_nghien_cuu_va_cai_dat_bo_gan_nhan_tu_loai_cho_song.pdf