Luận văn Xử lý ngữ nghĩa trong hệ dịch tự động Anh – Việt cho các tài liệu tin học
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
VĂN CHÍ NAM
XỬ LÝ NGỮ NGHĨA
TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT
CHO CÁC TÀI LIỆU TIN HỌC
LUẬN VĂN CỬ NHÂN TIN HỌC
TP. Hồ Chí Minh – Năm 2003
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
VĂN CHÍ NAM - 9912618
XỬ LÝ NGỮ NGHĨA
TRONG HỆ DỊCH TỰ ĐỘNG ANH – VIỆT
CHO CÁC TÀI LIỆU TIN HỌC
LUẬN VĂN CỬ NHÂN TIN HỌC
GIÁO VIÊN HƯỚNG DẪN
TS. ĐINH ĐIỀN
NIÊN KHOÁ 1999 - 2003
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
Tp. Hồ Chí Minh, ngày tháng 07 năm 2003
TS. Đinh Điền
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
...............................................................................................................................
Tp. Hồ Chí Minh, ngày tháng 07 năm 2003
Lời Cảm Ơn
Sau một thời gian thực hiện luận văn tốt nghiệp, đến nay, mọi
công việc liên quan đến luận văn đã hoàn tất. Trong suốt thời gian này,
tôi đã nhận được rất nhiều sự giúp đỡ. Ở phần đầu tiên của luận văn,
cho phép tôi có đôi điều gửi đến những người tôi vô cùng biết ơn.
Xin gởi lời cảm ơn chân thành nhất đến Thầy Đinh Điền, người
đã tận tình hướng dẫn, động viên, và giúp đỡ em trong suốt thời gian
qua. Nếu không có những lời chỉ dẫn, những tài liệu, ngữ liệu, những
lời động viên khích lệ của Thầy thì luận văn này khó lòng hoàn thiện
được.
Cũng xin gửi lời biết ơn đến cả nhà, đến pá, đến má, đến mẹ, đến
dượng ba, đến chế Hiền, đến chế Nghí, những người đã luôn dành
những tình thương yêu nhất cho Nàm, những người đã luôn hỗ trợ, dõi
theo những bước đi của Nàm trong tất cả các năm học vừa qua.
Xin tri ân tất cả các Thầy Cô, những người dày công dạy dỗ,
truyền cho em rất nhiều tri thức quí báu.
Cảm ơn các bạn, các anh trong nhóm VCL vì những đóng góp của
các bạn, các anh cho luận văn này. Đặc biệt xin gởi lời cảm ơn đến với
anh Ngô Quốc Hưng, anh Phạm Phú Hội, bạn Nguyễn Thái Ngọc Duy
cho những công cụ phục vụ luận văn và những góp ý cho chương trình.
Cảm ơn tất cả bạn bè tôi, những người đã sát cánh cùng vui
những niềm vui, cùng chia sẻ những khó khăn của tôi.
Còn rất nhiều điều không thể diễn tả hết bằng lời, xin luôn
ghi nhớ mãi trong tim.
Văn Chí Nam
Lời Nói Đầu
Những năm gần đây, với sự phát triển nhanh chóng trong lĩnh vực công nghệ
thông tin, việc sử dụng các tài liệu để có thể nắm bắt được các tri thức mới vô cùng
phổ biến. Song một khó khăn lớn đối với nhiều người Việt chúng ta hiện nay là việc
hiểu ngôn ngữ được thể hiện trong các tài liệu (mà chủ yếu là tiếng Anh). Do đó,
tạo lập một hệ thống chỉ dịch các tài liệu tin học từ tiếng Anh sang tiếng Việt có ý
nghĩa to lớn. Chắc chắn nó sẽ giúp nhiều người Việt có điều kiện tiếp cận tốt các
nội dung, kiến thức mới của tin học trên thế giới.
Nhưng vấn đề khó khăn nhất gặp phải trong việc thiết lập một hệ dịch tự
động là tính nhập nhằng vốn có của ngôn ngữ tự nhiên, trong đó nhập nhằng lớn
nhất là nhập nhằng ngữ nghĩa. Việc chọn ra một nghĩa thích hợp cho từ là một công
việc không dễ dàng nhưng cực kỳ lý thú. Giải quyết tốt vấn đề ngữ nghĩa sẽ nâng
cao chất lượng cho hệ dịch tự động Anh – Việt.
Đề tài này hướng đến việc giải quyết tốt những nhập nhằng nghĩa của từ
trong các tài liệu tin học nhờ vào việc huấn luyện trên ngữ liệu song ngữ để rút ra
các luật chuyển đổi. Thông qua việc kết hợp các khối khác của dịch tự động, tạo ra
các câu dịch tiếng Việt có thể hiểu được. Sự thay đổi lĩnh vực xem xét không ảnh
hưởng nhiều đến cấu trúc của mô hình. Chúng tôi thực hiện việc giới hạn lĩnh vực
ngoài ý nghĩa nêu phía trên còn có lý do thử nghiệm mô hình xử lý ngữ nghĩa mới,
xem xét tính tương hỗ từ các thông tin trong ngữ liệu song ngữ và đảm bảo chất
lượng câu dịch.
Luận văn được tổ chức thành 5 chương và các phụ lục.
¾ Chương 1 giới thiệu tổng quan về dịch máy nói chung và xử lý ngữ
nghĩa nói riêng.
¾ Chương 2 giới thiệu các cơ sở lý thuyết cần sử dụng, trong đó có đề
cập đến thuật toán huấn luyện.
¾ Chương 3 đưa ra mô hình cài đặt cho khối xử lý ngữ nghĩa
¾ Chương 4 cụ thể hoá mô hình cài đặt
¾ Chương 5 tổng kết luận văn và đề ra hướng phát triển.
Mục Lục
Lời Nói Đầu ..................................................................................................... i
Mục Lục .......................................................................................................... ii
Danh Sách Hình ............................................................................................ vii
Danh Sách Bảng Biểu .................................................................................. viii
Chương 1 TỔNG QUAN ...............................................................................1
1.1. SƠ LƯỢC VỀ DỊCH MÁY ...........................................................................2
1.1.1. Lịch sử của Dịch Máy....................................................................2
1.1.2. Khái niệm về Dịch Máy.................................................................6
1.1.3. Các bước xử lý trong một hệ Dịch Máy ........................................7
1.2. XỬ LÝ NGỮ NGHĨA TRONG DỊCH MÁY ..............................................10
1.2.1. Vai trò và chức năng của xử lý ngữ nghĩa ...................................10
1.2.2. Các mức độ nhập nhằng trong tầng xử lý ngữ nghĩa...................12
1.2.2.1. Nhập nhằng ở mức từ vựng...................................................12
1.2.2.2. Mức độ nhập nhằng cấu trúc.................................................12
1.2.2.3. Mức độ nhập nhằng liên câu.................................................13
1.2.2.4. Mức độ nhập nhằng theo thể loại văn bản............................14
1.2.3. Các khó khăn trong xử lý ngữ nghĩa............................................15
1.2.3.1. Nhập nhằng nghĩa .................................................................15
1.2.3.2. Phụ thuộc vào ngữ cảnh........................................................15
1.2.3.3. Phụ thuộc vào tri thức...........................................................15
1.2.3.4. Sự khác biệt giữa tiếng Anh và Việt.....................................16
1.2.3.5. Yếu tố khác ...........................................................................16
1.3. CÁC CÁCH TIẾP CẬN TRONG XỬ LÝ NGỮ NGHĨA VÀ CÁC CÔNG
TRÌNH TRƯỚC ĐÂY ....................................................................................................17
1.3.1. Xử lý ngữ nghĩa trong thời gian đầu............................................17
ii
1.3.2. Dựa trên trí tuệ nhân tạo ..............................................................18
1.3.3. Dựa trên cơ sở tri thức .................................................................20
1.3.3.1. Từ điển máy ..........................................................................20
1.3.3.2. Từ điển đồng nghĩa ...............................................................22
1.3.3.3. Từ điển điện toán ..................................................................23
1.3.4. Dựa trên ngữ liệu .........................................................................24
Chương 2 CƠ SỞ LÝ THUYẾT.................................................................27
2.1. CƠ SỞ LÝ THUYẾT VỀ NGÔN NGỮ HỌC.............................................28
2.1.1. Nghĩa của từ.................................................................................28
2.1.1.1. Cơ cấu nghĩa của từ...............................................................29
2.1.1.2. Phân tích nghĩa của từ...........................................................29
2.1.1.3. Nghĩa của từ trong hoạt động ngôn ngữ ...............................30
2.1.2. Quan hệ đồng nghĩa và trái nghĩa trong từ vựng .........................30
2.1.2.1. Từ đồng nghĩa .......................................................................30
2.1.2.2. Từ trái nghĩa..........................................................................31
2.1.3. Biến đổi trong từ vựng.................................................................31
2.1.3.1. Những biến đổi bề mặt..........................................................31
2.1.3.2. Những biến đổi trong chiều sâu của từ vựng........................32
2.2. HỌC DỰA TRÊN CHUYỂN ĐỔI...............................................................32
2.2.1. Học dựa trên chuyển đổi là gì ? ...................................................32
2.2.2. Giải thuật học dựa trên chuyển đổi tổng quát..............................33
2.2.3. Mô tả về trình tự tạo luật chuyển đổi...........................................35
2.2.4. Yêu cầu trong việc áp dụng thuật toán học dựa trên chuyển đổi
vào xử lý ngữ nghĩa...........................................................................................37
2.2.5. Nhận xét .......................................................................................38
2.3. MỘT SỐ GIẢI THUẬT HỌC DỰA TRÊN CHUYỂN ĐỔI CẢI TIẾN.....39
2.3.1. Lazy TBL.....................................................................................39
iii
2.3.2. TBL đa chiều................................................................................40
2.3.3. TBL nhanh ...................................................................................40
2.4. THUẬT TOÁN FAST-TBL.........................................................................41
2.4.1. Quy ước........................................................................................41
2.4.2. Phát sinh luật................................................................................42
2.4.2.1. Trường hợp 1 ........................................................................43
2.4.2.2. Trường hợp 2 ........................................................................44
2.5. VĂN PHẠM PHỤ THUỘC.........................................................................46
2.5.1. Giới thiệu .....................................................................................46
2.5.2. Vận dụng văn phạm phụ thuộc vào xử lý ngữ nghĩa ...................49
2.5.3. Các loại quan hệ trong bộ phân tích cú pháp dựa trên văn phạm
phụ thuộc...........................................................................................................50
Chương 3 MÔ HÌNH CÀI ĐẶT .................................................................53
3.1. CÁC NGUỒN TRI THỨC ĐỂ XỬ LÝ NGỮ NGHĨA ...............................54
3.1.1. Tri thức về từ loại và hình thái.....................................................54
3.1.2. Tri thức về ngôn từ.......................................................................56
3.1.3. Tri thức về quan hệ cú pháp và ràng buộc ngữ nghĩa..................57
3.1.4. Tri thức về chủ đề ........................................................................58
3.1.5. Tri thức về tần suất nghĩa của từ..................................................59
3.2. CÁC BƯỚC THỰC HIỆN...........................................................................59
3.3. MÔ HÌNH HUẤN LUYỆN CHO BỘ GÁN NHÃN NGỮ NGHĨA............61
3.4. HỆ THỐNG NHÃN NGỮ NGHĨA .............................................................62
3.4.1. Yêu cầu đối với hệ thống nhãn ngữ nghĩa ...................................62
3.4.2. Cơ sở của việc phân lớp ngữ nghĩa..............................................63
3.4.3. Nhận xét các hệ thống nhãn ngữ nghĩa có liên quan ...................64
3.5. CHUẨN BỊ NGỮ LIỆU HUẤN LUYỆN....................................................66
3.5.1. Giới thiệu kho ngữ liệu song ngữ Anh-Việt VCLEVC ...............66
iv
3.5.2. Rút trích thống kê từ ngữ liệu song ngữ ......................................68
3.5.2.1. Thống kê các nghĩa tiếng Việt ..............................................68
3.5.2.2. Thống kê tần số xuất hiện một nghĩa của từ tiếng Anh ........69
3.5.2.3. Ý nghĩa..................................................................................70
3.5.3. Xây dựng ngữ liệu huấn luyện.....................................................70
3.5.3.1. Gán nhãn ngữ nghĩa bán tự động cho ngữ liệu.....................71
3.5.3.2. Xây dựng “ngữ liệu vàng” ....................................................72
Chương 4 CÀI ĐẶT THỬ NGHIỆM.........................................................75
4.1. GÁN NHÃN CƠ SỞ ....................................................................................76
4.1.1. Mô hình gán nhãn cơ sở...............................................................76
4.1.2. Xử lý ngôn từ, thành ngữ.............................................................78
4.1.3. Xử lý ràng buộc lựa chọn.............................................................79
4.1.3.1. Cơ sở tri thức.........................................................................79
4.1.3.2. Thuật toán .............................................................................79
4.1.4. Xử lý dựa trên lĩnh vực xem xét ..................................................81
4.1.5. Xử lý dựa trên tần số xuất hiện....................................................82
4.2. MẪU LUẬT.................................................................................................82
4.2.1. Các từ trong ngữ cảnh..................................................................83
4.2.2. Từ gốc trong ngữ cảnh.................................................................83
4.2.3. Từ loại trong ngữ cảnh.................................................................83
4.2.4. Nhãn ngữ nghĩa trong ngữ cảnh...................................................83
4.2.5. Từ có quan hệ ngữ pháp trong ngữ cảnh .....................................84
4.2.6. Các nhãn trong ngữ cảnh có quan hệ ngữ pháp...........................84
4.3. GẮN NGHĨA TIẾNG VIỆT ........................................................................84
4.3.1. Các từ không cần gắn nghĩa tiếng Việt........................................85
4.3.2. Gắn thêm lượng từ Những ...........................................................86
4.3.2.1. Mô tả .....................................................................................86
v
4.3.2.2. Ngữ liệu và mẫu luật.............................................................87
4.3.3. Quan hệ giữa động từ “to be” và các trường hợp khác................88
4.3.4. Các trường hợp đi kèm với giới từ...............................................90
4.3.5. Các trường hợp liên quan đến thành ngữ.....................................91
4.4. KẾT QUẢ THỰC HIỆN..............................................................................92
4.4.1. Dãy luật tối ưu..............................................................................92
4.4.2. Dãy luật rút ra để giải quyết việc thêm từ trong tiếng Việt .........93
4.4.3. Thử nghiệm..................................................................................93
Chương 5 KẾT LUẬN – HƯỚNG PHÁT TRIỂN....................................98
5.1. HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN......................................................99
5.2. KẾT LUẬN ................................................................................................100
Danh Mục Tài Liệu Tham Khảo..................................................................101
Phụ Lục 1. Danh Sách Nhãn Ngữ Nghĩa Cơ Bản........................................103
Phụ Lục 2. Danh Sách Các Nhãn Từ Loại...................................................106
Phụ Lục 3. Trích Một Số Luật .....................................................................108
Phụ Lục 4. Các Kết Quả Dịch Đạt Được.....................................................111
Phụ Lục 5. Một Số Kết Quả Dịch Thử Nghiệm ..........................................123
Phụ Lục 6. Một Số Ví Dụ So Sánh ..............................................................138
vi
Danh Sách Hình
Hình 1-1 : Các chiến lược trong dịch máy (do nhóm GETA đề xuất)........................3
Hình 1-2 : Một hệ dịch trực tiếp..................................................................................4
Hình 1-3 : Mô hình dịch dựa trên chuyển đổi cú pháp và hình ảnh của chuyển đổi cú
pháp trên cây cú pháp tiếng Anh sang tiếng Việt ...............................................4
Hình 1-4 : Một hệ dịch liên ngôn ngữ cho n ngôn ngữ khác nhau .............................5
Hình 1-5 Các bước xử lý trong hệ dịch máy dựa trên chuyển đổi cú pháp ................9
Hình 1-6 : Cây phân cấp mã ngữ nghĩa trong LDOCE.............................................22
Hình 2-1 : Lưu đồ giải thuật học dựa trên chuyển đổi..............................................33
Hình 2-2: Minh hoạ của Samuel về trình tự tạo luật chuyển đổi..............................35
Hình 2-3 : Minh hoạ một cây cú pháp thông thường................................................47
Hình 2-4 : Kết quả khi phân tích câu sử dụng văn phạm phụ thuộc.........................48
Hình 2-5 : Hình ảnh một cây quan hệ phụ thuộc ......................................................48
Hình 2-6 : Các quan hệ phụ thuộc trong câu She is punished by her parents. .........51
Hình 2-7 : Các quan hệ phụ thuộc trong câu I installed that old driver into my
computer............................................................................................................52
Hình 3-1: Mô hình huấn luyện cho bộ gán nhãn ngữ nghĩa .....................................61
Hình 3-2 : Minh hoạ các cặp được liên kết trong ngữ liệu song ngữ .......................66
Hình 3-3 : Thể hiện các mối liên kết của một cặp câu..............................................67
Hình 3-4 : Công cụ WordAlignEditor.......................................................................67
Hình 3-5 : Công cụ SenseTaggerEditor ....................................................................71
Hình 4-1 : Mô hình cho phương pháp gán nhãn cơ sở..............................................78
vii
Danh Sách Bảng Biểu
Bảng 2-1 : Một số quan hệ khi phân tích bằng văn phạm phụ thuộc.......................51
Bảng 3-1 : Trích thống kê các nghĩa tiếng Việt dựa vào ngữ liệu song ngữ ...........68
Bảng 3-2 : Trích thống kê tần số xuất hiện của nghĩa tiếng Việt của một từ tiếng
Anh dựa vào ngữ liệu song ngữ. .......................................................................69
Bảng 4-1 : Trích mẫu luật để thêm từ những...........................................................88
Bảng 4-2 : Tóm tắt một số trường hợp giải quyết cho động từ be...........................90
Bảng 4-3 : Một số tri thức được áp dụng để giải quyết giới từ................................91
Bảng 4-4 : Kết quả một số luật chuyển đổi trong xử lý ngữ nghĩa..........................93
Bảng 4-5 : Kết quả một số luật chuyển đổi dùng để thêm từ tiếng Việt..................93
Bảng 4-6 : Kết quả thử nghiệm................................................................................93
viii
Chương 1
TỔNG QUAN
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
Chương này nhằm giới thiệu tổng quan về dịch máy nói
chung, và xử lý ngữ nghĩa nói riêng. Chúng tôi đề cập các cách tiếp
cận và các công trình trước đây trong xử lý ngữ nghĩa. Trong
chương này, chúng tôi còn đề cập đến các mức độ nhập nhằng
cũng như các khó khăn trong xử lý ngữ nghĩa.
1.1. SƠ LƯỢC VỀ DỊCH MÁY
1.1.1. Lịch sử của Dịch Máy
Sau đại chiến thế giới thứ hai, nhờ sự phát triển của máy tính điện tử và do
nhu cầu cần nắm bắt những tin tức kịp thời và chính xác trước sự bùng nổ thông tin
khoa học - kỹ thuật ngày càng lớn, người ta thấy cần phải trao cho máy tính điện tử
nhiệm vụ dịch các văn bản từ ngôn ngữ này sang ngôn ngữ khác, đặc biệt là dịch
các tài liệu khoa học - kỹ thuật.
Việc dịch ngôn ngữ tự nhiên hay còn gọi là Dịch Máy (Machine Translation)
được bắt đầu nghiên cứu từ đầu thập niên 1950. Đây là vấn đề khó khăn nhất trong
việc ứng dụng của trí tuệ nhân tạo vào thực tế và cũng là đề tài thời sự gây tranh
cãi, và bàn tán sôi nổi từ trước đến nay, lúc hy vọng, lúc thất vọng, lúc phát triển,
lúc lu mờ và cũng bị khen và chê nhiều nhất.
Khởi đầu, Dịch Máy cố gắng nhấn mạnh sự quan trọng của việc dịch từng từ
dựa trên sự tra tự điển song ngữ và dựa trên thông tin thống kê, tần số từ và những
mẫu tuần tự. Trong thời kỳ thập niên 1960, việc Dịch Máy gặp phải nhiều khó khăn
và bị chỉ trích. Có trường phái kết luận rằng việc Dịch Máy là không thể thực hiện
được và không đáng để bỏ công sức để thực hiện, dẫn đến việc Dịch Máy đã lắng
xuống. Những người chống đối lý luận rằng: "... việc dịch ngôn ngữ không những
chỉ cần những kiến thức về ngôn ngữ mà còn phải những kiến thức ngoài ngôn ngữ
(extra-linguistic)…". Trong thời kỳ này (1975) các chính phủ đã không còn trợ cấp
cho các chương trình nghiên cứu về Dịch Máy nữa và các chương trình này cũng
chấm dứt.
2
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
Nhưng may mắn thay, từ cuối thập niên 1980 và nhất là gần đây có một sự
trỗi dậy mạnh mẽ việc quan tâm tới việc Dịch Máy và đã đạt được nhiều kết quả
đáng khích lệ. Sự hồi sinh này là do kết quả nghiên cứu mới về lý thuyết về ngôn
ngữ học, về ngữ pháp học, từ vựng học... và ngoài ra là có sự ra đời những thế hệ
máy tính mới có khả năng mạnh hơn nhiều. Tuy nhiên việc Dịch Máy đến nay cũng
còn nhiều hạn chế và chỉ dùng chủ yếu phiên dịch các tài liệu kỹ thuật hơn là tác
phẩm văn học.
Có nhiều hướng tiếp cận, các chiến lược dịch khác theo cấp độ từ đơn giản
đến phức tạp, bao gồm : dịch trực tiếp, dịch theo chuyển đổi cú pháp, chuyển đổi cú
pháp + phân giải ngữ nghĩa, dịch qua ngôn ngữ trung gian, dịch dựa trên luật, dịch
dựa trên thống kê, dịch dựa trên cơ sở tri thức, dịch dựa trên ngữ liệu… Dưới đây
chúng tôi sẽ mô tả một số cách tiếp cận, và chiến lược đó (Xem thêm trong [7]).
Liên ngôn ngữ
Chuyển đổi cú pháp +
Phân giải ngữ nghĩa nông
Chuyển đổi cú pháp
Trực tiếp
Ngôn ngữ nguồn
Ngôn ngữ đích
Hình 1-1 : Các chiến lược trong dịch máy (do nhóm GETA đề xuất)
Dịch trực tiếp :
Dịch ngôn ngữ bằng cách thay thế những từ trong ngôn ngữ nguồn với
những từ trong ngôn ngữ đích một cách máy móc. Những hệ dịch trực tiếp phù hợp
3
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
cho những ứng dụng nơi mà văn bản dịch có khối lượng từ nhỏ và số lượng câu giới
hạn. Các hệ dịch trực tiếp hoạt động tương đối tốt khi dịch giữa các ngôn ngữ có
cùng loại hình.
Phân tích
hình thái
Tra từ điển
song ngữ
Ngôn ngữ
nguồn
Ngôn ngữ
đích
Sắp xếp trật tự từ
đơn giản
Hình 1-2 : Một hệ dịch trực tiếp
Dịch theo chuyển đổi cú pháp :
Chuyển đổi
cú pháp S-T
Ngôn ngữ nguồn S
Ngôn ngữ đích T
S
S
NP
n
VP
NP
VP
v
NP
n
v
NP
pos
n
n
pos
Đây
là quyển sách
của tôi
This
is
my
book
Hình 1-3 : Mô hình dịch dựa trên chuyển đổi cú pháp và hình ảnh của
chuyển đổi cú pháp trên cây cú pháp tiếng Anh sang tiếng Việt
4
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
Phân tích cú pháp câu được nhập vào và sau đó áp dụng những luật ngôn ngữ
và từ vựng (hay còn được gọi là những luật chuyển đổi) để ánh xạ thông tin văn
phạm từ ngôn ngữ này sang ngôn ngữ khác. Theo đó, không thể giải quyết các
trường hợp nhập nhằng ngữ nghĩa của câu có cùng cấu trúc nhưng khác nghĩa nhau.
Dịch chuyển đổi cú pháp + cộng phân giải ngữ nghĩa :
Dung hoà giữa mức độ phân tích cú pháp và phân giải ngữ nghĩa. Hệ chủ yếu
dựa vào phân tích cú pháp, và chỉ phân giải ngữ nghĩa ở mức cần thiết để khử nhập
nhằng nghĩa thôi.
Dịch qua ngôn ngữ trung gian :
Xây dựng một ngôn ngữ trung gian biểu diễn độc lập với mọi ngôn ngữ tự
nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế nhất của mọi
ngôn ngữ có trong hệ dịch đó. Khi dịch một ngôn ngữ nguồn A sang ngôn ngữ đích
B thì thực hiện việc chuyển từ ngôn ngữ nguồn A sang ngôn ngữ trung gian, sau đó
chuyển từ ngôn ngữ trung gian dịch sang ngôn ngữ đích B. Ưu điểm của hệ liên
ngôn ngữ là số lượng bộ dịch được dùng bởi hệ dịch liên ngôn ngữ không nhiều.
Song, khó khăn lớn nhất là không dễ xây dựng một ngôn ngữ trung gian !
Văn bản ở ngôn
ngữ thứ nhất
Văn bản ở ngôn
ngữ thứ nhất
Phân tích
Phân tích
Tổng hợp
Văn bản ở ngôn
ngữ thứ hai
Văn bản ở ngôn
ngữ thứ hai
Tổng hợp
LIÊN NGÔN
NGỮ
Phân tích
Tổng hợp
Văn bản ở ngôn
ngữ thứ n
Văn bản ở ngôn
ngữ thứ n
Hình 1-4 : Một hệ dịch liên ngôn ngữ cho n ngôn ngữ khác nhau
5
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
Dịch dựa trên luật :
Đây là cách tiếp cận truyền thống xuất phát từ cách làm của các hệ luật dẫn
trong hệ chuyên gia trong lĩnh vực trí tuệ nhân tạo. Các luật dẫn được các nhà ngôn
ngữ học xây dựng bằng tay. Ưu điểm là dựa được vào lý thuyết ngôn ngữ học. Còn
khuyết điểm của các hệ dịch loại này là : tốn công sức xây dựng hệ luật ; các luật
không bao quát ; có hiện tượng luật thừa và luật mâu thuẫn…
Dịch dựa trên thống kê :
Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch này
tự động xây dựng các từ điển, các quy luật dựa trên thống kê. Cách tiếp cận này
không đòi hỏi sự phân tích sâu về ngôn ngữ, chúng thực hiện hoàn toàn tự động các
quá trình phân tích, chuyển đổi, tạo câu dựa trên kết quả thống kê có được từ kho
ngữ liệu.
Dịch dựa trên cơ sở tri thức :
Dựa trên lập luận “muốn dịch được trước hết phải hiểu được”, máy tính phải
được trang bị tri thức ngôn ngữ và tri thức về thế giới thực y như con người. Đây là
một công việc cực kỳ khó khăn. Vì vậy, chất lượng các hệ dịch dựa trên cách tiếp
cận này còn rất hạn chế.
Dịch dựa trên ngữ liệu :
Đặc điểm của các hệ dịch theo cách tiếp cận này là thay vì xây dựng bộ luật
bằng tay, hay dựa trên thống kê thì xây dựng các bộ luật dựa trên các công nghệ
máy học để có được các bộ luật chuyển đổi nhờ vào kho ngữ liệu. Các bộ luật này
hoàn toàn tuân thủ các lý thuyết ngôn ngữ và dễ đọc hơn các luật rút ra từ thống kê.
Các bộ luật này còn có ưu điểm đầy đủ hơn, dễ kiểm soát hơn so với các luật do các
nhà ngôn ngữ học đưa ra.
1.1.2. Khái niệm về Dịch Máy
Khi dùng máy tính điện tử để dịch một văn bản ở ngôn ngữ A, gọi là ngôn
ngữ nguồn, sang ngôn ngữ B, gọi là ngôn ngữ đích, người ta cần chuyển văn bản đó
vào máy, rồi từ máy, nhờ các qui tắc dịch đã cung cấp sẵn cho nó, chuyển ra văn
6
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
bản ở ngôn ngữ B. Muốn thế, cần phân tích văn bản A về các mặt từ vựng, cú pháp,
ngữ nghĩa rồi chuyển những kết quả đó vào máy. Qua một bộ từ điển máy, ở đó cho
sẵn sự tương ứng về từ vựng - ngữ nghĩa, về kết cấu cú pháp giữa 2 ngôn ngữ A và
B, chính máy có thể tổng hợp những kết quả đã đưa vào và chuyển ra ngôn ngữ B.
Quá trình dịch máy các văn bản văn học nghệ thuật gặp rất nhiều khó khăn
chưa khắc phục được. Cho đến nay chỉ có thể dịch các văn bản khoa học kỹ thuật,
loại văn bản có phong cách đơn giản. Nhưng chính hướng nghiên cứu dịch tự động
này để thúc đẩy lý thuyết ngôn ngữ học phát triển rất mạnh. Người ta phải chính xác
hóa, hình thức hóa các khái niệm ngôn ngữ, phải phát hiện được những sự kiện bản
chất trong quan hệ giữa nội dung và hình thức ngôn ngữ, nghiên cứu các điểm giống
nhau giữa các ngôn ngữ ([5]).
1.1.3. Các bước xử lý trong một hệ Dịch Máy
Dưới đây mô tả các bước xử lý trong một hệ Dịch Máy được cài đặt bằng
phương pháp chuyển đổi cú pháp (Syntactic Transfer System) với ngôn ngữ nguồn
là tiếng Anh và ngôn ngữ đích là tiếng Việt.
Tiền xử lý (pre-processing) :
Văn bản tiếng Anh sau khi được đưa vào hệ Dịch máy được tiền xử lý.
Nhiệm vụ của khối này là xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các
đơn vị rõ ràng để giảm bớt những bước nhập nhằng không đáng có. Bước tiền xử lý
bao gồm : tách bỏ những dấu hiệu, những ký tự lạ (những ký tự đồ hoạ chẳng hạn) ;
tách đoạn ; tách câu (nhận dạng được đâu là dấu ngắt câu đúng) ; các danh hiệu, các
từ viết tắt…
Phân tích hình thái tiếng Anh (morphological analysis) :
Kể từ giai đoạn này, đơn vị xử lý của hệ Dịch Máy là câu. Các câu này lấy
được nhờ vào phần Tiền xử lý. Mục đích của bước này là xác định đúng từ loại
(Part-Of-Speech) của từ tiếng Anh và từ gốc của nó ; nhận dạng những tên riêng
(tên địa danh, tên người, địa chỉ email, địa chỉ website).
7
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
Phân tích cú pháp tiếng Anh (syntactic analysis) :
Nhờ vào từ loại của các từ có được từ bước xử lý trước, bước này sẽ xác định
được các ngữ trong câu tiếng Anh (ngữ động từ, ngữ danh từ, ngữ giới từ…), chủ
ngữ, vị ngữ, tạo cây cú pháp cho câu tiếng Anh. Những thông tin này sẽ được
chuyển sang cho bộ phận xử lý ngữ nghĩa và bộ phận chuyển đổi sang cây cú pháp
tiếng Việt.
Xử lý ngữ nghĩa dựa trên tiếng Anh (semantic processing) :
Mục đích của giai đoạn này là từ những thông tin có được của các bước
trước (từ loại, cây cú pháp) kết hợp với các thông tin về ngữ cảnh để chọn ra được
một nghĩa thích hợp nhất cho từ trong câu tiếng Anh.
Chuyển đổi cây cú pháp tiếng Anh sang tiếng Việt (syntactic tree
transfer) :
Bộ phận này nhận cây cú pháp tiếng Anh (từ bộ phận phân tích cú pháp), sau
đó chuyển đổi cây cú pháp đó sang cây cú pháp tiếng Việt. Bộ phận này sử dụng
các thông tin có được từ bộ phận xử lý ngữ nghĩa để đạt được hiệu quả chuyển đổi
cao nhất.
Tạo câu tiếng Việt nhờ cây cú pháp tiếng Anh đã được chuyển
đổi:
Với cây cú pháp tiếng Anh đã được chuyển sang cây cú pháp tiếng Việt, lúc
này hệ thống đạt được trật từ của các từ theo câu tiếng Việt. Gắn kết với kết quả của
bước xử lý ngữ nghĩa để tạo thành một câu tiếng Việt cho câu tiếng Anh. Bước này
còn phải thực hiện một công việc khác là hoàn chỉnh câu tiếng Việt, điều đó có
nghĩa là phải thêm những hư từ vào câu tiếng Việt sao cho giúp người đọc càng dễ
hiểu càng tốt.
8
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
VĂN BẢN NHẬP
Tiền Xử Lý
Phân Tích Hình Thái
Phân Tích Cú Pháp
Phân Tích Ngữ Nghĩa
Chuyển Đổi Cây Cú Pháp
Tạo Lập Câu
VĂN BẢN XUẤT
Hình 1-5 Các bước xử lý trong hệ dịch máy dựa trên chuyển đổi cú pháp
9
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
1.2. XỬ LÝ NGỮ NGHĨA TRONG DỊCH MÁY
1.2.1. Vai trò và chức năng của xử lý ngữ nghĩa
Có thể xem việc xác định đúng nghĩa của từ (xử lý ngữ nghĩa) là một vấn đề
trung tâm của mọi hệ xử lý ngôn ngữ tự nhiên. Hiệu quả làm việc của bộ phận xác
định nghĩa của từ có một ảnh hưởng rất lớn đến chất lượng thực hiện của một hệ xử
lý ngôn ngữ tự nhiên. Trong một hệ dịch máy, vấn đề xử lý ngữ nghĩa đóng vai trò
cốt lõi và hết sức quan trọng. Nó quyết định tính đúng đắn và hiệu quả của một hệ
dịch. Một hệ dịch không xử lý tốt ở bộ phận này sẽ dẫn đến kết quả dịch sai nghĩa
hoàn toàn thậm chí có thể dẫn đến một câu kết quả hết sức ngớ ngẩn, không thể
hiểu nổi.
Dưới đây là một số ví dụ về trường hợp nhập nhằng gây lỗi cho
một hệ dịch máy :
Ví dụ 1-1 : I can can a can.
Một câu nhìn vào tưởng chừng rất đơn giản nhưng không dễ giải quyết vì từ
can có đến 3 nghĩa : (1) có thể (động từ hình thái) ; (2) đóng hộp (động từ) ; (3) cái
hộp (danh từ). Trong câu ví dụ trên, cả 3 nghĩa của từ can đều xuất hiện. Chỉ cần
chọn sai một nghĩa của từ can trong câu trên sẽ dẫn đến không hiểu được ý của câu
trên, câu tiếng Việt sẽ trở nên ngờ nghệch. Một kết quả thường gặp của câu dịch
trên là : Tôi có thể có thể một có thể, trong khi câu trên đáng lẽ phải được dịch là :
Tôi có thể đóng hộp một cái hộp.
Người ta nhận thấy rằng muốn giải quyết nhập nhằng tốt cho câu trên cần
phải có được một bộ gán nhãn từ loại thật tốt. Lý do là mặc dù có đến 3 nghĩa khác
nhau nhưng các nghĩa của từ can đã có thể phân biệt được thông qua từ loại của
chúng1.
1
Nhờ bộ phân tích hình thái tốt, ta có kết quả như sau : I/PRP can/MD can/VB
a/DT can/NN.
10
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
Ví dụ 1-2 : I enter the new bank(1) near the bank(2) of SaiGon river.
Nhìn vào trong câu ví dụ trên, người ta dễ dàng nhận được câu dịch chính
xác của nó : Tôi đi vào ngân hàng mới gần bờ của sông Sài Gòn. Nhưng đối với
một hệ dịch máy, đây là một câu chứa nhập nhằng. Nhập nhằng được phát hiện ở 2
từ trong câu trên. Thứ nhất là từ enter và thứ hai là từ bank.
Áp dụng cách giải quyết của ví dụ trên, tức là có bộ phân tích hình thái thật
tốt, ta được : I/PRP enter/VBP the/DT new/JJ bank/NN of /IN SaiGon/NNP
river/NN. Tuy nhiên, vẫn không thể nào giải quyết được nhập nhằng được cho 2 từ
nêu trên.
Từ enter có 2 nghĩa động từ (VB): (1) đi vào; (2) nhập (như trong câu I
enter data into new computer). Và từ bank cũng có 2 nghĩa danh từ (NN) : (1) ngân
hàng ; (2) bờ sông.
Để giải quyết nhập nhằng cho trường hợp này phải sử dụng đến một thông
tin khác về các quan hệ trong câu. Ở đây, một quan hệ được tìm thấy giữa enter và
bank(1), và một quan hệ có được giữa bank(2) và river. Đầu tiên, vận dụng các ý
niệm của ngôn ngữ học tri nhận để biết rằng enter là hành động đi vào không gian
kín. Trong khi với nghĩa bờ sông từ bank chỉ một không gian hở, còn với nghĩa
ngân hàng mới chỉ một không gian kín. Thông qua mối quan hệ giữa từ enter và từ
bank mà chúng ta có thể xác định được nghĩa của cả hai từ. Kế đến, quan hệ giữa
bank(2) và river cho biết nghĩa của từ bank phải có thuộc tính tự nhiên, từ đó chọn
được nghĩa thích hợp của từ bank(2) là bờ sông.
Tóm lại, vấn đề giải quyết nhập nhằng ngữ nghĩa là hết sức then chốt và
quyết định trong mọi hệ dịch. Một bộ phận giải quyết nhập nhằng ngữ nghĩa hiệu
quả sẽ góp phần cải thiện khả năng dịch và độ chính xác của hệ dịch máy một cách
đáng kể.
11
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
1.2.2. Các mức độ nhập nhằng trong tầng xử lý ngữ nghĩa
1.2.2.1. Nhập nhằng ở mức từ vựng
Như câu ví dụ I enter the bank ở trên, sau khi phân tích cú pháp, máy tính đã
xác định được mối quan hệ giữa động từ enter (đi vào) và tân ngữ của nó là bank
nhưng để chọn nghĩa thích hợp cho từ bank (nghĩa ngân hàng hay bờ sông) thì phải
phân tích ngữ nghĩa của động từ enter và danh từ bank. Trong trường hợp này, vận
dụng các ý niệm của ngôn ngữ học tri nhận để biết rằng enter là hành động đi vào
không gian kín trong khi với nghĩa bờ sông từ bank chỉ một không gian hở, còn với
nghĩa ngân hàng mới chỉ một không gian kín. Thông qua mối quan hệ giữa từ enter
và từ bank mà chúng ta có thể xác định được nghĩa của cả hai từ.
Một vài ví dụ cụ thể cho trường hợp này :
Làm sao xác định được nghĩa (tiếng Việt) của từ old trong các cụm từ sau :
old man và old book. Các nghĩa của từ old đều chỉ một tính chất cũ kỹ, nhưng với
con người thì từ old có thể có nghĩa già hoặc cũ trong khi đối với vật chất thì từ old
chỉ có thể là cũ mà thôi. Nhờ đâu mà ta có thể dịch cụm old man là ông già, còn old
book là quyển sách cũ ? Chúng ta sẽ tìm thấy câu trả lời ở các phần sau.
Một ví dụ thêm nữa rơi vào động từ enter (đi vào, nhập) trong hai câu : I
enter the new bank; và I enter data into computer. Câu đầu tiên phải được dịch là
Tôi đi vào ngân hàng còn câu thứ hai phải được dịch là Tôi nhập dữ liệu vào máy
tính.
1.2.2.2. Mức độ nhập nhằng cấu trúc
Xét ngữ Old man and woman, ta có 2 phân tích : [Old man] and [woman] và
Old [man and woman]. Mỗi phân tích, khi áp dụng vào trong một hệ xử lý ngôn
ngữ tự nhiên, sẽ có một cách hiểu khác nhau. Ví dụ trong hệ dịch tự động, cụm từ
trên có thể được dịch là Ông già và người đàn bà đối với cách phân tích thứ nhất ;
và có thể được dịch thành Ông già và người đàn bà già đối với cách phân tích thứ
hai. Tuy nhiên, chọn cách dịch nào sẽ được quyết định trong bộ phận xác định nghĩa
của từ. Trong trường hợp này, bộ xác định sẽ thiên về (chọn) cách phân tích thứ hai
12
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
do tri thức nhận được về cấu trúc song song parallel structure trong ngôn ngữ thông
qua liên từ and.
Song không phải lúc nào bộ xác định nghĩa cũng chọn một cách (phân tích
thứ hai). Hãy xét thêm một ví dụ : Old man and child. Cụm từ này cũng được phân
tích theo hai cách : [Old man] and child, và Old [man and child]. Trước khi nói
cách xử lý nhập nhằng của bộ xác định nghĩa, chúng ta hãy dịch hai cách phân tích
này sang tiếng Việt để dễ hình dung. Đối với cách phân tích thứ nhất, ta có câu dịch
Ông già và đứa trẻ, trong khi đối với cách phân tích thứ hai ta lại có Ông già và đứa
trẻ già. Không cần phải nói thêm thì chúng ta cũng có thể biết được cần chọn cách
dịch nào ! Tại sao phân tích thứ nhất lại hợp lý hơn phân tích thứ hai ? Như chúng
ta đều biết, từ child bản thân đã mang tính trẻ. Nếu theo cách phân tích thứ hai thì
chúng ta đã tạo ra một mâu thuẫn giữa già và trẻ. Đó là lý do vì sao cách phân tích
thứ nhất đã được chọn.
1.2.2.3. Mức độ nhập nhằng liên câu
Có một cặp câu ví dụ khá điển hình cho mức độ nhập nhằng liên câu. Hãy
xét cặp câu ví dụ sau :
Ví dụ 1-3 :
The monkey ate the banana because it was hungry
và The monkey ate the banaba because it was ripe.
Cặp câu này có vẻ rất đơn giản vì chúng ta sẽ không thấy rõ được sự nhập
nhằng nếu chỉ đơn thuần dịch câu này (sang tiếng Việt). Với câu thứ nhất, câu dịch
là Con khỉ ăn chuối vì nó đói và câu thứ hai được dịch là Con khỉ ăn chuối vì nó
chín. Tới đây, chắc chắn chúng ta còn thắc mắc : nói nhập nhằng nhưng nhập nhằng
ở điểm nào. Quá dễ hiểu và dễ thực hiện trong việc xác định nghĩa (!?). Nhưng hãy
chú ý đến đại từ it. It trong câu thứ nhất chỉ về monkey; trong khi it trong câu thứ
hai lại chỉ về banana. Có thể nó sẽ không rõ ràng vì it nào cũng được dịch là nó.
Nhưng điều đó lại thực sự quan trọng trong hệ hiểu văn bản. Muốn hiểu được thì
phải biết it nào chỉ cái nào (it – monkey hay it – banana). Một trong các cách hiểu
13
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
được ghi nhận là xác định đại từ nhân xưng có thể đại diện cho những (cụm) từ nào.
Dựa vào các quan hệ đã có để giải quyết nhập nhằng. Ví dụ trong cặp câu trên, it có
thể đại diện cho monkey hoặc banana. Ở câu thứ nhất, với it = monkey, thì quan hệ
monkey – hungry mới hợp lý (vì động vật mới đói bụng !), còn it = banana thì quan
hệ banana – hungry là không hợp lý! Còn ở câu thứ hai, với it = monkey thì quan hệ
monkey – ripe là không hợp lý, chỉ có quan hệ banana – ripe mới hợp lý.
1.2.2.4. Mức độ nhập nhằng theo thể loại văn bản
Ở mức độ nhập nhằng này, một từ hay một ngữ có thể mang nhiều hơn một
nghĩa đúng. Cụ thể sẽ có nhiều kết quả đúng đồng thời, dẫn đến việc chọn lựa nghĩa
của chúng phải được kết hợp thêm thông tin về thể loại văn bản.
Ví dụ 1-4 : an old driver
Ta có nghĩa các từ an : một, old : già (đối với người), cũ (đối với đồ vật),
driver : người tài xế, trình điều khiển (máy tính). Với các nghĩa của từ ta có thể
nhận được các câu dịch sau:
- Một tài xế cũ (1)
- Một trình điều khiển già (2)
- Một tài xế già (3)
- Một trình điều khiển cũ (4)
Đối với nghĩa (1), (2) ta có thể thấy đây là hai nghĩa hoàn toàn sai. Nghĩa (3)
và (4) đưa ra là những nghĩa đúng. Đối với ngữ cảnh thông thường thì nghĩa (3) sẽ
được ưu tiên hơn. Tuy nhiên, nếu văn bản đang dịch ở thể loại tin học thì nghĩa (4)
sẽ ưu tiên được chọn. Như vậy, vấn đề khử nhập nhằng nghĩa cũng rất cần thông tin
về thể loại văn bản trong quá trình xử lý.
14
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
1.2.3. Các khó khăn trong xử lý ngữ nghĩa
Từ những phân tích ở các phần trên, có thể rút ra các điểm khó khăn chính
trong xử lý ngữ nghĩa như sau :
1.2.3.1. Nhập nhằng nghĩa
Đây là một vấn đề hết sức phức tạp trong xử lý ngữ nghĩa bởi tính đa nghĩa
của một từ. Một từ với một chức năng ngữ pháp có thể có nhiều nghĩa khác nhau.
Từ line có các nghĩa như sau:
¾ Hàng (line of people : hàng người)
¾ Dòng (line printing device : thiết bị in dòng)
¾ Đường kẻ (a thin line : một đường kẻ mỏng)
¾ Đường dây (telephone line : đường dây điện thoại)
¾ Tuyến xe (bus line : tuyến xe buýt)
Việc chọn lựa nghĩa phù hợp trong câu là một vấn đề khó khăn vì cần phải
hiểu được mối quan hệ của từ với ngữ cảnh xung quanh để nhận biết nghĩa chính
xác của từ.
1.2.3.2. Phụ thuộc vào ngữ cảnh
Một ý nghĩa của một từ có nghĩa khác nhau nếu nằm trong những ngữ cảnh
khác nhau. Ngữ cảnh ở đây có thể được xem như là nội dung của văn bản đang đề
cập, ý nghĩa của các câu trước hoặc sau có liên quan đến nó trong đoạn văn, hoặc
các từ có liên quan với nó trong câu. Chúng ta sẽ thấy yếu tố ngữ cảnh sẽ tác động
như thế nào đến ngữ nghĩa của cụm từ an old driver. Nếu ta viết An old driver
drives the car. thì nghĩa ở đây của an old driver là một người tài xế già và nếu ta
viết I installed that old driver into this computer. thì cụm đó lại mang nghĩa là
trình điều khiển cũ.
1.2.3.3. Phụ thuộc vào tri thức
Ngôn ngữ là phương tiện giao tiếp của con người. Con người sử dụng ngôn
ngữ để thể hiện những điều mình nhận thức được trong thế giới xung quanh. Những
15
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
nhận thức đó chính là tri thức. Do vậy, khi thể hiện những điều mình muốn bằng
ngôn ngữ, thì bản thân những điều đó phải phù hợp với tri thức đang có. Ví dụ
chúng ta không thể nói Chiếc xe ăn hết thức ăn hay Cái điện thoại đi ngủ. Xử lý
ngữ nghĩa cũng không thể tránh khỏi những vấn đề đó, cần phải biết phân biệt
những vấn đề không hợp lý trong ngôn ngữ. Tuy nhiên, để thể hiện được tất cả tri
thức không phải là một vấn đề dễ dàng và đang là bài toán hóc búa đối với các nhà
khoa học.
1.2.3.4. Sự khác biệt giữa tiếng Anh và Việt
Tiếng Anh và tiếng Việt là ngôn ngữ của hai dân tộc khác nhau, có nền văn
hóa khác nhau. Vì vậy, yếu tố khác nhau giữa tiếng Anh và tiếng Việt là một khó
khăn trong vấn đề xử lý ngữ nghĩa. Có những khái niệm trong tiếng Anh có thể sử
dụng cho tất cả sự vật với cùng một nghĩa nhưng trong tiếng Việt thì không phải
như vậy. Ví dụ cho phần này là cụm từ old book và old man đã được nêu ở trên.
1.2.3.5. Yếu tố khác
Như đã đề cập ở trên, khối xử lý ngữ nghĩa là bước tiếp theo của khối phân
tích cú pháp. Do đó kết quả của xử lý ngữ nghĩa chịu ảnh hưởng của khối phân tích
cú pháp. Cây cú pháp do khối phân tích có thể đưa ra sai, hoặc quá phức tạp, hoặc
thiếu những cấu trúc cú pháp mà khối xử lý ngữ nghĩa cần. Bên cạnh đó, ngoài kiến
thức Tin học, công việc xử lý ngữ nghĩa trong hệ dịch máy cần phải có những kiến
thức về ngôn ngữ học, tiếng Anh cũng như tiếng Việt. Những kiến thức này hỗ trợ
cho việc tìm mối quan hệ giữa cú pháp và ngữ nghĩa, mối quan hệ giữa các nghĩa,
sự phân loại...
16
Luận Văn Tốt Nghiệp : Xử Lý Ngữ Nghĩa Trong Hệ Dịch Anh-Việt Cho Các Tài Liệu Tin Học
TỔNG QUAN
1.3. CÁC CÁCH TIẾP CẬN TRONG XỬ LÝ NGỮ NGHĨA VÀ CÁC
CÔNG TRÌNH TRƯỚC ĐÂY
1.3.1. Xử lý ngữ nghĩa trong thời gian đầu
Trong một công trình có từ năm 1949, Weaver thảo luận sự cần thiết phải
xác định nghĩa đúng của từ trong dịch máy và định ra những bước cơ bản trong khử
nhập nhằng nghĩa (Xem thêm trong [13]). Ông cho rằng : Nếu một ai đó xem xét
từng từ một trong một quyển sách thì rõ ràng người đó không thể xác định được
nghĩa của tất cả các từ. Ông cũng cho rằng, nếu như mở rộng vùng xem xét xung
quanh từ đó thì không những xác định được nghĩa của từ đó mà còn có thể xác định
thêm được nghĩa của những từ xung quanh nữa. Nhưng vùng xung quanh đó có kích
thước cửa sổ xem xét là bao nhiêu ? Năm 1950, một thí nghiệm nổi tiếng do Kaplan
thực hiện nhằm tìm câu trả lời cho câu hỏi nêu trên. Kaplan dùng 7 từ để xem xét,
và vùng cửa sổ xung quanh xem xét được thay đổi từ một đến hai từ mỗi bên của từ
cần xem xét. Kaplan quan sát rằng độ phân giải nghĩa được đưa 2 từ trên mỗi bên
của từ xem xét không tốt hơn cũng như không tệ hơn khi đưa toàn bộ câu.
“Sự trùng khớp ngữ nghĩa” (semantic coincidence) (do Reifler đưa ra năm
1955) giữa một từ và ngữ cảnh của nó (xét trên độ phức tạp của ngữ cảnh và vai trò
của quan hệ cú pháp) nhanh chóng trở thành một yếu tố quyết định trong việc xác
định đúng nghĩa của từ. Reifler cho rằng : Cấu trúc ngữ pháp có thể giúp khử nhập
nhằng nghĩa cho từ. Ví dụ, với từ keep, có thể xác định nghĩa đúng cho nó dựa trên
việc xác định túc từ của nó : túc từ của nó là một danh động từ (gerund) (He kept
eating - Anh ấy tiếp tục ăn) hay ngữ tính từ và ngữ danh từ (He kept calm – Anh ấy
giữ bình tĩnh ; He kept a record – Anh ấy giữ một kỷ lục).
Trong giai đoạn này, dịch máy chủ yếu tập trung vào việc dịch các tài liệu kỹ
thuật. Do đó đã có những nghiên cứu về vai trò của lĩnh vực (domain) trong việc
khử nhập nhằng cho nghĩa mà sau đó vài thập kỷ (năm 1992) được Gale, Church và
Yarowsky lặp lại. Cũng liên quan đến việc sử dụng lĩnh vực của tài liệu cần dịch, có
những nghiên cứu nhằm tạo ra các từ điển chuyên dụng. Các từ điển này chỉ chứa
17
Tải về để xem bản đầy đủ
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Xử lý ngữ nghĩa trong hệ dịch tự động Anh – Việt cho các tài liệu tin học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
luan_van_xu_ly_ngu_nghia_trong_he_dich_tu_dong_anh_viet_cho.pdf