Luận văn Xử lý ngữ nghĩa trong hệ dịch tự động Anh – Việt cho các tài liệu tin học

TRƯỜNG ĐẠI HC KHOA HC TNHIÊN  
KHOA CÔNG NGHTHÔNG TIN  
BMÔN CÔNG NGHTRI THC  
VĂN CHÍ NAM  
XLÝ NGNGHĨA  
TRONG HDCH TỰ ĐỘNG ANH – VIT  
CHO CÁC TÀI LIU TIN HC  
LUN VĂN CNHÂN TIN HC  
TP. HChí Minh – Năm 2003  
TRƯỜNG ĐẠI HC KHOA HC TNHIÊN  
KHOA CÔNG NGHTHÔNG TIN  
BMÔN CÔNG NGHTRI THC  
VĂN CHÍ NAM - 9912618  
XLÝ NGNGHĨA  
TRONG HDCH TỰ ĐỘNG ANH – VIT  
CHO CÁC TÀI LIU TIN HC  
LUN VĂN CNHÂN TIN HC  
GIÁO VIÊN HƯỚNG DN  
TS. ĐINH ĐIN  
NIÊN KHOÁ 1999 - 2003  
NHN XÉT CA GIÁO VIÊN HƯỚNG DN  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
Tp. HChí Minh, ngày tháng 07 năm 2003  
TS. Đinh Đin  
NHN XÉT CA GIÁO VIÊN PHN BIN  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
...............................................................................................................................  
Tp. HChí Minh, ngày tháng 07 năm 2003  
Li Cm Ơn  
Sau mt thi gian thc hin lun văn tt nghip, đến nay, mi  
công vic liên quan đến lun văn đã hoàn tt. Trong sut thi gian này,  
tôi đã nhn được rt nhiu sgiúp đỡ. phn đầu tiên ca lun văn,  
cho phép tôi có đôi điu gi đến nhng người tôi vô cùng biết ơn.  
Xin gi li cm ơn chân thành nht đến Thy Đinh Đin, người  
đã tn tình hướng dn, động viên, và giúp đỡ em trong sut thi gian  
qua. Nếu không có nhng li chdn, nhng tài liu, ngliu, nhng  
li động viên khích lca Thy thì lun văn này khó lòng hoàn thin  
được.  
Cũng xin gi li biết ơn đến cnhà, đến pá, đến má, đến m, đến  
dượng ba, đến chế Hin, đến chế Nghí, nhng người đã luôn dành  
nhng tình thương yêu nht cho Nàm, nhng người đã luôn htr, dõi  
theo nhng bước đi ca Nàm trong tt ccác năm hc va qua.  
Xin tri ân tt ccác Thy Cô, nhng người dày công dy d,  
truyn cho em rt nhiu tri thc quí báu.  
Cm ơn các bn, các anh trong nhóm VCL vì nhng đóng góp ca  
các bn, các anh cho lun văn này. Đặc bit xin gi li cm ơn đến vi  
anh Ngô Quc Hưng, anh Phm Phú Hi, bn Nguyn Thái Ngc Duy  
cho nhng công cphc vlun văn và nhng góp ý cho chương trình.  
Cm ơn tt cbn bè tôi, nhng người đã sát cánh cùng vui  
nhng nim vui, cùng chia snhng khó khăn ca tôi.  
Còn rt nhiu điu không thdin thết bng li, xin luôn  
ghi nhmãi trong tim.  
Văn Chí Nam  
Li Nói Đầu  
Nhng năm gn đây, vi sphát trin nhanh chóng trong lĩnh vc công nghệ  
thông tin, vic sdng các tài liu để có thnm bt được các tri thc mi vô cùng  
phbiến. Song mt khó khăn ln đối vi nhiu người Vit chúng ta hin nay là vic  
hiu ngôn ngữ được thhin trong các tài liu (mà chyếu là tiếng Anh). Do đó,  
to lp mt hthng chdch các tài liu tin hc ttiếng Anh sang tiếng Vit có ý  
nghĩa to ln. Chc chn nó sgiúp nhiu người Vit có điu kin tiếp cn tt các  
ni dung, kiến thc mi ca tin hc trên thế gii.  
Nhưng vn đề khó khăn nht gp phi trong vic thiết lp mt hdch tự  
động là tính nhp nhng vn có ca ngôn ngtnhiên, trong đó nhp nhng ln  
nht là nhp nhng ngnghĩa. Vic chn ra mt nghĩa thích hp cho tlà mt công  
vic không ddàng nhưng cc klý thú. Gii quyết tt vn đề ngnghĩa snâng  
cao cht lượng cho hdch tự động Anh – Vit.  
Đề tài này hướng đến vic gii quyết tt nhng nhp nhng nghĩa ca từ  
trong các tài liu tin hc nhvào vic hun luyn trên ngliu song ngữ để rút ra  
các lut chuyn đổi. Thông qua vic kết hp các khi khác ca dch tự động, to ra  
các câu dch tiếng Vit có thhiu được. Sthay đổi lĩnh vc xem xét không nh  
hưởng nhiu đến cu trúc ca mô hình. Chúng tôi thc hin vic gii hn lĩnh vc  
ngoài ý nghĩa nêu phía trên còn có lý do thnghim mô hình xlý ngnghĩa mi,  
xem xét tính tương htcác thông tin trong ngliu song ngđảm bo cht  
lượng câu dch.  
Lun văn được tchc thành 5 chương và các phlc.  
¾ Chương 1 gii thiu tng quan vdch máy nói chung và xlý ngữ  
nghĩa nói riêng.  
¾ Chương 2 gii thiu các cơ slý thuyết cn sdng, trong đó có đề  
cp đến thut toán hun luyn.  
¾ Chương 3 đưa ra mô hình cài đặt cho khi xlý ngnghĩa  
¾ Chương 4 cthhoá mô hình cài đặt  
¾ Chương 5 tng kết lun văn và đề ra hướng phát trin.  
Mc Lc  
Li Nói Đầu ..................................................................................................... i  
Mc Lc .......................................................................................................... ii  
Danh Sách Hình ............................................................................................ vii  
Danh Sách Bng Biu .................................................................................. viii  
Chương 1 TNG QUAN ...............................................................................1  
1.1. SƠ LƯỢC VDCH MÁY ...........................................................................2  
1.1.1. Lch sca Dch Máy....................................................................2  
1.1.2. Khái nim vDch Máy.................................................................6  
1.1.3. Các bước xlý trong mt hDch Máy ........................................7  
1.2. XLÝ NGNGHĨA TRONG DCH MÁY ..............................................10  
1.2.1. Vai trò và chc năng ca xlý ngnghĩa ...................................10  
1.2.2. Các mc độ nhp nhng trong tng xlý ngnghĩa...................12  
1.2.2.1. Nhp nhng mc tvng...................................................12  
1.2.2.2. Mc độ nhp nhng cu trúc.................................................12  
1.2.2.3. Mc độ nhp nhng liên câu.................................................13  
1.2.2.4. Mc độ nhp nhng theo thloi văn bn............................14  
1.2.3. Các khó khăn trong xlý ngnghĩa............................................15  
1.2.3.1. Nhp nhng nghĩa .................................................................15  
1.2.3.2. Phthuc vào ngcnh........................................................15  
1.2.3.3. Phthuc vào tri thc...........................................................15  
1.2.3.4. Skhác bit gia tiếng Anh và Vit.....................................16  
1.2.3.5. Yếu tkhác ...........................................................................16  
1.3. CÁC CÁCH TIP CN TRONG XLÝ NGNGHĨA VÀ CÁC CÔNG  
TRÌNH TRƯỚC ĐÂY ....................................................................................................17  
1.3.1. Xlý ngnghĩa trong thi gian đầu............................................17  
ii  
1.3.2. Da trên trí tunhân to ..............................................................18  
1.3.3. Da trên cơ stri thc .................................................................20  
1.3.3.1. Từ đin máy ..........................................................................20  
1.3.3.2. Từ đin đồng nghĩa ...............................................................22  
1.3.3.3. Từ đin đin toán ..................................................................23  
1.3.4. Da trên ngliu .........................................................................24  
Chương 2 CƠ SLÝ THUYT.................................................................27  
2.1. CƠ SLÝ THUYT VNGÔN NGHC.............................................28  
2.1.1. Nghĩa ca t.................................................................................28  
2.1.1.1. Cơ cu nghĩa ca t...............................................................29  
2.1.1.2. Phân tích nghĩa ca t...........................................................29  
2.1.1.3. Nghĩa ca ttrong hot động ngôn ng...............................30  
2.1.2. Quan hệ đồng nghĩa và trái nghĩa trong tvng .........................30  
2.1.2.1. Từ đồng nghĩa .......................................................................30  
2.1.2.2. Ttrái nghĩa..........................................................................31  
2.1.3. Biến đổi trong tvng.................................................................31  
2.1.3.1. Nhng biến đổi bmt..........................................................31  
2.1.3.2. Nhng biến đổi trong chiu sâu ca tvng........................32  
2.2. HC DA TRÊN CHUYN ĐỔI...............................................................32  
2.2.1. Hc da trên chuyn đổi là gì ? ...................................................32  
2.2.2. Gii thut hc da trên chuyn đổi tng quát..............................33  
2.2.3. Mô tvtrình tto lut chuyn đổi...........................................35  
2.2.4. Yêu cu trong vic áp dng thut toán hc da trên chuyn đổi  
vào xlý ngnghĩa...........................................................................................37  
2.2.5. Nhn xét .......................................................................................38  
2.3. MT SGII THUT HC DA TRÊN CHUYN ĐỔI CI TIN.....39  
2.3.1. Lazy TBL.....................................................................................39  
iii  
2.3.2. TBL đa chiu................................................................................40  
2.3.3. TBL nhanh ...................................................................................40  
2.4. THUT TOÁN FAST-TBL.........................................................................41  
2.4.1. Quy ước........................................................................................41  
2.4.2. Phát sinh lut................................................................................42  
2.4.2.1. Trường hp 1 ........................................................................43  
2.4.2.2. Trường hp 2 ........................................................................44  
2.5. VĂN PHM PHTHUC.........................................................................46  
2.5.1. Gii thiu .....................................................................................46  
2.5.2. Vn dng văn phm phthuc vào xlý ngnghĩa ...................49  
2.5.3. Các loi quan htrong bphân tích cú pháp da trên văn phm  
phthuc...........................................................................................................50  
Chương 3 MÔ HÌNH CÀI ĐẶT .................................................................53  
3.1. CÁC NGUN TRI THC ĐỂ XLÝ NGNGHĨA ...............................54  
3.1.1. Tri thc vtloi và hình thái.....................................................54  
3.1.2. Tri thc vngôn t.......................................................................56  
3.1.3. Tri thc vquan hcú pháp và ràng buc ngnghĩa..................57  
3.1.4. Tri thc vchủ đề ........................................................................58  
3.1.5. Tri thc vtn sut nghĩa ca t..................................................59  
3.2. CÁC BƯỚC THC HIN...........................................................................59  
3.3. MÔ HÌNH HUN LUYN CHO BGÁN NHÃN NGNGHĨA............61  
3.4. HTHNG NHÃN NGNGHĨA .............................................................62  
3.4.1. Yêu cu đối vi hthng nhãn ngnghĩa ...................................62  
3.4.2. Cơ sca vic phân lp ngnghĩa..............................................63  
3.4.3. Nhn xét các hthng nhãn ngnghĩa có liên quan ...................64  
3.5. CHUN BNGLIU HUN LUYN....................................................66  
3.5.1. Gii thiu kho ngliu song ngAnh-Vit VCLEVC ...............66  
iv  
3.5.2. Rút trích thng kê tngliu song ng......................................68  
3.5.2.1. Thng kê các nghĩa tiếng Vit ..............................................68  
3.5.2.2. Thng kê tn sxut hin mt nghĩa ca ttiếng Anh ........69  
3.5.2.3. Ý nghĩa..................................................................................70  
3.5.3. Xây dng ngliu hun luyn.....................................................70  
3.5.3.1. Gán nhãn ngnghĩa bán tự động cho ngliu.....................71  
3.5.3.2. Xây dng “ngliu vàng” ....................................................72  
Chương 4 CÀI ĐẶT THNGHIM.........................................................75  
4.1. GÁN NHÃN CƠ S....................................................................................76  
4.1.1. Mô hình gán nhãn cơ s...............................................................76  
4.1.2. Xlý ngôn t, thành ng.............................................................78  
4.1.3. Xlý ràng buc la chn.............................................................79  
4.1.3.1. Cơ stri thc.........................................................................79  
4.1.3.2. Thut toán .............................................................................79  
4.1.4. Xlý da trên lĩnh vc xem xét ..................................................81  
4.1.5. Xlý da trên tn sxut hin....................................................82  
4.2. MU LUT.................................................................................................82  
4.2.1. Các ttrong ngcnh..................................................................83  
4.2.2. Tgc trong ngcnh.................................................................83  
4.2.3. Tloi trong ngcnh.................................................................83  
4.2.4. Nhãn ngnghĩa trong ngcnh...................................................83  
4.2.5. Tcó quan hngpháp trong ngcnh .....................................84  
4.2.6. Các nhãn trong ngcnh có quan hngpháp...........................84  
4.3. GN NGHĨA TING VIT ........................................................................84  
4.3.1. Các tkhông cn gn nghĩa tiếng Vit........................................85  
4.3.2. Gn thêm lượng tNhng ...........................................................86  
4.3.2.1. Mô t.....................................................................................86  
v
4.3.2.2. Ngliu và mu lut.............................................................87  
4.3.3. Quan hgia động t“to be” và các trường hp khác................88  
4.3.4. Các trường hp đi kèm vi gii t...............................................90  
4.3.5. Các trường hp liên quan đến thành ng.....................................91  
4.4. KT QUTHC HIN..............................................................................92  
4.4.1. Dãy lut ti ưu..............................................................................92  
4.4.2. Dãy lut rút ra để gii quyết vic thêm ttrong tiếng Vit .........93  
4.4.3. Thnghim..................................................................................93  
Chương 5 KT LUN – HƯỚNG PHÁT TRIN....................................98  
5.1. HN CHVÀ HƯỚNG PHÁT TRIN......................................................99  
5.2. KT LUN ................................................................................................100  
Danh Mc Tài Liu Tham Kho..................................................................101  
PhLc 1. Danh Sách Nhãn NgNghĩa Cơ Bn........................................103  
PhLc 2. Danh Sách Các Nhãn TLoi...................................................106  
PhLc 3. Trích Mt SLut .....................................................................108  
PhLc 4. Các Kết QuDch Đạt Được.....................................................111  
PhLc 5. Mt SKết QuDch ThNghim ..........................................123  
PhLc 6. Mt SVí DSo Sánh ..............................................................138  
vi  
Danh Sách Hình  
Hình 1-1 : Các chiến lược trong dch máy (do nhóm GETA đề xut)........................3  
Hình 1-2 : Mt hdch trc tiếp..................................................................................4  
Hình 1-3 : Mô hình dch da trên chuyn đổi cú pháp và hình nh ca chuyn đổi cú  
pháp trên cây cú pháp tiếng Anh sang tiếng Vit ...............................................4  
Hình 1-4 : Mt hdch liên ngôn ngcho n ngôn ngkhác nhau .............................5  
Hình 1-5 Các bước xlý trong hdch máy da trên chuyn đổi cú pháp ................9  
Hình 1-6 : Cây phân cp mã ngnghĩa trong LDOCE.............................................22  
Hình 2-1 : Lưu đồ gii thut hc da trên chuyn đổi..............................................33  
Hình 2-2: Minh hoca Samuel vtrình tto lut chuyn đổi..............................35  
Hình 2-3 : Minh homt cây cú pháp thông thường................................................47  
Hình 2-4 : Kết qukhi phân tích câu sdng văn phm phthuc.........................48  
Hình 2-5 : Hình nh mt cây quan hphthuc ......................................................48  
Hình 2-6 : Các quan hphthuc trong câu She is punished by her parents. .........51  
Hình 2-7 : Các quan hphthuc trong câu I installed that old driver into my  
computer............................................................................................................52  
Hình 3-1: Mô hình hun luyn cho bgán nhãn ngnghĩa .....................................61  
Hình 3-2 : Minh hocác cp được liên kết trong ngliu song ng.......................66  
Hình 3-3 : Thhin các mi liên kết ca mt cp câu..............................................67  
Hình 3-4 : Công cWordAlignEditor.......................................................................67  
Hình 3-5 : Công cSenseTaggerEditor ....................................................................71  
Hình 4-1 : Mô hình cho phương pháp gán nhãn cơ s..............................................78  
vii  
Danh Sách Bng Biu  
Bng 2-1 : Mt squan hkhi phân tích bng văn phm phthuc.......................51  
Bng 3-1 : Trích thng kê các nghĩa tiếng Vit da vào ngliu song ng...........68  
Bng 3-2 : Trích thng kê tn sxut hin ca nghĩa tiếng Vit ca mt ttiếng  
Anh da vào ngliu song ng. .......................................................................69  
Bng 4-1 : Trích mu lut để thêm tnhng...........................................................88  
Bng 4-2 : Tóm tt mt strường hp gii quyết cho động tbe...........................90  
Bng 4-3 : Mt stri thc được áp dng để gii quyết gii t................................91  
Bng 4-4 : Kết qumt slut chuyn đổi trong xlý ngnghĩa..........................93  
Bng 4-5 : Kết qumt slut chuyn đổi dùng để thêm ttiếng Vit..................93  
Bng 4-6 : Kết quthnghim................................................................................93  
viii  
Chương 1  
TNG QUAN  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
Chương này nhm gii thiu tng quan vdch máy nói  
chung, và xlý ngnghĩa nói riêng. Chúng tôi đề cp các cách tiếp  
cn và các công trình trước đây trong xlý ngnghĩa. Trong  
chương này, chúng tôi còn đề cp đến các mc độ nhp nhng  
cũng như các khó khăn trong xlý ngnghĩa.  
1.1. SƠ LƯỢC VDCH MÁY  
1.1.1. Lch sca Dch Máy  
Sau đại chiến thế gii thhai, nhsphát trin ca máy tính đin tvà do  
nhu cu cn nm bt nhng tin tc kp thi và chính xác trước sbùng nthông tin  
khoa hc - kthut ngày càng ln, người ta thy cn phi trao cho máy tính đin tử  
nhim vdch các văn bn tngôn ngnày sang ngôn ngkhác, đặc bit là dch  
các tài liu khoa hc - kthut.  
Vic dch ngôn ngtnhiên hay còn gi là Dch Máy (Machine Translation)  
được bt đầu nghiên cu từ đầu thp niên 1950. Đây là vn đề khó khăn nht trong  
vic ng dng ca trí tunhân to vào thc tế và cũng là đề tài thi sgây tranh  
cãi, và bàn tán sôi ni ttrước đến nay, lúc hy vng, lúc tht vng, lúc phát trin,  
lúc lu mvà cũng bkhen và chê nhiu nht.  
Khi đầu, Dch Máy cgng nhn mnh squan trng ca vic dch tng từ  
da trên stra tự đin song ngvà da trên thông tin thng kê, tn stvà nhng  
mu tun t. Trong thi kthp niên 1960, vic Dch Máy gp phi nhiu khó khăn  
và bchtrích. Có trường phái kết lun rng vic Dch Máy là không ththc hin  
được và không đáng để bcông sc để thc hin, dn đến vic Dch Máy đã lng  
xung. Nhng người chng đối lý lun rng: "... vic dch ngôn ngkhông nhng  
chcn nhng kiến thc vngôn ngmà còn phi nhng kiến thc ngoài ngôn ngữ  
(extra-linguistic)…". Trong thi knày (1975) các chính phủ đã không còn trcp  
cho các chương trình nghiên cu vDch Máy na và các chương trình này cũng  
chm dt.  
2
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
Nhưng may mn thay, tcui thp niên 1980 và nht là gn đây có mt sự  
tri dy mnh mvic quan tâm ti vic Dch Máy và đã đạt được nhiu kết quả  
đáng khích l. Shi sinh này là do kết qunghiên cu mi vlý thuyết vngôn  
nghc, vngpháp hc, tvng hc... và ngoài ra là có sra đời nhng thế hệ  
máy tính mi có khnăng mnh hơn nhiu. Tuy nhiên vic Dch Máy đến nay cũng  
còn nhiu hn chế và chdùng chyếu phiên dch các tài liu kthut hơn là tác  
phm văn hc.  
Có nhiu hướng tiếp cn, các chiến lược dch khác theo cp độ từ đơn gin  
đến phc tp, bao gm : dch trc tiếp, dch theo chuyn đổi cú pháp, chuyn đổi cú  
pháp + phân gii ngnghĩa, dch qua ngôn ngtrung gian, dch da trên lut, dch  
da trên thng kê, dch da trên cơ stri thc, dch da trên ngliu… Dưới đây  
chúng tôi smô tmt scách tiếp cn, và chiến lược đó (Xem thêm trong [7]).  
Liên ngôn ngữ  
Chuyn đổi cú pháp +  
Phân gii ngnghĩa nông  
Chuyn đổi cú pháp  
Trc tiếp  
Ngôn ngngun  
Ngôn ngữ đích  
Hình 1-1 : Các chiến lược trong dch máy (do nhóm GETA đề xut)  
‰ Dch trc tiếp :  
Dch ngôn ngbng cách thay thế nhng ttrong ngôn ngngun vi  
nhng ttrong ngôn ngữ đích mt cách máy móc. Nhng hdch trc tiếp phù hp  
3
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
cho nhng ng dng nơi mà văn bn dch có khi lượng tnhvà slượng câu gii  
hn. Các hdch trc tiếp hot động tương đối tt khi dch gia các ngôn ngcó  
cùng loi hình.  
Phân tích  
hình thái  
Tra từ đin  
song ngữ  
Ngôn ngữ  
ngun  
Ngôn ngữ  
đích  
Sp xếp trt ttừ  
đơn gin  
Hình 1-2 : Mt hdch trc tiếp  
‰ Dch theo chuyn đổi cú pháp :  
Chuyn đổi  
cú pháp S-T  
Ngôn ngngun S  
Ngôn ngữ đích T  
S
S
NP  
n
VP  
NP  
VP  
v
NP  
n
v
NP  
pos  
n
n
pos  
Đây  
là quyn sách  
ca tôi  
This  
is  
my  
book  
Hình 1-3 : Mô hình dch da trên chuyn đổi cú pháp và hình nh ca  
chuyn đổi cú pháp trên cây cú pháp tiếng Anh sang tiếng Vit  
4
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
Phân tích cú pháp câu được nhp vào và sau đó áp dng nhng lut ngôn ngữ  
và tvng (hay còn được gi là nhng lut chuyn đổi) để ánh xthông tin văn  
phm tngôn ngnày sang ngôn ngkhác. Theo đó, không thgii quyết các  
trường hp nhp nhng ngnghĩa ca câu có cùng cu trúc nhưng khác nghĩa nhau.  
‰ Dch chuyn đổi cú pháp + cng phân gii ngnghĩa :  
Dung hoà gia mc độ phân tích cú pháp và phân gii ngnghĩa. Hchyếu  
da vào phân tích cú pháp, và chphân gii ngnghĩa mc cn thiết để khnhp  
nhng nghĩa thôi.  
‰ Dch qua ngôn ngtrung gian :  
Xây dng mt ngôn ngtrung gian biu din độc lp vi mi ngôn ngtự  
nhiên và biu din được mi skhác bit vý nghĩa đến mc tinh tế nht ca mi  
ngôn ngcó trong hdch đó. Khi dch mt ngôn ngngun A sang ngôn ngữ đích  
B thì thc hin vic chuyn tngôn ngngun A sang ngôn ngtrung gian, sau đó  
chuyn tngôn ngtrung gian dch sang ngôn ngữ đích B. Ưu đim ca hliên  
ngôn nglà slượng bdch được dùng bi hdch liên ngôn ngkhông nhiu.  
Song, khó khăn ln nht là không dxây dng mt ngôn ngtrung gian !  
Văn bn ngôn  
ngthnht  
Văn bn ngôn  
ngthnht  
Phân tích  
Phân tích  
Tng hp  
Văn bn ngôn  
ngthhai  
Văn bn ngôn  
ngthhai  
Tng hp  
LIÊN NGÔN  
NGỮ  
Phân tích  
Tng hp  
Văn bn ngôn  
ngthn  
Văn bn ngôn  
ngthn  
Hình 1-4 : Mt hdch liên ngôn ngcho n ngôn ngkhác nhau  
5
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
‰ Dch da trên lut :  
Đây là cách tiếp cn truyn thng xut phát tcách làm ca các hlut dn  
trong hchuyên gia trong lĩnh vc trí tunhân to. Các lut dn được các nhà ngôn  
nghc xây dng bng tay. Ưu đim là da được vào lý thuyết ngôn nghc. Còn  
khuyết đim ca các hdch loi này là : tn công sc xây dng hlut ; các lut  
không bao quát ; có hin tượng lut tha và lut mâu thun…  
‰ Dch da trên thng kê :  
Thay vì xây dng các từ đin, các quy lut chuyn đổi bng tay, hdch này  
tự động xây dng các từ đin, các quy lut da trên thng kê. Cách tiếp cn này  
không đòi hi sphân tích sâu vngôn ng, chúng thc hin hoàn toàn tự động các  
quá trình phân tích, chuyn đổi, to câu da trên kết quthng kê có được tkho  
ngliu.  
‰ Dch da trên cơ stri thc :  
Da trên lp lun “mun dch được trước hết phi hiu được”, máy tính phi  
được trang btri thc ngôn ngvà tri thc vthế gii thc y như con người. Đây là  
mt công vic cc kkhó khăn. Vì vy, cht lượng các hdch da trên cách tiếp  
cn này còn rt hn chế.  
‰ Dch da trên ngliu :  
Đặc đim ca các hdch theo cách tiếp cn này là thay vì xây dng blut  
bng tay, hay da trên thng kê thì xây dng các blut da trên các công nghệ  
máy hc để được các blut chuyn đổi nhvào kho ngliu. Các blut này  
hoàn toàn tuân thcác lý thuyết ngôn ngvà dễ đọc hơn các lut rút ra tthng kê.  
Các blut này còn có ưu đim đầy đủ hơn, dkim soát hơn so vi các lut do các  
nhà ngôn nghc đưa ra.  
1.1.2. Khái nim vDch Máy  
Khi dùng máy tính đin tử để dch mt văn bn ngôn ngA, gi là ngôn  
ngngun, sang ngôn ngB, gi là ngôn ngữ đích, người ta cn chuyn văn bn đó  
vào máy, ri tmáy, nhcác qui tc dch đã cung cp sn cho nó, chuyn ra văn  
6
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
bn ngôn ngB. Mun thế, cn phân tích văn bn A vcác mt tvng, cú pháp,  
ngnghĩa ri chuyn nhng kết quả đó vào máy. Qua mt btừ đin máy, ở đó cho  
sn stương ng vtvng - ngnghĩa, vkết cu cú pháp gia 2 ngôn ngA và  
B, chính máy có thtng hp nhng kết quả đã đưa vào và chuyn ra ngôn ngB.  
Quá trình dch máy các văn bn văn hc nghthut gp rt nhiu khó khăn  
chưa khc phc được. Cho đến nay chcó thdch các văn bn khoa hc kthut,  
loi văn bn có phong cách đơn gin. Nhưng chính hướng nghiên cu dch tự động  
này để thúc đẩy lý thuyết ngôn nghc phát trin rt mnh. Người ta phi chính xác  
hóa, hình thc hóa các khái nim ngôn ng, phi phát hin được nhng skin bn  
cht trong quan hgia ni dung và hình thc ngôn ng, nghiên cu các đim ging  
nhau gia các ngôn ng([5]).  
1.1.3. Các bước xlý trong mt hDch Máy  
Dưới đây mô tcác bước xlý trong mt hDch Máy được cài đặt bng  
phương pháp chuyn đổi cú pháp (Syntactic Transfer System) vi ngôn ngngun  
là tiếng Anh và ngôn ngữ đích là tiếng Vit.  
‰ Tin xlý (pre-processing) :  
Văn bn tiếng Anh sau khi được đưa vào hDch máy được tin xlý.  
Nhim vca khi này là xlý sơ bvăn bn đầu vào, ri phân tách nó thành các  
đơn vrõ ràng để gim bt nhng bước nhp nhng không đáng có. Bước tin xlý  
bao gm : tách bnhng du hiu, nhng ký tl(nhng ký tự đồ hochng hn) ;  
tách đon ; tách câu (nhn dng được đâu là du ngt câu đúng) ; các danh hiu, các  
tviết tt…  
‰ Phân tích hình thái tiếng Anh (morphological analysis) :  
Ktgiai đon này, đơn vxlý ca hDch Máy là câu. Các câu này ly  
được nhvào phn Tin x. Mc đích ca bước này là xác định đúng tloi  
(Part-Of-Speech) ca ttiếng Anh và tgc ca nó ; nhn dng nhng tên riêng  
(tên địa danh, tên người, địa chemail, địa chwebsite).  
7
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
‰ Phân tích cú pháp tiếng Anh (syntactic analysis) :  
Nhvào tloi ca các tđược tbước xlý trước, bước này sxác định  
được các ngtrong câu tiếng Anh (ngữ động t, ngdanh t, nggii t…), chủ  
ng, vng, to cây cú pháp cho câu tiếng Anh. Nhng thông tin này sẽ được  
chuyn sang cho bphn xlý ngnghĩa và bphn chuyn đổi sang cây cú pháp  
tiếng Vit.  
‰ Xlý ngnghĩa da trên tiếng Anh (semantic processing) :  
Mc đích ca giai đon này là tnhng thông tin có được ca các bước  
trước (tloi, cây cú pháp) kết hp vi các thông tin vngcnh để chn ra được  
mt nghĩa thích hp nht cho ttrong câu tiếng Anh.  
‰ Chuyn đổi cây cú pháp tiếng Anh sang tiếng Vit (syntactic tree  
transfer) :  
Bphn này nhn cây cú pháp tiếng Anh (tbphn phân tích cú pháp), sau  
đó chuyn đổi cây cú pháp đó sang cây cú pháp tiếng Vit. Bphn này sdng  
các thông tin có được tbphn xlý ngnghĩa để đạt được hiu quchuyn đổi  
cao nht.  
‰ To câu tiếng Vit nhcây cú pháp tiếng Anh đã được chuyn  
đổi:  
Vi cây cú pháp tiếng Anh đã được chuyn sang cây cú pháp tiếng Vit, lúc  
này hthng đạt được trt tca các ttheo câu tiếng Vit. Gn kết vi kết quca  
bước xlý ngnghĩa để to thành mt câu tiếng Vit cho câu tiếng Anh. Bước này  
còn phi thc hin mt công vic khác là hoàn chnh câu tiếng Vit, điu đó có  
nghĩa là phi thêm nhng hư tvào câu tiếng Vit sao cho giúp người đọc càng dễ  
hiu càng tt.  
8
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
VĂN BN NHP  
Tin XLý  
Phân Tích Hình Thái  
Phân Tích Cú Pháp  
Phân Tích NgNghĩa  
Chuyn Đổi Cây Cú Pháp  
To Lp Câu  
VĂN BN XUT  
Hình 1-5 Các bước xlý trong hdch máy da trên chuyn đổi cú pháp  
9
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
1.2. XLÝ NGNGHĨA TRONG DCH MÁY  
1.2.1. Vai trò và chc năng ca xlý ngnghĩa  
Có thxem vic xác định đúng nghĩa ca t(xlý ngnghĩa) là mt vn đề  
trung tâm ca mi hxlý ngôn ngtnhiên. Hiu qulàm vic ca bphn xác  
định nghĩa ca tcó mt nh hưởng rt ln đến cht lượng thc hin ca mt hxử  
lý ngôn ngtnhiên. Trong mt hdch máy, vn đề xlý ngnghĩa đóng vai trò  
ct lõi và hết sc quan trng. Nó quyết định tính đúng đắn và hiu quca mt hệ  
dch. Mt hdch không xlý tt bphn này sdn đến kết qudch sai nghĩa  
hoàn toàn thm chí có thdn đến mt câu kết quhết sc ngngn, không thể  
hiu ni.  
‰ Dưới đây là mt sví dvtrường hp nhp nhng gây li cho  
mt hdch máy :  
Ví d1-1 : I can can a can.  
Mt câu nhìn vào tưởng chng rt đơn gin nhưng không dgii quyết vì từ  
can đến 3 nghĩa : (1) có th(động thình thái) ; (2) đóng hp (động t) ; (3) cái  
hp (danh t). Trong câu ví dtrên, c3 nghĩa ca tcan đều xut hin. Chcn  
chn sai mt nghĩa ca tcan trong câu trên sdn đến không hiu được ý ca câu  
trên, câu tiếng Vit strnên ngnghch. Mt kết quthường gp ca câu dch  
trên là : Tôi có thcó thmt có th, trong khi câu trên đáng lphi được dch là :  
Tôi có thđóng hp mt cái hp.  
Người ta nhn thy rng mun gii quyết nhp nhng tt cho câu trên cn  
phi có được mt bgán nhãn tloi tht tt. Lý do là mc dù có đến 3 nghĩa khác  
nhau nhưng các nghĩa ca tcan đã có thphân bit được thông qua tloi ca  
chúng1.  
1
Nhbphân tích hình thái tt, ta có kết qunhư sau : I/PRP can/MD can/VB  
a/DT can/NN.  
10  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
Ví d1-2 : I enter the new bank(1) near the bank(2) of SaiGon river.  
Nhìn vào trong câu ví dtrên, người ta ddàng nhn được câu dch chính  
xác ca nó : Tôi đi vào ngân hàng mi gn bca sông Sài Gòn. Nhưng đối vi  
mt hdch máy, đây là mt câu cha nhp nhng. Nhp nhng được phát hin 2  
ttrong câu trên. Thnht là tenter và thhai là tbank.  
Áp dng cách gii quyết ca ví dtrên, tc là có bphân tích hình thái tht  
tt, ta được : I/PRP enter/VBP the/DT new/JJ bank/NN of /IN SaiGon/NNP  
river/NN. Tuy nhiên, vn không thnào gii quyết được nhp nhng được cho 2 từ  
nêu trên.  
Tenter có 2 nghĩa động t(VB): (1) đi vào; (2) nhp (như trong câu I  
enter data into new computer). Và tbank cũng có 2 nghĩa danh t(NN) : (1) ngân  
hàng ; (2) bsông.  
Để gii quyết nhp nhng cho trường hp này phi sdng đến mt thông  
tin khác vcác quan htrong câu. Ở đây, mt quan hệ được tìm thy gia enter và  
bank(1), và mt quan hđược gia bank(2) và river. Đầu tiên, vn dng các ý  
nim ca ngôn nghc tri nhn để biết rng enter là hành động đi vào không gian  
kín. Trong khi vi nghĩa bsông tbank chmt không gian h, còn vi nghĩa  
ngân hàng mi chmt không gian kín. Thông qua mi quan hgia tenter và từ  
bank mà chúng ta có thxác định được nghĩa ca chai t. Kế đến, quan hgia  
bank(2) và river cho biết nghĩa ca tbank phi có thuc tính tnhiên, từ đó chn  
được nghĩa thích hp ca tbank(2) là bsông.  
Tóm li, vn đề gii quyết nhp nhng ngnghĩa là hết sc then cht và  
quyết định trong mi hdch. Mt bphn gii quyết nhp nhng ngnghĩa hiu  
qusgóp phn ci thin khnăng dch và độ chính xác ca hdch máy mt cách  
đáng k.  
11  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
1.2.2. Các mc độ nhp nhng trong tng xlý ngnghĩa  
1.2.2.1. Nhp nhng mc tvng  
Như câu ví dI enter the bank trên, sau khi phân tích cú pháp, máy tính đã  
xác định được mi quan hgia động tenter (đi vào) và tân ngca nó là bank  
nhưng để chn nghĩa thích hp cho tbank (nghĩa ngân hàng hay bsông) thì phi  
phân tích ngnghĩa ca động tenter và danh tbank. Trong trường hp này, vn  
dng các ý nim ca ngôn nghc tri nhn để biết rng enter là hành động đi vào  
không gian kín trong khi vi nghĩa bsông tbank chmt không gian h, còn vi  
nghĩa ngân hàng mi chmt không gian kín. Thông qua mi quan hgia tenter  
và tbank mà chúng ta có thxác định được nghĩa ca chai t.  
Mt vài ví dcthcho trường hp này :  
Làm sao xác định được nghĩa (tiếng Vit) ca told trong các cm tsau :  
old man old book. Các nghĩa ca told đều chmt tính cht cũ k, nhưng vi  
con người thì told có thcó nghĩa già hoc cũ trong khi đối vi vt cht thì told  
chcó thcũ mà thôi. Nhờ đâu mà ta có thdch cm old man ông già, còn old  
book quyn sách cũ ? Chúng ta stìm thy câu trli các phn sau.  
Mt ví dthêm na rơi vào động tenter (đi vào, nhp) trong hai câu : I  
enter the new bank; và I enter data into computer. Câu đầu tiên phi được dch là  
Tôi đi vào ngân hàng còn câu thhai phi được dch là Tôi nhp dliu vào máy  
tính.  
1.2.2.2. Mc độ nhp nhng cu trúc  
Xét ngOld man and woman, ta có 2 phân tích : [Old man] and [woman] và  
Old [man and woman]. Mi phân tích, khi áp dng vào trong mt hxlý ngôn  
ngtnhiên, scó mt cách hiu khác nhau. Ví dtrong hdch tự động, cm từ  
trên có thể được dch là Ông già và người đàn bà đối vi cách phân tích thnht ;  
và có thể được dch thành Ông già và người đàn bà già đối vi cách phân tích thứ  
hai. Tuy nhiên, chn cách dch nào sẽ được quyết định trong bphn xác định nghĩa  
ca t. Trong trường hp này, bxác định sthiên v(chn) cách phân tích thhai  
12  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
do tri thc nhn được vcu trúc song song parallel structure trong ngôn ngthông  
qua liên tand.  
Song không phi lúc nào bxác định nghĩa cũng chn mt cách (phân tích  
thhai). Hãy xét thêm mt ví d: Old man and child. Cm tnày cũng được phân  
tích theo hai cách : [Old man] and child, và Old [man and child]. Trước khi nói  
cách xlý nhp nhng ca bxác định nghĩa, chúng ta hãy dch hai cách phân tích  
này sang tiếng Vit để dhình dung. Đối vi cách phân tích thnht, ta có câu dch  
Ông già và đứa tr, trong khi đối vi cách phân tích thhai ta li có Ông già và đứa  
trgià. Không cn phi nói thêm thì chúng ta cũng có thbiết được cn chn cách  
dch nào ! Ti sao phân tích thnht li hp lý hơn phân tích thhai ? Như chúng  
ta đều biết, tchild bn thân đã mang tính tr. Nếu theo cách phân tích thhai thì  
chúng ta đã to ra mt mâu thun gia già tr. Đó là lý do vì sao cách phân tích  
thnht đã được chn.  
1.2.2.3. Mc độ nhp nhng liên câu  
Có mt cp câu ví dkhá đin hình cho mc độ nhp nhng liên câu. Hãy  
xét cp câu ví dsau :  
Ví d1-3 :  
The monkey ate the banana because it was hungry  
The monkey ate the banaba because it was ripe.  
Cp câu này có vrt đơn gin vì chúng ta skhông thy rõ được snhp  
nhng nếu chỉ đơn thun dch câu này (sang tiếng Vit). Vi câu thnht, câu dch  
Con khỉ ăn chui vì nó đói và câu thhai được dch là Con khỉ ăn chui vì nó  
chín. Ti đây, chc chn chúng ta còn thc mc : nói nhp nhng nhưng nhp nhng  
ở đim nào. Quá dhiu và dthc hin trong vic xác định nghĩa (!?). Nhưng hãy  
chú ý đến đại tit. It trong câu thnht chvmonkey; trong khi it trong câu thứ  
hai li chvbanana. Có thnó skhông rõ ràng vì it nào cũng được dch là .  
Nhưng điu đó li thc squan trng trong hhiu văn bn. Mun hiu được thì  
phi biết it nào chcái nào (it – monkey hay it – banana). Mt trong các cách hiu  
13  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
được ghi nhn là xác định đại tnhân xưng có thể đại din cho nhng (cm) tnào.  
Da vào các quan hệ đã có để gii quyết nhp nhng. Ví dtrong cp câu trên, it có  
thể đại din cho monkey hoc banana. câu thnht, vi it = monkey, thì quan hệ  
monkey – hungry mi hp lý (vì động vt mi đói bng !), còn it = banana thì quan  
hbanana – hungry là không hp lý! Còn câu thhai, vi it = monkey thì quan hệ  
monkey – ripe là không hp lý, chcó quan hbanana – ripe mi hp lý.  
1.2.2.4. Mc độ nhp nhng theo thloi văn bn  
mc độ nhp nhng này, mt thay mt ngcó thmang nhiu hơn mt  
nghĩa đúng. Cthscó nhiu kết quả đúng đồng thi, dn đến vic chn la nghĩa  
ca chúng phi được kết hp thêm thông tin vthloi văn bn.  
Ví d1-4 : an old driver  
Ta có nghĩa các tan : mt, old : già (đối vi người), cũ (đối vi đồ vt),  
driver : người tài xế, trình điu khin (máy tính). Vi các nghĩa ca tta có thể  
nhn được các câu dch sau:  
- Mt tài xế cũ (1)  
- Mt trình điu khin già (2)  
- Mt tài xế già (3)  
- Mt trình điu khin cũ (4)  
Đối vi nghĩa (1), (2) ta có ththy đây là hai nghĩa hoàn toàn sai. Nghĩa (3)  
và (4) đưa ra là nhng nghĩa đúng. Đối vi ngcnh thông thường thì nghĩa (3) sẽ  
được ưu tiên hơn. Tuy nhiên, nếu văn bn đang dch thloi tin hc thì nghĩa (4)  
sẽ ưu tiên được chn. Như vy, vn đề khnhp nhng nghĩa cũng rt cn thông tin  
vthloi văn bn trong quá trình xlý.  
14  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
1.2.3. Các khó khăn trong xlý ngnghĩa  
Tnhng phân tích các phn trên, có thrút ra các đim khó khăn chính  
trong xlý ngnghĩa như sau :  
1.2.3.1. Nhp nhng nghĩa  
Đây là mt vn đề hết sc phc tp trong xlý ngnghĩa bi tính đa nghĩa  
ca mt t. Mt tvi mt chc năng ngpháp có thcó nhiu nghĩa khác nhau.  
Tline có các nghĩa như sau:  
¾ Hàng (line of people : hàng người)  
¾ Dòng (line printing device : thiết bin dòng)  
¾ Đường k(a thin line : mt đường kmng)  
¾ Đường dây (telephone line : đường dây đin thoi)  
¾ Tuyến xe (bus line : tuyến xe buýt)  
Vic chn la nghĩa phù hp trong câu là mt vn đề khó khăn vì cn phi  
hiu được mi quan hca tvi ngcnh xung quanh để nhn biết nghĩa chính  
xác ca t.  
1.2.3.2. Phthuc vào ngcnh  
Mt ý nghĩa ca mt tcó nghĩa khác nhau nếu nm trong nhng ngcnh  
khác nhau. Ngcnh ở đây có thể được xem như là ni dung ca văn bn đang đề  
cp, ý nghĩa ca các câu trước hoc sau có liên quan đến nó trong đon văn, hoc  
các tcó liên quan vi nó trong câu. Chúng ta sthy yếu tngcnh stác động  
như thế nào đến ngnghĩa ca cm tan old driver. Nếu ta viết An old driver  
drives the car. thì nghĩa ở đây ca an old driver mt người tài xế già và nếu ta  
viết I installed that old driver into this computer. thì cm đó li mang nghĩa là  
trình điu khin cũ.  
1.2.3.3. Phthuc vào tri thc  
Ngôn nglà phương tin giao tiếp ca con người. Con người sdng ngôn  
ngữ để thhin nhng điu mình nhn thc được trong thế gii xung quanh. Nhng  
15  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
nhn thc đó chính là tri thc. Do vy, khi thhin nhng điu mình mun bng  
ngôn ng, thì bn thân nhng điu đó phi phù hp vi tri thc đang có. Ví dụ  
chúng ta không thnói Chiếc xe ăn hết thc ăn hay Cái đin thoi đi ng. Xlý  
ngnghĩa cũng không thtránh khi nhng vn đề đó, cn phi biết phân bit  
nhng vn đề không hp lý trong ngôn ng. Tuy nhiên, để thhin được tt ctri  
thc không phi là mt vn đề ddàng và đang là bài toán hóc búa đối vi các nhà  
khoa hc.  
1.2.3.4. Skhác bit gia tiếng Anh và Vit  
Tiếng Anh và tiếng Vit là ngôn ngca hai dân tc khác nhau, có nn văn  
hóa khác nhau. Vì vy, yếu tkhác nhau gia tiếng Anh và tiếng Vit là mt khó  
khăn trong vn đề xlý ngnghĩa. Có nhng khái nim trong tiếng Anh có thsử  
dng cho tt csvt vi cùng mt nghĩa nhưng trong tiếng Vit thì không phi  
như vy. Ví dcho phn này là cm told book old man đã được nêu trên.  
1.2.3.5. Yếu tkhác  
Như đã đề cp trên, khi xlý ngnghĩa là bước tiếp theo ca khi phân  
tích cú pháp. Do đó kết quca xlý ngnghĩa chu nh hưởng ca khi phân tích  
cú pháp. Cây cú pháp do khi phân tích có thể đưa ra sai, hoc quá phc tp, hoc  
thiếu nhng cu trúc cú pháp mà khi xlý ngnghĩa cn. Bên cnh đó, ngoài kiến  
thc Tin hc, công vic xlý ngnghĩa trong hdch máy cn phi có nhng kiến  
thc vngôn nghc, tiếng Anh cũng như tiếng Vit. Nhng kiến thc này htrợ  
cho vic tìm mi quan hgia cú pháp và ngnghĩa, mi quan hgia các nghĩa,  
sphân loi...  
16  
Lun Văn Tt Nghip : XLý NgNghĩa Trong HDch Anh-Vit Cho Các Tài Liu Tin Hc  
TNG QUAN  
1.3. CÁC CÁCH TIP CN TRONG XLÝ NGNGHĨA VÀ CÁC  
CÔNG TRÌNH TRƯỚC ĐÂY  
1.3.1. Xlý ngnghĩa trong thi gian đầu  
Trong mt công trình có tnăm 1949, Weaver tho lun scn thiết phi  
xác định nghĩa đúng ca ttrong dch máy và định ra nhng bước cơ bn trong khử  
nhp nhng nghĩa (Xem thêm trong [13]). Ông cho rng : Nếu mt ai đó xem xét  
tng tmt trong mt quyn sách thì rõ ràng người đó không thxác định được  
nghĩa ca tt ccác t. Ông cũng cho rng, nếu như mrng vùng xem xét xung  
quanh từ đó thì không nhng xác định được nghĩa ca từ đó mà còn có thxác định  
thêm được nghĩa ca nhng txung quanh na. Nhưng vùng xung quanh đó có kích  
thước ca sxem xét là bao nhiêu ? Năm 1950, mt thí nghim ni tiếng do Kaplan  
thc hin nhm tìm câu trli cho câu hi nêu trên. Kaplan dùng 7 từ để xem xét,  
và vùng ca sxung quanh xem xét được thay đổi tmt đến hai tmi bên ca từ  
cn xem xét. Kaplan quan sát rng độ phân gii nghĩa được đưa 2 ttrên mi bên  
ca txem xét không tt hơn cũng như không thơn khi đưa toàn bcâu.  
“Strùng khp ngnghĩa” (semantic coincidence) (do Reifler đưa ra năm  
1955) gia mt tvà ngcnh ca nó (xét trên độ phc tp ca ngcnh và vai trò  
ca quan hcú pháp) nhanh chóng trthành mt yếu tquyết định trong vic xác  
định đúng nghĩa ca t. Reifler cho rng : Cu trúc ngpháp có thgiúp khnhp  
nhng nghĩa cho t. Ví d, vi tkeep, có thxác định nghĩa đúng cho nó da trên  
vic xác định túc tca nó : túc tca nó là mt danh động t(gerund) (He kept  
eating - Anh y tiếp tc ăn) hay ngtính tvà ngdanh t(He kept calm – Anh y  
gibình tĩnh ; He kept a record – Anh y gimt klc).  
Trong giai đon này, dch máy chyếu tp trung vào vic dch các tài liu kỹ  
thut. Do đó đã có nhng nghiên cu vvai trò ca lĩnh vc (domain) trong vic  
khnhp nhng cho nghĩa mà sau đó vài thp k(năm 1992) được Gale, Church và  
Yarowsky lp li. Cũng liên quan đến vic sdng lĩnh vc ca tài liu cn dch, có  
nhng nghiên cu nhm to ra các từ đin chuyên dng. Các từ đin này chcha  
17  

Tải về để xem bản đầy đủ

pdf 154 trang yennguyen 24/07/2025 940
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Xử lý ngữ nghĩa trong hệ dịch tự động Anh – Việt cho các tài liệu tin học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_xu_ly_ngu_nghia_trong_he_dich_tu_dong_anh_viet_cho.pdf