Khóa luận Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng Việt

TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN  
KHOA CÔNG NGHʃ THÔNG TIN  
MÔN CÔNG NGHʃ TRI THͨC  
Châu Hɠi Duy - 0112005  
CÁCH TIӂP CҰN DӴA TRÊN NGӲ LIӊU  
CHO KIӆM LӚI CHÍNH TҦ TIӂNG VIӊT  
KHÓA LUҰN CӰ NHÂN TIN HӐC  
GIÁO VIÊN HѬӞNG DҮN  
TS. Ĉinh ĈLӅn  
NIÊN KHÓA 2001 – 2005  
i cҧm ѫn  
Ñ&Ò  
Ĉҫu tiên em xin tӓ lòng biӃt ѫn sâu sҳc ÿӃn thҫy Ĉinh ĈLӅn, ngѭӡi ÿã tұn  
tình giúp ÿӥ, trӵc tiӃp hѭӟng dүn và truyӅn ÿҥt nhiӅu kinh nghiӋm quý báu ÿӇ em  
có thӇ thӵc hiӋn và hoàn thành ÿӅ tài này.  
Em xin chân thành cҧm ѫn các thҫy cô thuӝc khoa Công nghӋ Thông tin,  
trѭӡng Ĉҥi hӑc Khoa hӑc Tӵ nhiên. Các thҫy cô ÿã tұn tình dҥy dӛ, truyӅn ÿҥt cho  
em nhiӅu kiӃn thӭc quý báu trong suӕt nhӳng năm Ĉҥi hӑc ÿӇ em có ÿѭӧc ngày  
hôm nay.  
Con xin gӣi lӡi cҧm ѫn sâu sҳc ÿӃn ông bà, cha mҽ, nhӳng ngѭӡi ÿã sinh  
thành và nuôi dѭӥng con thành ngѭӡi.  
Sau cùng tôi xin gӣi lӡi cҧm ѫn ÿӃn các bҥn trong nhóm VCL, ÿһc biӋt là  
n VNJ Thөy – ngѭӡi ÿã tәng hӧp và cung cҩp ngӳ liӋu huҩn luyӋn ÿӇ chѭѫng  
trình có thӇ hoҥt ÿӝng.  
TP. Hӗ Chí Minh, tháng 7 năm 2005  
Châu Hҧi Duy – 0112005  
Nhұn xét cӫa Giáo viên phҧn biӋn  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
.....................................................................................................................  
Chӳ ký cӫa GVPB  
c lөc  
0ӣꢀÿҫu..................................................................................................... 1  
Chѭѫng 1.  
ng quan ........................................................................... 3  
1.1. KiӇm lӛi chính tҧ cӫa tiӃng nѭӟc ngoài........................................... 4  
1.1.1. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu................................... 4  
1.1.1.1.  
1.1.1.2.  
1.1.1.3.  
Phѭѫng pháp Tӯ ngӳ cҧnh........................................................ 4  
Phѭѫng pháp Ĉһc trѭng lân cұn................................................ 4  
Phѭѫng pháp Danh sách quyӃt ÿӏnh.......................................... 5  
1.1.2. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Á..................................... 6  
1.1.2.1.  
1.1.2.2.  
Mô hình CInsunSpell cho tiӃng Hoa......................................... 6  
Phѭѫng pháp cӫa Nagata cho tiӃng Nhұt .................................. 7  
1.1.3. Ĉánh giá chung vӅ các mô hình trên................................................ 9  
1.2. KiӇm lӛi chính tҧ tiӃng ViӋt...........................................................10  
1.2.1. Chѭѫng trình VietSpell.................................................................. 10  
1.2.2. KiӇm lӛi chính tҧ dӵa vào phân tích cú pháp ................................. 11  
1.2.3. KiӇm lӛi chính tҧ bҵng mô hình lѭӟi tӯ ......................................... 12  
1.2.4. Word 2003 phiên bҧn tiӃng ViӋt.................................................... 13  
Chѭѫng 2.  
sӣ lý thuyӃt ...................................................................14  
2.1. Chuҭn chính tҧ...............................................................................15  
2.2. t sӕ kiӃn thӭc cѫ bҧn vӅ chính tҧ tiӃng ViӋt ..............................15  
2.2.1. Các yӃu tӕ cӫa tiӃng và chӳ viӃt: ................................................... 15  
2.2.1.1.  
2.2.1.2.  
2.2.1.3.  
2.2.1.4.  
2.2.1.5.  
2.2.1.6.  
Âm......................................................................................... 16  
Chӳ cái................................................................................... 17  
Thanh và dҩu.......................................................................... 17  
TiӃng hay âm tiӃt.................................................................... 17  
Hình vӏ ................................................................................... 17  
.......................................................................................... 18  
2.2.2. Quy cách ghi dҩu thanh trên chӳ viӃt............................................. 19  
2.2.3. t quҧꢀÿLӅu tra lӛi chính tҧ........................................................... 19  
2.2.3.1.  
2.2.3.2.  
2.2.3.3.  
2.2.3.4.  
thanh ÿLӋu......................................................................... 19  
âm ÿҫu.............................................................................. 20  
âm chính........................................................................... 20  
âm cuӕi............................................................................. 20  
2.2.4. Nguyên nhân ................................................................................. 20  
2.2.4.1.  
2.2.4.2.  
2.2.4.3.  
2.2.4.4.  
thanh ÿLӋu......................................................................... 20  
âm ÿҫu.............................................................................. 21  
âm chính........................................................................... 21  
âm cuӕi............................................................................. 21  
2.3. Ĉһc ÿLӇm chung cӫa mӝt hӋ kiӇm lӛi chính tҧ ...............................22  
2.3.1. Các chӭc năng chính ..................................................................... 22  
2.3.2. Các loҥi lӛi chính tҧ....................................................................... 22  
2.3.3. Nguyên nhân gây ra lӛi chính tҧ .................................................... 23  
2.3.4. Các sai lҫm cӫa trình kiӇm lӛi........................................................ 24  
2.4. sӣ tin hӑc .................................................................................25  
2.4.1. Luұt Bayes .................................................................................... 25  
2.4.2. Mô hình N-Gram tәng quát ........................................................... 26  
2.4.2.1.  
2.4.2.2.  
2.4.2.3.  
Ѭӟc lѭӧng bҵng N-Gram........................................................ 26  
Huҩn luyӋn N-Gram............................................................... 28  
Làm mӏn................................................................................. 29  
2.4.3. Tách tӯ.......................................................................................... 30  
2.4.3.1.  
2.4.3.2.  
Khӟp tӕi ÿa ............................................................................ 31  
WFST..................................................................................... 32  
Mô hình..............................................................................33  
Chѭѫng 3.  
3.1. Mô hình tәng quát .........................................................................34  
3.2. TiӅn xӱ lý......................................................................................37  
3.2.1. Tách cөm tiӃng.............................................................................. 37  
3.2.2. Tách tiӃng...................................................................................... 37  
3.2.3. c “nhiӉu................................................................................... 38  
3.2.3.1.  
3.2.3.2.  
3.2.3.3.  
Nhұn diӋn tiӃng Anh .............................................................. 38  
Nhұn diӋn tӯ viӃt tҳt............................................................... 38  
Nhұn diӋn phiên âm................................................................ 38  
3.3. KiӇm lӛi non-word ........................................................................39  
3.3.1. Phát hiӋn lӛi .................................................................................. 39  
3.3.2. a lӛi........................................................................................... 39  
3.3.2.1.  
3.3.2.2.  
3.3.2.3.  
a lӛi phát âm ...................................................................... 39  
a lӛi nhұp liӋu..................................................................... 40  
Các lӛi khác ........................................................................... 43  
3.4. KiӇm lӛi real-word ........................................................................43  
3.4.1. Phát hiӋn lӛi bҵng bigram.............................................................. 44  
3.4.1.1.  
3.4.1.2.  
3.4.1.3.  
3.4.1.4.  
Ý tѭӣng chính ........................................................................ 44  
t hӧp vӟi trigram................................................................ 45  
Làm mӏn................................................................................. 47  
Heuristic hҥn chӃ lӛi tích cӵc ................................................. 47  
3.4.2. Phát hiӋn lӛi bҵng FMM và n-gram ............................................... 48  
3.5. p danh sách ӭng viên sӱa lӛi......................................................50  
3.6. c trong quá trình kiӇm lӛi..........................................................51  
Chѭѫng 4.  
Cài ÿһt thӵc nghiӋm ..........................................................52  
4.1. Cài ÿһt ...........................................................................................53  
4.1.1. Chuҭn hoá tiӃng............................................................................. 53  
4.1.1.1.  
4.1.1.2.  
4.1.1.3.  
Mã hoá các chӳ cái................................................................. 53  
Mã hoá tiӃng .......................................................................... 53  
u trúc lӟp Tieng.................................................................. 55  
4.1.2. Mã hoá tӯ và n-gram ..................................................................... 57  
4.1.2.1.  
4.1.2.2.  
4.1.2.3.  
Mã hoá tӯ............................................................................... 57  
Mã hoá n-gram....................................................................... 58  
u trúc lӟp Tu ...................................................................... 59  
4.1.3. u trúc dӳ liӋu cho các tӯꢀÿLӇn và các bӝ n-gram......................... 59  
4.1.4. Phát sinh ӭng viên ......................................................................... 60  
4.1.4.1.  
4.1.4.2.  
Phát sinh các tiӃng gҫn giӕng ................................................. 60  
Phát sinh các tӯ gҫn giӕng...................................................... 61  
4.1.5. KiӇm lӛi chính tҧ........................................................................... 64  
4.1.5.1.  
4.1.5.2.  
4.1.5.3.  
Dò tìm lӛi............................................................................... 64  
p xӃp các ӭng viên sӱa lӛi .................................................. 66  
c trong quá trình kiӇm lӛi................................................... 66  
4.1.6. Huҩn luyӋn.................................................................................... 66  
4.1.7. Tích hӧp vào Word........................................................................ 69  
4.1.8. Các xӱ lý khác............................................................................... 70  
4.1.8.1.  
4.1.8.2.  
ng mã tiӃng ViӋt................................................................. 70  
Linh tinh................................................................................. 70  
4.1.9. Vài hình ҧnh vӅ Chѭѫng trình........................................................ 71  
4.2. Thӱ nghiӋm và Ĉánh giá ...............................................................73  
4.2.1. Các tham sӕ thӱ nghiӋm ................................................................ 73  
4.2.2. t quҧ.......................................................................................... 74  
4.2.3. Nhұn xét........................................................................................ 79  
4.2.4. So sánh vӟi VietSpell .................................................................... 80  
4.2.4.1.  
4.2.4.2.  
Khҧ năng phát hiӋn lӛi............................................................ 80  
Khҧ năng ÿӅ nghӏ sӱa lӛi........................................................ 80  
4.3. Ĉánh giá và KӃt luұn .....................................................................88  
4.4. +ѭӟng phát triӇn............................................................................89  
Tài liӋu tham khҧo...................................................................................90  
Phө lөc ....................................................................................................92  
Danh sách hình  
Hình 1: Dò tìm lӛi bҵng ma trұn tiӃng nhҫm lүn.................................................... 8  
Hình 2: Mô hình tәng quát.................................................................................. 36  
Hình 3: Bigram ÿѭӧc mӣ rӝng vӅ phía sau.......................................................... 47  
Hình 4: Mã tiӃng................................................................................................. 54  
Hình 5: Mã tӯ ..................................................................................................... 57  
Hình 6: Mã n-gram ............................................................................................. 58  
Hình 7: Sѫꢀÿӗ kiӇm lӛi bҵng FMM và n-gram..................................................... 65  
Hình 8: Quá trình kiӇm lӛi .................................................................................. 71  
Hình 9: Quá trình kiӇm lӛi hoàn tҩt..................................................................... 72  
Hình 10: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 5.33 .................................................... 75  
Hình 11: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 4.95 .................................................... 76  
Hình 12: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 4.73 .................................................... 77  
Hình 13: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 4.59 .................................................... 78  
Danh sách bҧng  
ng 1: Các thành phҫn dӉ nhҫm lүn khi phát âm............................................... 39  
ng 2: Phím gӕc và các phím lân cұn................................................................ 42  
ng 3: KӃt quҧ thӱ nghiӋm................................................................................ 74  
Danh sách thuұt toán  
Thuұt toán 1: Phát sinh tiӃng ӭng viên dӵa vào lӛi phát âm................................. 40  
Thuұt toán 2: Phát hiӋn lӛi bҵng bigram.............................................................. 45  
Thuұt toán 3: KӃt hӧp bigram và trigram ÿӇ phát hiӋn lӛi ................................... 46  
Thuұt toán 4: Phát hiӋn lӛi bҵng FMM và n-gram............................................... 49  
Thuұt toán 5: Phát sinh tӯꢀӭng viên..................................................................... 62  
Thuұt toán 6: Binary Search cҧi tiӃn.................................................................... 63  
Thuұt toán 7: Quá trình huҩn luyӋn..................................................................... 67  
Thuұt toán 8: Các bѭӟc tҥo n-gram trong giai ÿRҥn huҩn luyӋn........................... 68  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
0ӣꢀÿҫu  
Ĉһt vҩn ÿӅ  
Là mӝt chӳ viӃt ghi âm, chӳ viӃt tiӃng ViӋt cNJng có rҩt nhiӅu quy ÿӏnh vӅ  
cách kӃt hӧp tӯng ký tӵ cӫa bҧng chӳ cái vӟi nhau ÿӇ tҥo thành nhӳng tӯ có nghƭa,  
i là chính tҧ. ViӋc dùng ÿúng chính tҧ rҩt quan trӑng, nhҩt là trong các văn bҧn  
hành chính. Mӝt văn bҧn sai chính tҧ có thӇ gây khó chӏu cho ngѭӡi ÿӑc, làm  
ngѭӡi ÿӑc không tin tѭӣng vào trình ÿӝ cӫa chính ngѭӡi ÿã tҥo ra văn bҧn ÿó.  
Nhѭng quan trӑng hѫn hӃt, viӋc sai chính tҧ có thӇ làm ngѭӡi tiӃp nhұn hiӇu sai  
i dung cҫn truyӅn ÿҥt.  
Trѭӟc ÿây, viӋc kiӇm lӛi chính tҧ phҧi hoàn toàn dӵa vào sӭc ngѭӡi. Tuy  
nhiên, xã hӝi càng phát triӇn, lѭӧng thông tin cҫn truyӅn ÿҥt ngày càng nhiӅu, viӋc  
kiӇm lӛi chính tҧ “thӫ công” rҩt mҩt thӡi gian và công sӭc.  
n ÿây, cùng vӟi sӵ phát triӇn nhanh chóng cӫa công nghӋ thông tin,  
ng lѭӟi hành chánh ÿLӋn tӱ ngày càng ÿѭӧc mӣ rӝng và mӝt nhu cҫu mӟi ÿang  
ÿѭӧc ÿһt ra: làm sao ÿӇ máy tính có thӇ thay thӃ (mӝt phҫn hay toàn bӝ) cho con  
ngѭӡi trong viӋc kiӇm lӛi chính tҧ, hay nói cách khác là làm sao ÿӇ xây dӵng mӝt  
chѭѫng trình bҳt lӛi chính tҧ tӵꢀÿӝng.  
Ngoài ra, hiӋn nay trong nhiӅu văn bҧn khoa hӑc cӫa tiӃng ViӋt thѭӡng có  
dùng thêm tiӃng Anh ÿӇ chú thích cho các thuұt ngӳ hoһc cho các tӯ không thӇ  
ch sát nghƭa. Do ÿó, mӝt chѭѫng trình kiӇm lӛi chính tҧ tӯꢀÿӝng cho các văn bҧn  
có cҧ tiӃng ViӋt và tiӃng Anh là rҩt cҫn thiӃt.  
Thêm vào ÿó, viӋc kiӇm lӛi chính tҧ còn có thӇꢀÿѭӧc dùng trong giai ÿRҥn  
tiӅn xӱ lý cӫa rҩt nhiӅu bài toán khác vӅ xӱ lý ngôn ngӳ tӵ nhiên, ví dө nhѭ: phân  
loҥi văn bҧn, tóm tҳt văn bҧn, dӏch tӵꢀÿӝng, nhұn dҥng chӳ viӃt, nhұn dҥng giӑng  
nói, …  
Tuy nhiên, trong khi bài toán kiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu  
ÿã ÿѭӧc giҧi quyӃt mӝt cách khá trӑn vҽn, viӋc kiӇm lӛi chính tҧ cho tiӃng ViӋt lҥi  
- 1 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
p nhiӅu khó khăn. Vì vұy, cho ÿӃn nay, mһc dù ÿã có vài công trình vӅꢀÿӅ tài  
này nhѭng hҫu nhѭ chѭa có công trình nào ÿѭӧc áp dөng vào thӵc tӃ.  
c tiêu cӫa ÿӅ tài  
Nhѭꢀÿã nói trên, mӝt chѭѫng trình kiӇm lӛi chính tҧ tӵꢀÿӝng là rҩt cҫn thiӃt  
trong hoàn cҧnh hiӋn nay. Tuy ÿã có mӝt sӕ công trình vӅꢀÿӅ tài này nhѭng hҫu hӃt  
chѭa áp dөng ÿѭӧc vào thӵc tӃ. Tӯ nhӳng ÿLӅu kiӋn trên, tôi ÿã chӑn kiӇm lӛi  
chính tҧ làm luұn văn tӕt nghiӋp cӫa mình.  
c tiêu sau cùng cӫa ÿӅ tài này là mӝt chѭѫng trình kiӇm lӛi chính tҧ  
hoàn chӍnh, có thӇÿѭӧc sӱ dөng ngay trong thӵc tӃ. ĈӇÿҥt ÿѭӧc yêu cҫu này,  
ngoài hiӋu quҧ thӵc tӃ, các mô hình ngôn ngӳꢀÿѭӧc áp dөng ӣꢀÿây không nên quá  
u kǤ, phӭc tҥp hoһc ÿòi hӓi nhiӅu không gian nhӟ.  
Tù nhӳng yêu cҫu trên, tôi chӑn n-gram ti͇ng làm hѭӟng tiӃp cұn chính.  
Mô hình n-gram có mӝt sӕꢀѭu ÿLӇm, ÿó là không quá phӭc tҥp trong xӱ lý, và nӃu  
ÿѭӧc tә chӭc cҩu trúc dӳ liӋu tӕt, lѭӧng bӝ nhӟ chiӃm dөng là chҩp nhұn ÿѭӧc.  
Trong mô hình cӫa ÿӅ tài này, n-gram ÿѭӧc dùng làm phѭѫng tiӋn ÿӇ tính toán các  
xác suҩt, các mӕi liên kӃt giӳa nhӳng tiӃng trong văn bҧn, dò tìm ra nhӳng vùng bӏ  
i, và sau cùng ÿѭa ra các ÿӅ nghӏ sӱa chӳa cho ngѭӡi dùng lӵa chӑn.  
cөc luұn văn  
Luұn văn này gӗm 4 chѭѫng vӟi nӝi dung chính nhѭ sau:  
· Chѭѫng 1: Trình bày tình hình phát triӇn cӫa kiӇm lӛi chính tҧ trên thӃ  
giӟi, ÿánh giá mӝt sӕ phѭѫng pháp ÿã ÿѭӧc công bӕ.  
· Chѭѫng 2: Các vҩn ÿӅ lý thuyӃt ÿѭӧc dùng ÿӃn trong luұn văn, gӗm  
lý thuyӃt ngôn ngӳ hӑc và tin hӑc.  
· Chѭѫng 3: Mô hình và phѭѫng pháp ÿѭӧc sӱ dөng trong luұn văn.  
· Chѭѫng 4: Tóm tҳt quá trình cài ÿһt, cùng vӟi các thӱ nghiӋm và ÿánh  
giá vӅ luұn văn cùng hѭӟng phát triӇn sau này.  
Ngoài ra còn có phҫn tài liӋu tham khҧo và phө lөc.  
- 2 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Chʦʤng 1. ng quan  
nhӳng năm 60 cӫa thӃ kӹ XX, bài toán kiӇm lӛi chính tӵÿӝng bҵng  
máy tính ÿã nhұn ÿѭӧc sӵ quan tâm cӫa các nhà khoa hӑc. Cho ÿӃn nay, rҩt nhiӅu  
thuұt toán, mô hình ÿӇ giҧi quyӃt bài toán này ÿã ÿѭӧc công bӕ, tuy nhiên hҫu hӃt  
chúng ÿӅu tұp trung vào các ngôn ngӳ biӃn cách cӫa châu Âu nhѭ tiӃng Anh, tiӃng  
Pháp,… còn kiӇm lӛi chính tҧ cho các ngôn ngӳÿѫn lұp cӫa châu Á nhѭ tiӃng  
Hoa, tiӃng ViӋt,… chӍ mӟi bҳt ÿҫu ÿѭӧc nghiên cӭu gҫn ÿây.  
HiӋn nay, vҩn ÿӅꢀÿang ÿѭӧc quan tâm nhҩt trong kiӇm lӛi chính tҧ là kiӇm  
i chính tҧ cҧm ngӳ cҧnh. Khác vӟi các phѭѫng pháp kiӇm lӛi chính tҧ truyӅn  
thӕng, vӕn xem xét các tӯ mӝt cách ÿӝc lұp nhau và chӫ yӃu dӵa vào tӯÿn,  
trong kiӇm lӛi chính tҧ cҧm ngӳ cҧnh, ÿӇ quyӃt ÿӏnh mӝt tӯ có bӏ sai chính tҧ hay  
không, hӋ thӕng phҧi xét ÿӃn các ÿһc trѭng xung quanh nó nhѭ tӯ lân cұn, tӯ loҥi,  
trұt tӵ tӯ,… Do ÿó, phѭѫng pháp kiӇm lӛi cҧm ngӳ cҧnh có thӇ phát hiӋn ÿѭӧc  
nhӳng lӛi sai vӅ cách dùng tӯ, tӭc là tӯ vӕn không bӏ sai chính tҧ, nhѭng trong  
hoàn cҧnh cӫa câu văn thì viӋc dùng nó là không hӧp lý. Tuy nhiên, ÿi cùng vӟi  
hiӋu quҧ cao là sӵ khó khăn trong cách tiӃp cұn.  
a vào loҥi hình ngôn ngӳ (biӃn cách hay ÿѫn lұp), các phѭѫng pháp  
kiӇm lӛi chính tҧ có thӇꢀÿѭӧc chia thành hai “trѭӡng phái” chính: kiӇm lӛi cho các  
ngôn ngӳ châu Âu và kiӇm lӛi cho các ngôn ngӳ châu Á.  
Phҫn ÿҫu cӫa chѭѫng này xin giӟi thiӋu mӝt vài phѭѫng pháp kiӇm lӛi  
chính tҧꢀÿã ÿѭӧc công bӕ ӭng dөng thành công trong thӵc tӃ cho các ngôn ngӳ  
Qѭӟc ngoài. Phҫn cuӕi chѭѫng sӁÿm qua các công trình ÿã ÿѭӧc công bӕ cho  
kiӇm lӛi tiӃng ViӋt, cùng vӟi mӝt sӕ nhұn xét vӅ chúng.  
- 3 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
1.1.  
Ki͛m lͯi chính t̻ cͿa ti͗ng ńͳc ngoài  
1.1.1. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu  
Nhѭꢀÿã nói trên, bài toán kiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu, nhҩt  
là tiӃng Anh, ÿã ÿѭӧc tìm hiӇu tӯ rҩt sӟm, vӟi nhiӅu mô hình, phѭѫng pháp khác  
nhau nhѭ Tӯ ngӳ cҧnh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuy  
nhiên, phѭѫng pháp kiӇm lӛi chính tҧ cҧm ngӳ cҧnh nhұn ÿѭӧc nhiӅu nhà khoa  
c quan tâm nhҩt do nó có nhiӅu ѭu ÿLӇm so vӟi cách kiӇm lӛi chӍ dӵa vào tӯ  
ÿLӇn.  
1.1.1.1. Phѭѫng pháp Tӯ ngӳ cҧnh1  
t trong nhӳng ÿҫu mӕi ÿӇ phân biӋt mӝt tӯ vӟi nhӳng tӯ nhұp nhҵng vӟi  
nó là các tӯ xung quanh nó trong câu. Ví dө, khi ÿang xem xét ÿӇ chӑn lӵa giӳa  
dessert desert, nӃu có các tӯ nhѭ arid, sand, sun,… gҫn ÿó, ta sӁ chӑn desert,  
còn nӃu gһp các tӯ nhѭ chocolate, delicious,… gҫn ÿó, ta sӁ chӑn dessert. Phѭѫng  
pháp Tӯ ngӳ cҧnh ÿѭӧc Golding xây dӵng dӵa trên nhұn xét này. Trong giai ÿRҥn  
c, vӟi mӛi tӯ thѭӡng bӏ viӃt sai chính tҧ, hӋ thӕng sӁ ghi nhӟ nhӳng tӯ thѭӡng  
xuҩt hiӋn xung quanh nó trong ngӳ liӋu. Khi chҥy thӵc tӃ, vӟi mӛi tӯ nghi ngӡ, hӋ  
thӕng sӁ xem xét các tӯ lân cұn vӟi nó, sau ÿó chӑn ra tӯ thích hӧp nhҩt ÿӇ làm tӯ  
thay thӃ.  
1.1.1.2. Phѭѫng pháp Ĉһc trѭng lân cұn2  
Phѭѫng pháp Tӯ ngӳ cҧnh rҩt tӕt trong viӋc phát hiӋn các nguyên tҳc chung  
nhҩt phө thuӝc vào nhӳng tӯ lân cұn, nhѭng không quan tâm ÿӃn trұt tӵ cӫa  
chúng. Trong trѭӡng hӧp ÿó, các phѭѫng pháp Ĉһc trѭng lân cұn tӓ ra rҩt thích  
p ÿӇ rút ra các quy luұt vӅ trұt tӵ.  
1 Context words  
2 Collocations  
- 4 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
t ÿһc trѭng lân cұn là mӝt mүu các yӃu tӕ vӅ cú pháp xung quanh tӯ  
ÿang xét. Có hai ÿһc trѭng thѭӡng ÿѭӧc sӱ dөng trong phѭѫng pháp này, ÿó là  
nhãn tӯ loҥi và tӯ lân cұn.  
Phѭѫng pháp Ĉһc trѭng lân cұn ÿѭӧc thӵc hiӋn theo cách thӭc tѭѫng tӵ vӟi  
phѭѫng pháp Tӯ ngӳ cҧnh. Ý tѭӣng chính ӣꢀÿây là phân biӋt nhӳng tӯ dӉ bӏ dùng  
nhҫm lүn vӟi nhau dӵa vào các ÿһc trѭng lân cұn cӫa chúng. Mӛi ÿһc trѭng lân  
n cung cҩp vài dҩu hiӋu vӟi khҧ năng quyӃt ÿӏnh3 khác nhau cho nhӳng tӯ trong  
p nhҫm lүn. Nhӳng dҩu hiӋu này ÿѭӧc kӃt hӧp vӟi nhau và tính toán theo mӝt  
luұt quyӃt ÿӏnh (thѭӡng là Bayes). Sau cùng, tӯ nào có ÿӝ hӧp lý cao nhҩt sӁꢀÿѭӧc  
chӑn.  
Tuy nhiên, phѭѫng pháp Ĉһc trѭng lân cұn cNJng có nhѭӧc ÿLӇm, ÿó là khi  
t tӯ có các ÿһc trѭng mâu thuүn hoһc hàm chӭa nhau, gӑi là xung ÿ͡t4. ĈӇ  
phѭѫng pháp này hoҥt ÿӝng tӕt, các ÿһc trѭng xung ÿӝt vӟi nhau cҫn ÿѭӧc phát  
hiӋn và loҥi bӓ. HiӋn nay, ngoài heuristic, vүn chѭa có mӝt phѭѫng pháp hoàn  
chӍnh ÿӇ giҧi quyӃt vҩn ÿӅ này.  
1.1.1.3. Phѭѫng pháp Danh sách quyӃt ÿӏnh  
Danh sách quyӃt ÿӏnh là sӵ kӃt hӧp cӫa Tӯ ngӳ cҧnh và Ĉһc trѭng lân cұn  
ÿӇ tұn dөng ѭu ÿLӇm cӫa cҧ hai phѭѫng pháp này: Tӯ ngӳ cҧnh sӁ rút ra các  
nguyên tҳc tӕt nhҩt theo cách ÿӝc lұp vӟi trұt tӵ tӯ, còn Ĉһc trѭng lân cұn ÿѭӧc  
dùng ÿӇ rút ra các nguyên tҳc phө thuӝc vào trұt tӵ.  
Phѭѫng pháp này ÿòi hӓi phҧi xây dӵng mӝt danh sách rҩt lӟn các ÿһc  
trѭng - ӣꢀÿây là các tӯ ngӳ cҧnh và các ÿһc trѭng lân cұn. Nhӳng ÿһc trѭng ÿѭӧc  
p xӃp theo khҧ năng quyӃt ÿӏnh giҧm dҫn, trong ÿó khҧ năng quyӃt ÿӏnh cӫa mӛi  
ÿһc trѭng phҧn ánh ÿӝ tin cұy cӫa nó trong viӋc ra quyӃt ÿӏnh. Mӝt tӯ nhұp nhҵng  
VӁꢀÿѭӧc phân loҥi bҵng cách duyӋt qua danh sách và so khӟp tӯng ÿһc trѭng vӟi  
ngӳ cҧnh. Ĉһc trѭng phù hӧp ÿҫu tiên sӁꢀÿѭӧc dùng ÿӇ phân loҥi tӯꢀÿang xét.  
3 Strength  
4 Conflict  
- 5 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Vì Danh sách quyӃt ÿӏnh ÿѭa ra lӡi giҧi chӍ dӵa vào mӝt ÿһc trѭng mҥnh  
nhҩt, hiӋu suҩt cӫa nó phҫn lӟn tùy thuӝc vào cách xác ÿӏnh khҧ năng quyӃt ÿӏnh  
cho nhӳng ÿһc trѭng. Ĉây chính là nhѭӧc ÿLӇm cӫa phѭѫng pháp này, bӣi vì viӋc  
tìm ra mӝt công thӭc ÿánh giá tәng quát là rҩt khó.  
Do ÿó, Danh sách quyӃt ÿӏnh có thӇꢀÿѭӧc cҧi tiӃn bҵng cách dùng nhiӅu ÿһc  
trѭng hѫn. Theo ÿó, ÿӇ lӵa chӑn các tӯ tӕt nhҩt, hӋ thӕng sӁ duyӋt qua toàn bӝ  
danh sách ÿһc trѭng, so sánh tӯng ÿһc trѭng vӟi ngӳ cҧnh, rӗi kӃt hӧp chúng ÿӇ  
ÿѭa ra lӡi giҧi sau cùng. ViӋc kӃt hӧp các ÿһc trѭng có thӇꢀÿѭӧc thӵc hiӋn nhӡ vào  
t bӝ phân loҥi, ví dө nhѭ nhѭ Bayes.  
1.1.2. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Á  
n ÿây, kiӇm lӛi chính tҧ cho các ngôn ngӳ châu Á ÿã ÿѭӧc quan tâm và  
ÿҥt ÿѭӧc mӝt sӕ thành tӵu. Không nhѭ các ngôn ngӳ châu Âu, viӋc kiӇm lӛi chính  
cho các ngôn ngӳÿѫn lұp cӫa châu Á gһp nhiӅu khó khăn. Nguyên nhân chӫ  
u là do các ngôn ngӳ cӫa châu Á nhѭ tiӃng Hoa, tiӃng Nhұt, tiӃng Hàn,… không  
có ranh giӟi tӯ rõ ràng. ĈӇ áp dөng nhӳng mô hình kiӇm lӛi chính tҧ cҧm ngӳ  
nh cӫa các ngôn ngӳ châu Âu, văn bҧn tiӃng châu Á cҫn ÿѭӧc xác ÿӏnh ranh giӟi  
. ViӋc xác ÿӏnh ranh giӟi tӯ ngay khi văn bҧn ÿҫu vào là ÿúng chính tҧÿã là  
không ÿѫn giҧn. Vӟi văn bҧn ÿҫu vào sai chính tҧ, bài toán tách tӯ càng khó khăn  
n.  
Do ÿó, các nhà ngôn ngӳ hӑc – tin hӑc cӫa châu Á ÿã ÿӅ ra mӝt sӕ mô hình  
i cho kiӇm lӛi chính tҧ. Phҫn này sӁꢀÿLӇm qua mӝt vài mô hình trong sӕꢀÿó.  
1.1.2.1. Mô hình CInsunSpell cho tiӃng Hoa  
Mô hình kiӇm lӛi này có tên là CInsunSpell [JX00] ÿѭӧc ÿӅ xuҩt bӣi Li  
Jianhua và Wang Xiaolong, là sӵ kӃt hӧp giӳa Trigram ti͇ng, phѭѫng pháp ѭӟc  
Oѭӧng Bayes và Phân phӕi trӑng sӕ tӵꢀÿӝng5, ÿѭӧc dùng cho sӱa lӛi chính tҧ tiӃng  
Hoa.  
5 Automatic Weight Distribution  
- 6 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Trigram ÿѭӧc dùng trong bѭӟc kiӇm lӛi. Theo ÿó, mӝt “cӱa sӕ” trigram  
kích thѭӟc 5 ÿѭӧc dùng ÿӇꢀÿánh giá mӕi liên kӃt giӳa các tiӃng vӟi nhau. Cӱa sә  
trigram thӵc ra là mӝt chuӛi con, vӟi tiӃng cҫn xét ӣ trung tâm, và 4 tiӃng lân cұn  
ӣ xung quanh (2 tiӃng liӅn trѭӟc và 2 tiӃng liӅn sau). TiӃng trung tâm ÿѭӧc xem là  
sai chính tҧ khi hai liên kӃt trѭӟc và sau nó ÿӅu yӃu. Liên kӃt ÿѭӧc xem là yӃu khi  
có có giá trӏ nhӓ hѫn mӝt giá trӏ ngѭӥng.  
u hӃt các mô hình dùng n-gram ÿӅu gһp trӣ ngҥi chính, ÿó là dӳ liӋu quá  
thѭa thӟt, dүn ÿӃn các xác suҩt n-gram sӁ rҩt thҩp (thѭӡng có giá trӏ bҵng 0). ĈӇ  
khҳc phөc, các tác giҧ cӫa CInsunSpell dùng thêm bigram cùng vӟi làm mӏn bҵng  
cách mӣ rӝng cӱa sә bigram tӯ 3 tiӃng thành 4 tiӃng vӅ phía sau ÿӇ nâng cao hiӋu  
suҩt phát hiӋn lӛi.  
phân loҥi Bayes ÿѭӧc dùng trong bѭӟc sӱa lӛi. Ý tѭӣng chính là tìm  
chuӛi thích hӧp nhҩt (có xác suҩt cao nhҩt) tӯ chuӛi ÿҫu vào ÿӇ làm phѭѫng án sӱa  
i. ĈӇÿánh giá sӵ phù hӧp cӫa chuӛi sӱa lӛi, Bayes ÿѭӧc kӃt hӧp vӟi phѭѫng  
pháp Phân phӕi trӑng sӕ tӵÿӝng dӵa trên Sӕ phép biӃn ÿәi ít nhҩt6 [WF74] ÿӇ  
biӃn chuӛi ÿҫu vào thành chuӛi sӱa lӛi.  
Theo thӱ nghiӋm cӫa các tác giҧ, CInsunSpell có tӹ lӋ phát hiӋn lӛi là  
khoҧng 60%, tӹ lӋ lӛi tích cӵc khoҧng 10%. Hai giá trӏ này thay ÿәi tùy vào các  
ngѭӥng ÿѭӧc dùng trong hӋ thӕng.  
1.1.2.2. Phѭѫng pháp cӫa Nagata cho tiӃng Nhұt  
Phѭѫng pháp cӫa Nagata [Na98] ÿѭӧc áp dөng ÿҫu tiên cho các hӋ thӕng  
nhұn dҥng chӳ viӃt (OCR). Tuy nhiên nó vүn có thӇÿѭӧc dùng ÿӇ sӱa các lӛi  
chính tҧ do con ngѭӡi gây ra.  
Phѭѫng pháp cӫa Masaaki gӗm hai giai ÿRҥn: Trong giai ÿRҥn thӭ nhҩt, câu  
nhұp vào ÿѭӧc chia thành nhiӅu chuӛi tiӃng, vӟi ÿLӅu kiӋn mӛi chuӛi tiӃng tҥo  
thành mӝt tӯ có trong tӯꢀÿLӇn hoһc n giӕng vӟi ít nhҩt mӝt tӯ nào ÿó trong tӯ  
ÿLӇn. Trong giai ÿRҥn thӭ hai, bҵng các phѭѫng pháp thӕng kê, n chuӛi tӯ tӕt nhҩt  
6 Minimun edit distance  
- 7 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
ꢁÿѭӧc tҥo thành tӯ nhӳng “tӯÿã có ӣ giai ÿRҥn trѭӟc) ÿѭӧc chӑn làm ӭng viên  
a lӛi. Dѭӟi ÿây là ví dө minh hӑa cho cách tiӃp cұn này:  
Câu ÿҫu vào:  
Tôi lam viӋc ӣ  
Ma trұn tiӃng nhҫm lүn:  
hӧp tát  
xҧ  
mua bán  
lám  
làm  
lãm  
lҥm  
hӑp tác  
tҥt  
sҧ  
báng  
xã  
Tôi  
lam  
lám  
làm  
lãm  
m  
viӋc  
ӣ
p  
tát  
tác  
t  
tác  
tác  
[ҧ  
Vҧ  
xã  
mua  
mua  
bán  
p  
p  
p  
p  
báng  
viӋc  
xã  
Hình 1: Dò tìm lӛi bҵng ma trұn tiӃng nhҫm lүn  
ĈӇ có thӇ chia chuӛi ÿҫu vào thành các chuӛi con mӝt cách hӧp lý, hӋ  
thӕng dùng hai phѭѫng pháp, ÿó là Mô hình ngôn ngӳ thӕng kê và Thuұt toán  
Forward-DB Backward A* ÿӇ tách tӯ.  
Ngôn ngӳ thӕng kê ÿѭӧc dùng ÿӇ tính xác suҩt kӃt hӧp cӫa chuӛi con và  
chuӛi nhãn tӯ loҥi. Xác suҩt kӃt hӧp này thӵc ra là tích xác suҩt xuҩt hiӋn cӫa  
chuӛi con vӟi xác suҩt xuҩt hiӋn chuӛi nhãn trong ngӳ liӋu huҩn luyӋn. Sau cùng  
Thuұt toán Forward-DB Backward A* [Na94] ÿѭӧc dùng ÿӇꢀÿánh giá các xác suҩt  
- 8 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
t hӧp ÿó, sau cùng tìm ra cách kӃt hӧp có xác suҩt lӟn nhҩt làm lӡi giҧi cho bài  
toán tách tӯ.  
Theo ÿánh giá cӫa tác giҧ, phѭѫng pháp này giúp cҧi thiӋn ÿӝ chính xác cӫa  
OCR tӯ 90% lên 96%, hiӋu suҩt tách tӯ là 93%.  
1.1.3. Ĉánh giá chung vӅ các mô hình trên  
Các phѭѫng pháp Tӯ ngӳ cҧnh, Ĉһc trѭng lân cұn và Danh sách quyӃt ÿӏnh  
ÿã ÿѭӧc ӭng dөng rҩt thành công cho các ngôn ngӳ châu Âu nhѭ tiӃng Anh, tiӃng  
Pháp, tiӃng Tây Ban Nha,… Tuy nhiên ÿӇ áp dөng các mô hình ÿó cho tiӃng ViӋt,  
n bҧn ÿҫu vào cҫn phҧi ÿѭӧc tách tӯ bҵng mӝt mô hình tách tӯ mӡ. Mô hình  
tách tӯ mӡ không tӕt sӁ làm giҧm ÿáng kӇ hiӋu suҩt chung cӫa toàn hӋ thӕng. Cho  
ÿӃn nay vүn chѭa có mӝt mô hình tách tӯ mӡ hoàn chӍnh cho tiӃng ViӋt. Ngoài ra,  
u hӃt các phѭѫng pháp cho tiӃng Anh ÿӅu ÿòi hӓi ngӳ liӋu ÿã ÿѭӧc gán nhãn tӯ  
loҥi, trong khi ÿӃn nay vүn chѭa có kho ngӳ liӋu tiӃng ViӋt thoҧ mãn yêu cҫu này.  
Thêm vào ÿó, các phѭѫng pháp nhѭ Danh sách quyӃt ÿӏnh và Bayes ÿòi hӓi hӋ  
thӕng phҧi thӵc hiӋn nhiӅu thao tác xӱ lý khá phӭc tҥp ÿӇ nhұn ra tӯ sai chính tҧ  
nên cNJng khó ÿѭӧc áp dөng vào thӵc tӃ. Do ÿó chúng tôi chӍ xem nhӳng mô hình  
a Golding nhѭ là nguӗn tài liӋu tham khҧo thêm mà không áp dөng chúng.  
i hӋ thӕng CInSunSpell cho kiӇm lӛi tiӃng Hoa, các tác giҧꢀÿã dùng cӱa  
Bigram và Trigram ӣ mӭc ti͇ngꢀÿӇ dò tìm tiӃng sai chính tҧ. Ĉó là cách tiӃp cұn  
t phù hӧp cho tiӃng ViӋt vì không cҫn phҧi tách tӯ. Bên cҥnh ÿó, mô hình này  
còn có nhӳng ѭu ÿLӇm khác. Ѭu ÿLӇm ÿҫu tiên là tính ÿѫn giҧn trong cài ÿһt cNJng  
nhѭ trong quá trình xӱ lý. Ѭu ÿLӇm thӭ hai, cNJng là ÿһc ÿLӇm quan trӑng nhҩt,  
CInsunSpell không ÿòi hӓi kho ngӳ liӋu huҩn luyӋn ÿã ÿѭӧc tách tӯ hay gán nhãn  
loҥi mà chӍ cҫn mӝt kho ngӳ liӋu ÿúng chính tҧ. Vӟi nhӳng ÿһc ÿLӇm ÿó, viӋc  
áp dөng CInsunSpell cho tiӃng ViӋt có nhiӅu khҧ năng sӁ thành công trong thӵc tӃ.  
Mô hình sӱa lӛi chính tҧ cӫa Masaaki cho tiӃng Nhұt, vӅ mһt lý thuyӃt cNJng  
có thӇ áp dөng ngay cho tiӃng ViӋt mà không cҫn sӱa ÿәi nhiӅu vì Nhұt-ViӋt ÿӅu  
là các ngôn ngӳÿѫn lұp. Tuy nhiên, cNJng nhѭ mӝt sӕ mô hình dùng cho tiӃng  
- 9 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Anh, mô hình này cҫn có kho ngӳ liӋu ÿã ÿѭӧc tách tӯ và gán nhãn tӯ loҥi, ÿó là  
ÿLӅu chѭa thӇꢀÿáp ӭng ÿѭӧc. Bên cҥnh ÿó, viӋc dò tìm phѭѫng án sӱa lӛi bҵng ma  
trұn tiӃng nhҫm lүn, khi áp dөng vào tiӃng ViӋt, sӁ phҧi ÿѭѫng ÿҫu vӟi mӝt thӱ  
thách mӟi: bùng nә tә hӧp, nhҩt là trong thӵc tӃ, các lӛi sai khi nhұp liӋu rҩt ÿa  
ng nên tұp nhҫm lүn khá lӟn. Do ÿó, viӋc áp dөng mô hình cӫa Maasaki cho  
tiӃng ViӋt ngay lúc này là rҩt khó khăn.  
1.2.  
Ki͛m lͯi chính t̻ ti͗ng Vi͟t  
KiӇm lӛi chính tҧ là mӝt bài toán khó, nhҩt là kiӇm lӛi chính tҧ cho các  
ngôn ngӳꢀÿѫn lұp nhѭ tiӃng ViӋt, tiӃng Hoa.  
Trѭӟc khi tôi thӵc hiӋn ÿӅ tài này, nhӳng ngѭӡi ÿi trѭӟc ÿã công bӕ mӝt sӕ  
công trình nghiên cӭu vӅ kiӇm lӛi chính tҧ tiӃng ViӋt vӟi các hѭӟng tiӃp cұn khác  
nhau. Mӛi cách tiӃp cұn có các ѭu-khuyӃt ÿLӇm khác nhau. Tuy nhiên, ngoài  
VietSpell, hҫu hӃt chúng ÿӅu chѭa ÿѭӧc áp dөng thành công trong thӵc tӃ. Phҫn  
này sӁꢀÿLӇm qua các công trình ÿó, cùng vӟi mӝt vài nhұn xét vӅ chúng. Ngoài ra,  
trong năm nay cNJng có mӝt sӵ kiӋn ÿáng chú ý: Microsoft phát hành trình xӱ lý  
n bҧn MS Word 2003 giao diӋn tiӃng ViӋt có kèm chӭc năng kiӇm lӛi chính tҧ  
tiӃng ViӋt.  
1.2.1. Chѭѫng trình VietSpell  
VietSpell cӫa Lѭu Hà Xuyên là chѭѫng trình kiӇm lӛi chính tҧÿã thѭѫng  
i hoá và ÿѭӧc sӱ dөng rӝng rãi hiӋn nay. Chѭѫng trình này có nhiӅu ѭu ÿLӇm  
nhѭ gӑn nhҽ, xӱ lý nhanh, tích hӧp tӕt. Nhӳng nhұn xét, ÿánh giá vӅ chѭѫng trình  
này ÿѭӧc rút ra tӯ VietSpell Pro phiên bҧn 3.0.  
Nhìn chung, VietSpell là mӝt chѭѫng trình tӕt, bӣi vì ngoài viӋc kiӇm lӛi  
chính tҧ, nó còn có các chӭc năng hӳu ích cho ngѭӡi ViӋt nhѭ chuyӇn mã, bӝ gõ,  
nhӳng chӭc năng ÿó không ÿѭӧc xem xét ӣꢀÿây. Tuy nhiên, ÿӇ dùng nó mӝt cách  
p pháp, khách hàng phҧi trҧ tiӅn bҧn quyӅn. ĈLӅu này không phҧi ngѭӡi dùng  
nào cNJng ÿáp ӭng ÿѭӧc.  
- 10 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Tuy nhiên, vӟi chӭc năng kiӇm lӛi chính tҧ, VietSpell không hӅ có mӝt mô  
hình ngôn ngӳ hoàn chӍnh, mà chӍ phát hiӋn lӛi dӵa vào các heuristic, nên vүn còn  
phҥm mӝt sӕ lӛi tích cӵc lүn tiêu cӵc, Bên cҥnh ÿó, VietSpell vүn gây ra mӝt sӕ  
xung ÿӝt vӟi MS Word, nhҩt là vӟi MS Word các phiên bҧn sau này nhѭ Word  
2003. Ngoài ra, VietSpell vүn còn mӝt sӕ lӛi vӅ kӻ thuұt thiӃt kӃ chѭѫng trình nhѭ  
chӑn khӕi sai, ÿôi khi làm hѭ văn bҧn nguӗn, ÿѭa ra ÿӅ nghӏ sӱa lӛi mӝt cách  
không hӧp lý, …  
1.2.2. KiӇm lӛi chính tҧ dӵa vào phân tích cú pháp  
m 1999, trong luұn văn tӕt nghiӋp ÿҥi hӑc, NguyӉn Ĉӭc Hҧi và NguyӉn  
Phҥm Hҥnh Nhi [HN99] ÿã ÿӅ xuҩt mô hình kiӇm lӛi chính tҧ tiӃng ViӋt bҵng cách  
phân tích cú pháp. Ĉây ÿѭӧc xem là cách tiӃp cұn dӵa trên luұt.  
Theo mô hình này, câu ÿҫu vào sӁÿѭӧc hӋ thӕng tiӃn hành phân tích cú  
pháp bҵng thuұt toán Earley. Nhӳng chӛ không phân tích ÿѭӧc sӁ bӏ xem là lӛi  
chính tҧ. Earley là mӝt thuұt toán mҥnh cho phân tích cú pháp. Tuy nhiên do có ÿӝ  
phӭc tҥp cao: O(n3) vӟi n là sӕ tiӃng trong câu, Earley cҫn ÿѭӧc cài ÿһt tӕt ÿӇ tăng  
thӡi gian xӱ lý.  
ĈӇ áp dөng Earley cho tiӃng ViӋt, câu ÿҫu vào cҫn phҧi ÿѭӧc tách tӯ trong  
ÿLӅu kiӋn nó có thӇ bӏ sai chính tҧ. Ĉó là khó khăn thӭ nhҩt. ĈLӇm khó khăn thӭ  
hai, là các luұt ngӳ pháp cӫa ngôn ngӳ tӵ nhiên rҩt phӭc tҥp, tiӃng ViӋt có khoҧng  
3000 luұt, trong khi chѭѫng trình chӍ tұp hӧp ÿѭӧc khoҧng 700 luұt. ĈLӇm khó  
khăn tiӃp theo, tiӃng ViӋt là ngôn ngӳÿѫn lұp, sӕ tiӃng lҥi ít, nên viӋc phӕi hӧp  
các tiӃng ÿӇ tҥo thành câu “nghe có vҿ hӧp lý” cNJng nhiӅu, do ÿó có rҩt nhiӅu  
trѭӡng hӧp câu sai chính tҧ nhѭng vүn phân tích cú pháp ÿѭӧc. Ĉây là hҥn chӃ  
chính cӫa phѭѫng pháp này.  
ng vӟi cách tiӃp cұn trên, [TPLT98] ÿã xây dӵng chѭѫng trình kiӇm lӛi  
chính tҧ VPCTTV. Chѭѫng trình này có phҫn hoàn chӍnh hѫn [HN99] do có ÿӃn  
140 tӯ loҥi, 2000 luұn và ÿҥt ÿӝ chính xác 95%.  
- 11 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Nhìn chung, kiӇm lӛi chính tҧ bҵng phân tích cú pháp rҩt có nhiӅu triӇn  
ng. NӃu ÿѭӧc nghiên cӭu và phát triӇn hoàn chӍnh, khҧ năng ӭng dөng vào thӵc  
sӁ rҩt cao.  
1.2.3. KiӇm lӛi chính tҧ bҵng mô hình lѭӟi tӯ  
m 2004, trong luұn văn tӕt nghiӋp cӫa mình, NguyӉn Thái Ngӑc Duy  
[Duy04] ÿã trình bày mô hình lѭӟi tӯ cho kiӇm lӛi chính tҧ tiӃng ViӋt. Mô hình  
này hoҥt ÿӝng dӵa vào viӋc tách tӯ mӡ, sau ÿó ÿánh giá các cách tách tӯ khác  
nhau ÿӇ tìm ra cách tách tӯ có vҿ hӧp lý nhҩt làm câu sӱa lӛi. Trong ÿó, lѭӟi tӯ  
thӵc chҩt là mӝt cҩu trúc dӳ liӋu ÿһc biӋt, giӕng nhѭ mӝt ÿӗ thӏ thѭa có hѭӟng  
không chu trình. Cҩu trúc dӳ liӋu này giúp cho viӋc tách tӯ mӡ ÿánh giá các  
cách tách tӯꢀÿѭӧc dӉ dàng và nhanh chóng, bӣi vì có thӇ áp dөng các thuұt toán  
tìm ÿѭӡng ÿi trên ÿӗ thӏ vӟi nó.  
/ѭӟi tӯ là mӝt mô hình mҥnh và chһt chӁ. VӅ lý thuyӃt, nӃu ÿѭӧc cài ÿһt và  
huҩn luyӋn hoàn chӍnh, thì hiӋu suҩt cӫa nó sӁ rҩt khҧ quan.  
Tuy nhiên, mô hình này có mӝt nhѭӧc ÿLӇm rҩt khó khҳc phөc, ÿó là vҩn ÿӅ  
bùng nә tә hӧp. Bӣi vì, ngay vӟi mӝt câu ÿúng chính tҧ, viӋc tách tӯ cNJng không  
ÿѫn giҧn, và thѭӡng tìm ÿѭӧc nhiӅu cách tách tӯ khác nhau. Vӟi câu ÿҫu vào là sai  
chính tҧ, viӋc tách tӯ mӡ càng trӣ nên khó khăn do vӟi mӛi tiӃng, hӋ thӕng phҧi  
phát sinh các tiӃng gҫn giӕng vӟi nó, rӗi xem xét các cách phӕi hӧp cӫa nhӳng  
tiӃng ÿó vӟi các tiӃng lân cұn nó trong câu, sau cùng mӟi chӑn ra cách tӕt nhҩt.  
ĈLӅu này khiӃn cho chѭѫng trình phҧi mҩt rҩt nhiӅu thӡi gian và không gian ÿӇ xӱ  
lý, nhҩt là vӟi nhӳng câu dài.  
Bên cҥnh cҩu trúc lѭӟi tӯ, mô hình cӫa NguyӉn Thái Ngӑc Duy còn dùng  
n-gram ÿӇꢀѭӟc lѭӧng các giá trӏ cҫn thiӃt. Tuy nhiên, do ngӳ liӋu huҩn luyӋn chѭa  
t, viӋc ѭӟc lѭӧng này chѭa ÿѭӧc chính xác. Ngoài ra, cách tә chӭc dӳ liӋu cӫa hӋ  
thӕng có nhiӅu nhѭӧc ÿLӇm, khiӃn cho chѭѫng trình phҧi tӕn rҩt nhiӅu không gian  
nhӟꢀ ÿӇ lѭu trӳ các n-gram. ĈLӅu này mӝt lҫn nӳa làm giҧm tính thӵc tӃ cӫa  
chѭѫng trình.  
- 12 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Nhѭ vұy, bên cҥnh nhӳng ѭu ÿLӇm, mô hình lѭӟi tӯ vүn còn nhӳng nhѭӧc  
ÿLӇm nhҩt ÿӏnh. NӃu khҳc phөc ÿѭӧc nhӳng nhѭӧc ÿLӇm ÿó, lѭӟi tӯ sӁ trӣ thành  
phѭѫng pháp hӳu hiӋu ÿӇ kiӇm lӛi chính tҧ.  
1.2.4. Word 2003 phiên bҧn tiӃng ViӋt  
Ĉҫu năm 2005, MicroSoft ÿã phát hành phҫn mӅm MS Word 2003 phiên  
n tiӃng ViӋt dành riêng cho thӏ trѭӡng ViӋt Nam. MS Word là phҫn mӅm xӱ lý  
n bҧn ÿѭӧc dùng phә biӃn nhҩt hiӋn nay ӣ ViӋt Nam và cҧ trên thӃ giӟi.  
Trong phiên bҧn tiӃng ViӋt này, MS Word 203 ÿã ÿѭӧc tích hӧp chӭc năng  
mà có lӁ nhiӅu ngѭӡi ViӋt Nam ÿang rҩt quan tâm: kiӇm lӛi chính tҧ cho văn bҧn  
tiӃng ViӋt. Tuy nhiên, không nhѭ mong ÿӧi, chӭc năng này chӍꢀÿѭӧc hoàn thành ӣ  
p ÿӝ rҩt thҩp: kiӇm lӛi chính tҧꢀӣ mӭc tiӃng.  
Theo các ÿánh giá cӫa trang tin VnExpress.Net và tҥp chí ThӃ Giӟi Vi Tính  
(MS Office cho ngѭӡi ViӋt, tr. 74), ngoài viӋc phát hiӋn tӕt các lӛi sai tiӃng nhѭ  
“khôgn”, “rtào”,… chӭc năng kiӇm lӛi tiӃng ViӋt cӫa Word còn khá “ngô nghê”,  
nhiӅu lúc ÿѭa ra các ÿӅ nghӏ không hӧp lý do tӯꢀÿLӇn chѭa ÿҫy ÿӫ.  
- 13 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Chʦʤng 2. s˹ lý thuy˙t  
Trѭӟc khi bҳt tay vào lӵa chӑn mô hình và cài ÿһt các thuұt toán, hiӇu rõ  
nhӳng vҩn ÿӅ lý thuyӃt ÿѭӧc dùng trong ÿӅ tài là ÿLӅu rҩt cҫn thiӃt. Chѭѫng này  
xin ÿѭӧc trình bày các vҩn ÿӅ lý thuyӃt ÿó, gӗm hai phҫn chính:  
sӣ lý thuyӃt ngôn ngӳ hӑc: các khái niӋm vӅ tiӃng, tӯ, hình vӏ,… cӫa  
tiӃng ViӋt, các quy tҳc chính tҧ cѫ bҧn, và kӃt quҧꢀ ÿLӅu tra vӅ các lӛi chính tҧ  
thѭӡng gһp ӣ TP HCM.  
sӣ lý thuyӃt tin hӑc: trình bày vӅ hӋ kiӇm lӛi chính tҧ tәng quát, mô  
hình lý thuyӃt ÿѭӧc áp dөng trong luұn văn: n-gram, cùng vӟi phѭѫng pháp ѭӟc  
Oѭӧng Bayes ÿӇ tính toán các xác suҩt n-gram, và các mô hình tách tӯ.  
- 14 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
2.1.  
Chún chính t̻  
Theo [LTT97] thì chuҭn chính tҧ bao gӗm chuҭn viӃt các âm (phө âm,  
nguyên âm, bán âm ), và các thanh, chuҭn viӃt tên riêng (viӃt hoa ), chuҭn viӃt  
phiên âm tӯ và thuұt ngӳ vay mѭӧn.  
HiӋn nay, chuҭn viӃt các âm và các thanh tiӃng ViӋt ÿã ÿѭӧc xác ÿӏnh theo  
thӕng ngӳ âm cuҧ chӳ viӃt. Chuҭn viӃt hoa tuy chѭa thұt thӕng nhҩt, nhѭng xu  
Kѭӟng ÿang ÿѭӧc chҩp nhұn là viӃt hoa con chӳꢀÿҫu cuҧ mӛi âm tiӃt thuӝc tӯ tên  
riêng (ViӋt Nam, Hӗ Xuân Hѭѫng …); nӃu tên riêng là cөm tӯ thӇ hiӋn mӝt hay  
n mӝt danh tӯ chung và mӝt danh tӯ riêng thì viӃt hoa con chӳꢀÿҫu thuӝc âm tiӃt  
ÿҫu cuҧ các danh tӯ chung, còn danh tӯ riêng viӃt hoa theo quy ÿӏnh. Chuҭn viӃt  
phiên âm tӯ vay mѭӧn (tiӃng nѭӟc ngoài ) phӭc tҥp hѫn: ÿang tӗn tҥi 2 cách viӃt  
phiên âm, ÿó là phiên âm âm tiӃt hoá (có gҥch nӕi giӳa các âm tiӃt cuҧ tӯ nhѭ Lê-  
nin, Pa-ri …) và phiên âm tӯ hoá (viӃt liӅn âm tiӃt, tôn trӑng âm và chӳ theo hӋ  
Latinh nhѭ Paris, Canada, …).  
2.2.  
Mͱt sͩ ki͗n th΁c c˿ b̻n v͙ chính t̻ ti͗ng Vi͟t  
Chӳ viӃt là hӋ thӕng kí hiӋu bҵng ÿѭӡng nét ÿһt ra ÿӇ ghi tiӃng nói và có  
nhӳng quy tҳc, quy ÿӏnh riêng. Muӕn viӃt ÿúng chính tҧ tiӃng ViӋt, ta phҧi tuân  
theo nhӳng quy ÿӏnh, quy tҳc ÿã ÿѭӧc xác lұp.  
Chính tҧ là cách viӃt chӳꢀÿѭӧc xem là chuҭn, tӭc viӃt ÿúng âm ÿҫu, ÿúng  
n, ÿúng dҩu (thanh), ÿúng quy ÿӏnh vӅ viӃt hoa, viӃt tҳt, viӃt thuұt ngӳ.  
Trѭӟc khi nói vӅ các quy cách, ta cҫn xác ÿӏnh mӝt sӕ kiӃn thӭc vӅ chính tҧ  
tiӃng ViӋt.  
2.2.1. Các yӃu tӕ cӫa tiӃng và chӳ viӃt:  
TiӃng do nhiӅu âm kӃt lҥi mà thành. Âm ÿѭӧc chia làm nhiӅu loҥi nhӓ.  
- 15 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
2.2.1.1. Âm  
Khi nói, luӗng hѫi phát sinh tӯ phәi, làm rung các dây thanh ӣ hӑng, qua  
khoang miӋng hoһc cҧ khoang mNJi tҥo thành các âm. Âm gӗm có: nguyên âm, phө  
âm, bán âm, âm ÿӋm.  
Nguyên âm  
Nguyên âm ÿѭӧc tҥo do luӗng hѫi thoát ra tӵ do, tӭc là không bӏ cҧn ӣ mӝt  
ÿLӇm nào. Trong chính tҧ, nguyên âm có thӇ mang dҩu. Chӳ ViӋt có 11 nguyên âm  
ÿѫn là A, Ă, Â, E, Ê, I, Y, O, Ô, U, Ѭ, và 3 nguyên âm ÿôi là IÊ / YÊ / IA / YA ;  
ѬѪ / ѬA ; UÔ / UA  
Nguyên âm ÿѫn có ÿһc ÿLӇm là giӳ nguyên chӳ trong khi viӃt, trӯ khi viӃt  
Y. Nguyên âm ÿôi không giӳ nguyên nguyên chӳ khi viӃt. ViӃt IÊ, YÊ, ѬѪ, UÔ  
khi có âm cuӕi (liên, tuyӃt, hѭѫng, muôn), viӃt IA, YA, ѬA, UA khi không có phө  
âm cuӕi (hia, khuya, lӱa, mùa).  
Phͭ âm  
Phө âm ÿѭӧc tҥo ra do luӗng hѫi bӏ cҧn ӣ hӑng, lѭӥi, răng hoһc môi. Trong  
chính tҧ, phө âm không mang dҩu. Chӳ ViӋt có 23 phө âm: B, C / K / Q, CH, D,  
Ĉ, G /GH , GI, H, KH, L, M, N, NH, NG / NGH, P, PH, R, S, T, TH, TR, V, X.  
Bán âm  
TiӃng ViӋt có 2 bán âm cuӕi. Bán âm cuӕi thӭ nhҩt ÿѭӧc thӇ hiӋn bҵng 2  
chӳ cái i và y (ví dө: lѫi, lây); bán âm cuӕi thӭ hai ÿѭӧc ghi bҵng hai chӳ cái o và  
u (ví dө: ao, âu).  
Âm ÿ͏m  
TiӃng ViӋt có mӝt âm ÿӋm [u], ÿѭӧc thӇ hiӋn bҵng hai chӳ cái o và u (ví  
: hoa huӋ). Âm ÿӋm có tác dөng làm cho vҫn trӣ nên tròn môi (so sánh: an, ên  
i oan, uên).  
- 16 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
2.2.1.2. Chӳ cái  
Chӳ cái dùng ÿӇ ghi âm. Theo quy ÿӏnh vӅ chính tҧ trong sách giáo khoa  
i cách giáo dөc, bҧng chӳ cái tiӃng ViӋt gӗm 33 con chӳ xӃp theo thӭ tӵ sau: A,  
Ă, Â, B, C, D, Ĉ, E, Ê, (F), G, H, I, (J), K, L, M, N, O, Ô, Ѫ, P, Q, R, S, T, U, Ѭ,  
V, (W), X, Y, (Z). Các chӳ cái trong ngoһc ÿѫn là F, J, W, Z chӍ dùng ÿӇ viӃt tên  
riêng nѭӟc ngoài và thuұt ngӳ gӕc nѭӟc ngoài. Vұy viӃt “fѭӡng”, “za” là sai chính  
.  
2.2.1.3. Thanh và dҩu  
Thanh là hiӋn tѭӧng nâng cao hoһc hҥ thҩp trong mӝt tiӃng. TiӃng ViӋt có 6  
thanh (ngang, huyӅn, ngã, hӓi, sҳc, nһng) và ÿѭӧc thӇ hiӋn bҵng 5 dҩu (thanh  
ngang không có dҩu ghi).  
2.2.1.4. TiӃng hay âm tiӃt  
TiӃng do mӝt hay nhiӅu âm phát ra cùng mӝt lúc tҥo thành. TiӃng có âm  
ÿҫu, vҫn và thanh. Vҫn có âm ÿӋm, âm chính, âm cuӕi. Ví dө: “toàn” có phө âm  
ÿҫu T, âm ÿӋm O, âm chính A, âm cuӕi N và thanh huyӅn.  
Trong các yӃu tӕ tҥo thành tiӃng, âm chính và thanh lúc nào cNJng có. Còn  
âm ÿҫu, âm ÿӋm và âm cuӕi có thӇ vҳng mһt.Ví dө: à, Ӄ, ӣ v.v…  
Theo [Dien04] thì tiӃng là ÿѫn vӏ cѫ bҧn trong tiӃng ViӋt, khái niӋm “tiӃng”  
ÿã có tӯ rҩt lâu ÿã có tӯ rҩt lâu và ÿѭӧc ngѭӡi bҧn ngӳ sӱ dөng trѭӟc khi hiӇu và  
dөng khái niӋm “tӯ”.  
2.2.1.5. Hình vӏ  
Trong ngӳ pháp truyӅn thӕng hình vӏ là thành tӕ trӵc tiӃp ÿӇ nên tӯ. Do ÿó,  
hình vӏꢀÿѭӧc xem là ÿѫn vӏ tӃ bào gӕc, ÿѫn vӏ tӃ bào cӫa ngôn ngӳ, và còn ÿѭӧc  
i là “tӯ tӕ”. Theo ngôn ngӳ hӑc ÿҥi cѭѫng, hình vӏ “là ÿѫn vӏ nhӓ nhҩt có ý  
nghƭa và/hoһc có giá trӏ (chӭc năng) vӅ mһt ngӳ pháp”.  
- 17 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
Theo [Dien04], hình vӏ cӫa tiӃng ViӋt, bên cҥnh ÿһc ÿLӇm nhѭ hình vӏ cӫa  
ngôn ngӳ hӑc ÿҥi cѭѫng, còn phҧi có “hình tӕ” (là yӃu tӕ thuҫn túy hình thӭc biӇu  
hiӋn nhӳng kiӇu quan hӋ bên trong giӳa các thành tӕ trong tӯ, ta có thӇ gӑi ÿây là  
“tha hình vӏ” hay “á hình vӏ”).  
Hình vӏ tiӃng ViӋt có khi gӗm mӝt tiӃng, nhѭng cNJng có khi gӗm nhiӅu  
tiӃng tҥo thành (VD: lé ÿé, ÿӫng ÿӍnh,…).  
2.2.1.6. 7ӯ  
Theo [Hoa02] thì “Tӯ” gӗm có mӝt tiӃng hoһc mӝt tә hӧp tiӃng có ý nghƭa  
hoàn chӍnh. Căn cӭ vào cách cҩu tҥo, ta có tӯꢀÿѫn và tӯ phӭc; trong tӯ phӭc có tӯ  
ghép và tӯ láy (hay láy âm). Xét theo nguӗn gӕc, tӯ tiӃng ViӋt gӗm có tӯ thuҫn  
ViӋt và tӯ Hán ViӋt.  
7ӯꢀÿѫn: là tӯ chӍ gӗm mӝt tiӃng. VD: chӏ, anh, nhà, …  
ghép: là tӯꢀÿѭӧc tҥo thành tӯ nhiӅu tiӃng, giӳa các tiӃng có mӕi quan hӋ  
ngӳ nghƭa. Tùy theo mӕi quan hӋꢀÿó, tӯ ghép lҥi ÿѭӧc chia thành:  
· ghép ÿҷng lұp: các tiӃng trong tӯ có mӕi quan hӋ bình ÿҷng vӟi  
nhau vӅ ý nghƭa. Có thӇ các tiӃng ÿӅu rõ nghƭa (ăn ӣ, nhà cӱa, bàn  
ghӃ,…) nhѭng cNJng có khi tiӃng không rõ nghƭa (chӧ búa, giá ,…).  
· ghép chính phө: là tӯ ghép mà tiӃng này phө thuӝc vào tiӃng kia.  
Thành tӕ phө có nhiӋm vө phân loҥi, chuyên biӋt hoá cho thành tӕ  
chính. VD: tàu hoҧ, ÿѭӡng sҳt, sân bay,…  
láy: là tӯ có các tiӃng ÿѭӧc tә hӧp trên cѫ sӣ hoà phӕi ngӳ âm. Thành  
phҫn ngӳ âm có thӇꢀÿѭӧc lһp lҥi (gӑi là ÿLӋp) hoһc ÿѭӧc biӃn ÿәi (gӑi là ÿӕi).  
Ngoài ra, theo [Dien04], tiӃng ViӋt còn có mӝt loҥi tӯ là tӯ Ngүu hӧp. Ĉây  
là nhӳng tӯ mà ngѭӡi bҧn ngӳ hiӋn nay không tìm thҩy mӕi quan hӋ gì vӅ ngӳ âm  
hay ngӳ nghƭa giӳa các tiӃng cҩu tҥo nên chúng. VD: bӗ câu, bӗ hòn, sao su, hy  
sinh, kinh tӃ,…  
- 18 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
2.2.2. Quy cách ghi dҩu thanh trên chӳ viӃt  
Khi bӓ dҩu thanh theo khoa hӑc, ta phҧi tuân theo 4 quy cách sau ÿây  
u chӍ ghi trên hoһc dѭӟi nguyên âm, không ghi trên hoһc dѭӟi phө âm.  
Ví dө: láng, bӋnh, mình (ÿúng).  
u chӍ ghi trên hoһc dѭӟi nguyên âm (âm chính), không ghi trên hoһc  
Gѭӟi âm ÿӋm. Ví dө: hoà, thuӃ, quӍ, thuӷ (ÿúng); hòa, lóe, qúi, thӫy (sai).  
u chӍ ghi trên hoһc dѭӟi nguyên âm (âm chính), không ghi trên hoһc  
Gѭӟi bán âm cuӕi. Ví dө: sáu, táo, mái, lҥy (ÿúng); saú, taó, maí, laӷ (sai).  
Ĉӕi vӟi nguyên âm ÿôi:  
· Khi nguyên âm ÿôi ÿӭng ӣ cuӕi tӯ, ta ghi dҩu trên hoһc dѭӟi nguyên  
âm thӭ nhҩt: mía, lөa, nӭa.  
· Khi nguyên âm ÿôi ÿӭng ӣ giӳa tӯ, ta ghi dҩu trên hoһc dѭӟi nguyên  
âm thӭ hai: liӅn, muӕn, hѭӟng.  
Ngoài ra, hiӋn nay vүn có nhiӅu ngѭӡi thích dùng kiӇu bӓ dҩu mӻ thuұt, tӭc  
là bӓ dҩu sao cho tiӃng ÿѭӧc cân ÿӕi. Theo cách này, mӝt sӕ tiӃng có vҫn ‘oa’,  
‘oe’ ÿѭӧc bӓ dҩu trên âm ‘o’. VD: hòa, hòe,…  
2.2.3. KӃt quҧꢀÿLӅu tra lӛi chính tҧ  
Qua các bҧn ÿLӅu tra lӛi chính tҧ trong nhà trѭӡng phә thông và trên các  
phѭѫng tiӋn truyӅn thông ӣ TP. HCM, [Hoa03] kӃt luұn các loҥi lӛi sau ÿây xҧy ra  
phә biӃn nhҩt (phҫn này chӍꢀÿӅ cұp ÿӃn các lӛi chính tҧ do phát âm sai).  
2.2.3.1. thanh ÿLӋu  
TiӃng ViӋt có 6 thanh ÿLӋu thanh (ngang, huyӅn, ngã, hӓi, sҳc, nһng) thì cѭ  
dân ӣ thành phӕ không phân biӋt hai thanh hӓi, ngã. Tuy chӍ có hai dҩu nhѭng sӕ  
Oѭӧng lӛi này không ít mà rҩt phә biӃn – kӇ cҧꢀӣ nhӳng ngѭӡi có trình ÿӝ văn hoá  
cao.  
- 19 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
2.2.3.2. âm ÿҫu  
Ngѭӡi thành phӕ viӃt lүn lӝn mӝt sӕ chӳ ghi các âm ÿҫu sau ÿây: C / K, G /  
Gh, Ng / Ngh, Ch / Tr, X / S, V / D / Gi / R, W / Hw / Ngw / Qu. Trong sӕ này,  
các lӛi vӅ Ch / Tr, X / S, V / D / Gi phә biӃn hѫn.  
2.2.3.3. âm chính  
c sinh và quҫn chúng có thӇ viӃt lүn lӝn chӳ ghi các âm chính trong 48  
n sau ÿây: ai / ay / ây, ao / au / âu, ăm / âm, ăp / âp, iu / iêu / êu, im / iêm / êm /  
em, ip / iêp / êp / ep, oi / ôi / ѫi, om / ôm / ѫm, op / ôp / ѫp, ong / ông, oc / ôc, ui /  
uôi, um / uôm, up / (uôp), ѭi / ѭѫi, ѭu / ѭѫu, ѭm / ѭѫm, (ѭp) / ѭѫp.  
2.2.3.4. âm cuӕi  
dân thành phӕ có thӇ viӃt lүn lӝn chӳ ghi các âm cuӕi trong 48 vҫn sau  
ÿây: an / ang, at / ac, ăn / ăng, ăt / ăc, ân / âng, ât / âc, en / eng, ên / ênh, êt / êch, in  
/ inh, it / ich, iên / iêng, iêt / iêc, ѫn / (ѫng), ѫt / (ѫc), un / ung, ut / uc, uôn / uông,  
uôt / uôc, ѭn / ѭng, ѭt / ѭc, ѭѫn / ѭѫng, ѭѫt / ѭѫc.  
Nhѭ vұy ngѭӡi thành phӕ có khҧ năng viӃt sai chính tҧ 33% sӕ dҩu, trên  
50% sӕ chӳ ghi âm ÿҫu, 59% sӕ vҫn trong tiӃng ViӋt.  
2.2.4. Nguyên nhân  
2.2.4.1. thanh ÿLӋu  
Theo các nhà ngӳ âm hӑc, ngѭӡi ViӋt tӯ NghӋ An trӣ vào không phân biӋt  
ÿѭӧc hai thanh hӓi, ngã. Hay nói ÿúng hѫn trong phѭѫng ngӳ Trung và Nam,  
không có thanh ngã. Mһt khác, sӕ lѭӧng tiӃng mang hai thanh này khá lӟn ( ÿӝ  
1900 tiӃng mang thanh hӓi, 900 tiӃng mang thanh ngã). Do hai nguyên nhân trên,  
i vӅ dҩu rҩt thѭӡng thҩy trên các văn bҧn ӣ miӅn Nam nói chung, ӣ thành phӕ  
nói riêng.  
- 20 -  
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt  
2.2.4.2. âm ÿҫu  
Trong phѭѫng ngӳ Bҳc và Nam, có sӵ lүn lӝn giӳa các chӳ ghi âm ÿҫu Ch /  
Tr, S / X, D / Gi. Mһt khác, ngѭӡi miӅn Nam còn lүn lӝn giӳa V vӟi D, Gi và W /  
Hw / Ngw / Qu. Ngoài ra trong quy ѭӟc vӅ chӳ Quӕc ngӳ, có chӛ bҩt hӧp lí khi  
cùng mӝt âm mà ghi bҵng 2, 3 dҥng: /k/ ghi bҵng C, K, Qu; /ϻ/ ghi bҵng G, Gh; /ƾ/  
ghi bҵng Ng, Ngh. Dƭ nhiên là có nhӳng quy ÿӏnh riêng cho mӛi dҥng. Nhѭng ÿӕi  
i ngѭӡi có trình ÿӝ văn hoá chѭa cao hoһc do sѫ ý, có thӇ lүn lӝn.  
2.2.4.3. âm chính  
Có 2 nguyên nhân gây ra sӵ lүn lӝn trong 48 vҫn này. Nguyên nhân ÿҫu  
tiên là sӵ bҩt hӧp lý trong chӳ Quӕc ngӳ: nguyên âm /ă/ lҥi ÿѭӧc ghi bҵng chӳ a  
trong các vҫn ay, au; các nguyên âm ÿôi lҥi ÿѭӧc ghi bҵng các dҥng iê – yê – ia –  
ya, ѭѫ ѭa, uô – ua (bia – khuya, biên – tuyӃn, lӱa – lѭѫng, mua – muôn); âm  
ÿӋm /w/ ÿѭӧc ghi bҵng hai con chӳ u, o (ví dө: huӋ, hoa). Nguyên nhân thӭ hai là  
cách phát âm lүn lӝn trong phѭѫng ngӳ Nam Bӝꢀÿӕi vӟi các âm chính trong hӃt  
các vҫn trên.  
2.2.4.4. âm cuӕi  
Ngѭӡi miӅn Nam nói chung, ngѭӡi thành phӕ nói riêng phát âm hoàn toàn  
không phân biӋt 48 vҫn có các âm cuӕi n / ng / nh và t / c / ch. Mà sӕ tӯ mang các  
n này không nhӓ. Mһt khác, hai bán âm cuӕi /j, u/ ÿѭӧc ghi bҵng 4 con chӳ i – y  
(rong lai, lây), u – o (trong sau, sao). Do ÿó, lӛi vӅ âm cuӕi là mӝt trong nhӳng vҩn  
ÿӅ khó khҳc phөc ÿӕi vӟi cѭ dân ӣ TP. HCM.  
- 21 -  

Tải về để xem bản đầy đủ

pdf 116 trang yennguyen 22/07/2025 940
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_cach_tiep_can_dua_tren_ngu_lieu_cho_kiem_loi_chinh.pdf