Khóa luận Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng Việt
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
Châu Hɠi Duy - 0112005
CÁCH TIӂP CҰN DӴA TRÊN NGӲ LIӊU
CHO KIӆM LӚI CHÍNH TҦ TIӂNG VIӊT
KHÓA LUҰN CӰ NHÂN TIN HӐC
GIÁO VIÊN HѬӞNG DҮN
TS. Ĉinh ĈLӅn
NIÊN KHÓA 2001 – 2005
/ӡi cҧm ѫn
Ñ&Ò
Ĉҫu tiên em xin tӓ lòng biӃt ѫn sâu sҳc ÿӃn thҫy Ĉinh ĈLӅn, ngѭӡi ÿã tұn
tình giúp ÿӥ, trӵc tiӃp hѭӟng dүn và truyӅn ÿҥt nhiӅu kinh nghiӋm quý báu ÿӇ em
có thӇ thӵc hiӋn và hoàn thành ÿӅ tài này.
Em xin chân thành cҧm ѫn các thҫy cô thuӝc khoa Công nghӋ Thông tin,
trѭӡng Ĉҥi hӑc Khoa hӑc Tӵ nhiên. Các thҫy cô ÿã tұn tình dҥy dӛ, truyӅn ÿҥt cho
em nhiӅu kiӃn thӭc quý báu trong suӕt nhӳng năm Ĉҥi hӑc ÿӇ em có ÿѭӧc ngày
hôm nay.
Con xin gӣi lӡi cҧm ѫn sâu sҳc ÿӃn ông bà, cha mҽ, nhӳng ngѭӡi ÿã sinh
thành và nuôi dѭӥng con thành ngѭӡi.
Sau cùng tôi xin gӣi lӡi cҧm ѫn ÿӃn các bҥn trong nhóm VCL, ÿһc biӋt là
Eҥn VNJ Thөy – ngѭӡi ÿã tәng hӧp và cung cҩp ngӳ liӋu huҩn luyӋn ÿӇ chѭѫng
trình có thӇ hoҥt ÿӝng.
TP. Hӗ Chí Minh, tháng 7 năm 2005
Châu Hҧi Duy – 0112005
Nhұn xét cӫa Giáo viên phҧn biӋn
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
Chӳ ký cӫa GVPB
0өc lөc
0ӣꢀÿҫu..................................................................................................... 1
Chѭѫng 1.
7әng quan ........................................................................... 3
1.1. KiӇm lӛi chính tҧ cӫa tiӃng nѭӟc ngoài........................................... 4
1.1.1. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu................................... 4
1.1.1.1.
1.1.1.2.
1.1.1.3.
Phѭѫng pháp Tӯ ngӳ cҧnh........................................................ 4
Phѭѫng pháp Ĉһc trѭng lân cұn................................................ 4
Phѭѫng pháp Danh sách quyӃt ÿӏnh.......................................... 5
1.1.2. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Á..................................... 6
1.1.2.1.
1.1.2.2.
Mô hình CInsunSpell cho tiӃng Hoa......................................... 6
Phѭѫng pháp cӫa Nagata cho tiӃng Nhұt .................................. 7
1.1.3. Ĉánh giá chung vӅ các mô hình trên................................................ 9
1.2. KiӇm lӛi chính tҧ tiӃng ViӋt...........................................................10
1.2.1. Chѭѫng trình VietSpell.................................................................. 10
1.2.2. KiӇm lӛi chính tҧ dӵa vào phân tích cú pháp ................................. 11
1.2.3. KiӇm lӛi chính tҧ bҵng mô hình lѭӟi tӯ ......................................... 12
1.2.4. Word 2003 phiên bҧn tiӃng ViӋt.................................................... 13
Chѭѫng 2.
&ѫ sӣ lý thuyӃt ...................................................................14
2.1. Chuҭn chính tҧ...............................................................................15
2.2. 0ӝt sӕ kiӃn thӭc cѫ bҧn vӅ chính tҧ tiӃng ViӋt ..............................15
2.2.1. Các yӃu tӕ cӫa tiӃng và chӳ viӃt: ................................................... 15
2.2.1.1.
2.2.1.2.
2.2.1.3.
2.2.1.4.
2.2.1.5.
2.2.1.6.
Âm......................................................................................... 16
Chӳ cái................................................................................... 17
Thanh và dҩu.......................................................................... 17
TiӃng hay âm tiӃt.................................................................... 17
Hình vӏ ................................................................................... 17
7ӯ .......................................................................................... 18
2.2.2. Quy cách ghi dҩu thanh trên chӳ viӃt............................................. 19
2.2.3. .Ӄt quҧꢀÿLӅu tra lӛi chính tҧ........................................................... 19
2.2.3.1.
2.2.3.2.
2.2.3.3.
2.2.3.4.
9Ӆ thanh ÿLӋu......................................................................... 19
9Ӆ âm ÿҫu.............................................................................. 20
9Ӆ âm chính........................................................................... 20
9Ӆ âm cuӕi............................................................................. 20
2.2.4. Nguyên nhân ................................................................................. 20
2.2.4.1.
2.2.4.2.
2.2.4.3.
2.2.4.4.
9Ӆ thanh ÿLӋu......................................................................... 20
9Ӆ âm ÿҫu.............................................................................. 21
9Ӆ âm chính........................................................................... 21
9Ӆ âm cuӕi............................................................................. 21
2.3. Ĉһc ÿLӇm chung cӫa mӝt hӋ kiӇm lӛi chính tҧ ...............................22
2.3.1. Các chӭc năng chính ..................................................................... 22
2.3.2. Các loҥi lӛi chính tҧ....................................................................... 22
2.3.3. Nguyên nhân gây ra lӛi chính tҧ .................................................... 23
2.3.4. Các sai lҫm cӫa trình kiӇm lӛi........................................................ 24
2.4. &ѫ sӣ tin hӑc .................................................................................25
2.4.1. Luұt Bayes .................................................................................... 25
2.4.2. Mô hình N-Gram tәng quát ........................................................... 26
2.4.2.1.
2.4.2.2.
2.4.2.3.
Ѭӟc lѭӧng bҵng N-Gram........................................................ 26
Huҩn luyӋn N-Gram............................................................... 28
Làm mӏn................................................................................. 29
2.4.3. Tách tӯ.......................................................................................... 30
2.4.3.1.
2.4.3.2.
Khӟp tӕi ÿa ............................................................................ 31
WFST..................................................................................... 32
Mô hình..............................................................................33
Chѭѫng 3.
3.1. Mô hình tәng quát .........................................................................34
3.2. TiӅn xӱ lý......................................................................................37
3.2.1. Tách cөm tiӃng.............................................................................. 37
3.2.2. Tách tiӃng...................................................................................... 37
3.2.3. /ӑc “nhiӉu”................................................................................... 38
3.2.3.1.
3.2.3.2.
3.2.3.3.
Nhұn diӋn tiӃng Anh .............................................................. 38
Nhұn diӋn tӯ viӃt tҳt............................................................... 38
Nhұn diӋn phiên âm................................................................ 38
3.3. KiӇm lӛi non-word ........................................................................39
3.3.1. Phát hiӋn lӛi .................................................................................. 39
3.3.2. 6ӱa lӛi........................................................................................... 39
3.3.2.1.
3.3.2.2.
3.3.2.3.
6ӱa lӛi phát âm ...................................................................... 39
6ӱa lӛi nhұp liӋu..................................................................... 40
Các lӛi khác ........................................................................... 43
3.4. KiӇm lӛi real-word ........................................................................43
3.4.1. Phát hiӋn lӛi bҵng bigram.............................................................. 44
3.4.1.1.
3.4.1.2.
3.4.1.3.
3.4.1.4.
Ý tѭӣng chính ........................................................................ 44
.Ӄt hӧp vӟi trigram................................................................ 45
Làm mӏn................................................................................. 47
Heuristic hҥn chӃ lӛi tích cӵc ................................................. 47
3.4.2. Phát hiӋn lӛi bҵng FMM và n-gram ............................................... 48
3.5. /ұp danh sách ӭng viên sӱa lӛi......................................................50
3.6. +ӑc trong quá trình kiӇm lӛi..........................................................51
Chѭѫng 4.
Cài ÿһt thӵc nghiӋm ..........................................................52
4.1. Cài ÿһt ...........................................................................................53
4.1.1. Chuҭn hoá tiӃng............................................................................. 53
4.1.1.1.
4.1.1.2.
4.1.1.3.
Mã hoá các chӳ cái................................................................. 53
Mã hoá tiӃng .......................................................................... 53
&ҩu trúc lӟp Tieng.................................................................. 55
4.1.2. Mã hoá tӯ và n-gram ..................................................................... 57
4.1.2.1.
4.1.2.2.
4.1.2.3.
Mã hoá tӯ............................................................................... 57
Mã hoá n-gram....................................................................... 58
&ҩu trúc lӟp Tu ...................................................................... 59
4.1.3. &ҩu trúc dӳ liӋu cho các tӯꢀÿLӇn và các bӝ n-gram......................... 59
4.1.4. Phát sinh ӭng viên ......................................................................... 60
4.1.4.1.
4.1.4.2.
Phát sinh các tiӃng gҫn giӕng ................................................. 60
Phát sinh các tӯ gҫn giӕng...................................................... 61
4.1.5. KiӇm lӛi chính tҧ........................................................................... 64
4.1.5.1.
4.1.5.2.
4.1.5.3.
Dò tìm lӛi............................................................................... 64
6ҳp xӃp các ӭng viên sӱa lӛi .................................................. 66
+ӑc trong quá trình kiӇm lӛi................................................... 66
4.1.6. Huҩn luyӋn.................................................................................... 66
4.1.7. Tích hӧp vào Word........................................................................ 69
4.1.8. Các xӱ lý khác............................................................................... 70
4.1.8.1.
4.1.8.2.
%ҧng mã tiӃng ViӋt................................................................. 70
Linh tinh................................................................................. 70
4.1.9. Vài hình ҧnh vӅ Chѭѫng trình........................................................ 71
4.2. Thӱ nghiӋm và Ĉánh giá ...............................................................73
4.2.1. Các tham sӕ thӱ nghiӋm ................................................................ 73
4.2.2. .Ӄt quҧ.......................................................................................... 74
4.2.3. Nhұn xét........................................................................................ 79
4.2.4. So sánh vӟi VietSpell .................................................................... 80
4.2.4.1.
4.2.4.2.
Khҧ năng phát hiӋn lӛi............................................................ 80
Khҧ năng ÿӅ nghӏ sӱa lӛi........................................................ 80
4.3. Ĉánh giá và KӃt luұn .....................................................................88
4.4. +ѭӟng phát triӇn............................................................................89
Tài liӋu tham khҧo...................................................................................90
Phө lөc ....................................................................................................92
Danh sách hình
Hình 1: Dò tìm lӛi bҵng ma trұn tiӃng nhҫm lүn.................................................... 8
Hình 2: Mô hình tәng quát.................................................................................. 36
Hình 3: Bigram ÿѭӧc mӣ rӝng vӅ phía sau.......................................................... 47
Hình 4: Mã tiӃng................................................................................................. 54
Hình 5: Mã tӯ ..................................................................................................... 57
Hình 6: Mã n-gram ............................................................................................. 58
Hình 7: Sѫꢀÿӗ kiӇm lӛi bҵng FMM và n-gram..................................................... 65
Hình 8: Quá trình kiӇm lӛi .................................................................................. 71
Hình 9: Quá trình kiӇm lӛi hoàn tҩt..................................................................... 72
Hình 10: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 5.33 .................................................... 75
Hình 11: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 4.95 .................................................... 76
Hình 12: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 4.73 .................................................... 77
Hình 13: KӃt quҧ thӱ nghiӋm vӟi P_bi' = 4.59 .................................................... 78
Danh sách bҧng
%ҧng 1: Các thành phҫn dӉ nhҫm lүn khi phát âm............................................... 39
%ҧng 2: Phím gӕc và các phím lân cұn................................................................ 42
%ҧng 3: KӃt quҧ thӱ nghiӋm................................................................................ 74
Danh sách thuұt toán
Thuұt toán 1: Phát sinh tiӃng ӭng viên dӵa vào lӛi phát âm................................. 40
Thuұt toán 2: Phát hiӋn lӛi bҵng bigram.............................................................. 45
Thuұt toán 3: KӃt hӧp bigram và trigram ÿӇ phát hiӋn lӛi ................................... 46
Thuұt toán 4: Phát hiӋn lӛi bҵng FMM và n-gram............................................... 49
Thuұt toán 5: Phát sinh tӯꢀӭng viên..................................................................... 62
Thuұt toán 6: Binary Search cҧi tiӃn.................................................................... 63
Thuұt toán 7: Quá trình huҩn luyӋn..................................................................... 67
Thuұt toán 8: Các bѭӟc tҥo n-gram trong giai ÿRҥn huҩn luyӋn........................... 68
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
0ӣꢀÿҫu
Ĉһt vҩn ÿӅ
Là mӝt chӳ viӃt ghi âm, chӳ viӃt tiӃng ViӋt cNJng có rҩt nhiӅu quy ÿӏnh vӅ
cách kӃt hӧp tӯng ký tӵ cӫa bҧng chӳ cái vӟi nhau ÿӇ tҥo thành nhӳng tӯ có nghƭa,
Jӑi là chính tҧ. ViӋc dùng ÿúng chính tҧ rҩt quan trӑng, nhҩt là trong các văn bҧn
hành chính. Mӝt văn bҧn sai chính tҧ có thӇ gây khó chӏu cho ngѭӡi ÿӑc, làm
ngѭӡi ÿӑc không tin tѭӣng vào trình ÿӝ cӫa chính ngѭӡi ÿã tҥo ra văn bҧn ÿó.
Nhѭng quan trӑng hѫn hӃt, viӋc sai chính tҧ có thӇ làm ngѭӡi tiӃp nhұn hiӇu sai
Qӝi dung cҫn truyӅn ÿҥt.
Trѭӟc ÿây, viӋc kiӇm lӛi chính tҧ phҧi hoàn toàn dӵa vào sӭc ngѭӡi. Tuy
nhiên, xã hӝi càng phát triӇn, lѭӧng thông tin cҫn truyӅn ÿҥt ngày càng nhiӅu, viӋc
kiӇm lӛi chính tҧ “thӫ công” rҩt mҩt thӡi gian và công sӭc.
*ҫn ÿây, cùng vӟi sӵ phát triӇn nhanh chóng cӫa công nghӋ thông tin,
Pҥng lѭӟi hành chánh ÿLӋn tӱ ngày càng ÿѭӧc mӣ rӝng và mӝt nhu cҫu mӟi ÿang
ÿѭӧc ÿһt ra: làm sao ÿӇ máy tính có thӇ thay thӃ (mӝt phҫn hay toàn bӝ) cho con
ngѭӡi trong viӋc kiӇm lӛi chính tҧ, hay nói cách khác là làm sao ÿӇ xây dӵng mӝt
chѭѫng trình bҳt lӛi chính tҧ tӵꢀÿӝng.
Ngoài ra, hiӋn nay trong nhiӅu văn bҧn khoa hӑc cӫa tiӃng ViӋt thѭӡng có
dùng thêm tiӃng Anh ÿӇ chú thích cho các thuұt ngӳ hoһc cho các tӯ không thӇ
Gӏch sát nghƭa. Do ÿó, mӝt chѭѫng trình kiӇm lӛi chính tҧ tӯꢀÿӝng cho các văn bҧn
có cҧ tiӃng ViӋt và tiӃng Anh là rҩt cҫn thiӃt.
Thêm vào ÿó, viӋc kiӇm lӛi chính tҧ còn có thӇꢀÿѭӧc dùng trong giai ÿRҥn
tiӅn xӱ lý cӫa rҩt nhiӅu bài toán khác vӅ xӱ lý ngôn ngӳ tӵ nhiên, ví dө nhѭ: phân
loҥi văn bҧn, tóm tҳt văn bҧn, dӏch tӵꢀÿӝng, nhұn dҥng chӳ viӃt, nhұn dҥng giӑng
nói, …
Tuy nhiên, trong khi bài toán kiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu
ÿã ÿѭӧc giҧi quyӃt mӝt cách khá trӑn vҽn, viӋc kiӇm lӛi chính tҧ cho tiӃng ViӋt lҥi
- 1 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Jһp nhiӅu khó khăn. Vì vұy, cho ÿӃn nay, mһc dù ÿã có vài công trình vӅꢀÿӅ tài
này nhѭng hҫu nhѭ chѭa có công trình nào ÿѭӧc áp dөng vào thӵc tӃ.
0өc tiêu cӫa ÿӅ tài
Nhѭꢀÿã nói trên, mӝt chѭѫng trình kiӇm lӛi chính tҧ tӵꢀÿӝng là rҩt cҫn thiӃt
trong hoàn cҧnh hiӋn nay. Tuy ÿã có mӝt sӕ công trình vӅꢀÿӅ tài này nhѭng hҫu hӃt
chѭa áp dөng ÿѭӧc vào thӵc tӃ. Tӯ nhӳng ÿLӅu kiӋn trên, tôi ÿã chӑn kiӇm lӛi
chính tҧ làm luұn văn tӕt nghiӋp cӫa mình.
0өc tiêu sau cùng cӫa ÿӅ tài này là mӝt chѭѫng trình kiӇm lӛi chính tҧ
hoàn chӍnh, có thӇꢀÿѭӧc sӱ dөng ngay trong thӵc tӃ. ĈӇꢀÿҥt ÿѭӧc yêu cҫu này,
ngoài hiӋu quҧ thӵc tӃ, các mô hình ngôn ngӳꢀÿѭӧc áp dөng ӣꢀÿây không nên quá
Fҫu kǤ, phӭc tҥp hoһc ÿòi hӓi nhiӅu không gian nhӟ.
Tù nhӳng yêu cҫu trên, tôi chӑn n-gram ti͇ng làm hѭӟng tiӃp cұn chính.
Mô hình n-gram có mӝt sӕꢀѭu ÿLӇm, ÿó là không quá phӭc tҥp trong xӱ lý, và nӃu
ÿѭӧc tә chӭc cҩu trúc dӳ liӋu tӕt, lѭӧng bӝ nhӟ chiӃm dөng là chҩp nhұn ÿѭӧc.
Trong mô hình cӫa ÿӅ tài này, n-gram ÿѭӧc dùng làm phѭѫng tiӋn ÿӇ tính toán các
xác suҩt, các mӕi liên kӃt giӳa nhӳng tiӃng trong văn bҧn, dò tìm ra nhӳng vùng bӏ
Oӛi, và sau cùng ÿѭa ra các ÿӅ nghӏ sӱa chӳa cho ngѭӡi dùng lӵa chӑn.
%ӕ cөc luұn văn
Luұn văn này gӗm 4 chѭѫng vӟi nӝi dung chính nhѭ sau:
· Chѭѫng 1: Trình bày tình hình phát triӇn cӫa kiӇm lӛi chính tҧ trên thӃ
giӟi, ÿánh giá mӝt sӕ phѭѫng pháp ÿã ÿѭӧc công bӕ.
· Chѭѫng 2: Các vҩn ÿӅ lý thuyӃt ÿѭӧc dùng ÿӃn trong luұn văn, gӗm
lý thuyӃt ngôn ngӳ hӑc và tin hӑc.
· Chѭѫng 3: Mô hình và phѭѫng pháp ÿѭӧc sӱ dөng trong luұn văn.
· Chѭѫng 4: Tóm tҳt quá trình cài ÿһt, cùng vӟi các thӱ nghiӋm và ÿánh
giá vӅ luұn văn cùng hѭӟng phát triӇn sau này.
Ngoài ra còn có phҫn tài liӋu tham khҧo và phө lөc.
- 2 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Chʦʤng 1. 7˯ng quan
7ӯ nhӳng năm 60 cӫa thӃ kӹ XX, bài toán kiӇm lӛi chính tӵꢀÿӝng bҵng
máy tính ÿã nhұn ÿѭӧc sӵ quan tâm cӫa các nhà khoa hӑc. Cho ÿӃn nay, rҩt nhiӅu
thuұt toán, mô hình ÿӇ giҧi quyӃt bài toán này ÿã ÿѭӧc công bӕ, tuy nhiên hҫu hӃt
chúng ÿӅu tұp trung vào các ngôn ngӳ biӃn cách cӫa châu Âu nhѭ tiӃng Anh, tiӃng
Pháp,… còn kiӇm lӛi chính tҧ cho các ngôn ngӳꢀÿѫn lұp cӫa châu Á nhѭ tiӃng
Hoa, tiӃng ViӋt,… chӍ mӟi bҳt ÿҫu ÿѭӧc nghiên cӭu gҫn ÿây.
HiӋn nay, vҩn ÿӅꢀÿang ÿѭӧc quan tâm nhҩt trong kiӇm lӛi chính tҧ là kiӇm
Oӛi chính tҧ cҧm ngӳ cҧnh. Khác vӟi các phѭѫng pháp kiӇm lӛi chính tҧ truyӅn
thӕng, vӕn xem xét các tӯ mӝt cách ÿӝc lұp nhau và chӫ yӃu dӵa vào tӯꢀÿLӇn,
trong kiӇm lӛi chính tҧ cҧm ngӳ cҧnh, ÿӇ quyӃt ÿӏnh mӝt tӯ có bӏ sai chính tҧ hay
không, hӋ thӕng phҧi xét ÿӃn các ÿһc trѭng xung quanh nó nhѭ tӯ lân cұn, tӯ loҥi,
trұt tӵ tӯ,… Do ÿó, phѭѫng pháp kiӇm lӛi cҧm ngӳ cҧnh có thӇ phát hiӋn ÿѭӧc
nhӳng lӛi sai vӅ cách dùng tӯ, tӭc là tӯ vӕn không bӏ sai chính tҧ, nhѭng trong
hoàn cҧnh cӫa câu văn thì viӋc dùng nó là không hӧp lý. Tuy nhiên, ÿi cùng vӟi
hiӋu quҧ cao là sӵ khó khăn trong cách tiӃp cұn.
'ӵa vào loҥi hình ngôn ngӳ (biӃn cách hay ÿѫn lұp), các phѭѫng pháp
kiӇm lӛi chính tҧ có thӇꢀÿѭӧc chia thành hai “trѭӡng phái” chính: kiӇm lӛi cho các
ngôn ngӳ châu Âu và kiӇm lӛi cho các ngôn ngӳ châu Á.
Phҫn ÿҫu cӫa chѭѫng này xin giӟi thiӋu mӝt vài phѭѫng pháp kiӇm lӛi
chính tҧꢀÿã ÿѭӧc công bӕ và ӭng dөng thành công trong thӵc tӃ cho các ngôn ngӳ
Qѭӟc ngoài. Phҫn cuӕi chѭѫng sӁꢀÿLӇm qua các công trình ÿã ÿѭӧc công bӕ cho
kiӇm lӛi tiӃng ViӋt, cùng vӟi mӝt sӕ nhұn xét vӅ chúng.
- 3 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
1.1.
Ki͛m lͯi chính t̻ cͿa ti͗ng ńͳc ngoài
1.1.1. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu
Nhѭꢀÿã nói trên, bài toán kiӇm lӛi chính tҧ cho các ngôn ngӳ châu Âu, nhҩt
là tiӃng Anh, ÿã ÿѭӧc tìm hiӇu tӯ rҩt sӟm, vӟi nhiӅu mô hình, phѭѫng pháp khác
nhau nhѭ Tӯ ngӳ cҧnh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuy
nhiên, phѭѫng pháp kiӇm lӛi chính tҧ cҧm ngӳ cҧnh nhұn ÿѭӧc nhiӅu nhà khoa
Kӑc quan tâm nhҩt do nó có nhiӅu ѭu ÿLӇm so vӟi cách kiӇm lӛi chӍ dӵa vào tӯ
ÿLӇn.
1.1.1.1. Phѭѫng pháp Tӯ ngӳ cҧnh1
0ӝt trong nhӳng ÿҫu mӕi ÿӇ phân biӋt mӝt tӯ vӟi nhӳng tӯ nhұp nhҵng vӟi
nó là các tӯ xung quanh nó trong câu. Ví dө, khi ÿang xem xét ÿӇ chӑn lӵa giӳa
dessert và desert, nӃu có các tӯ nhѭ arid, sand, sun,… gҫn ÿó, ta sӁ chӑn desert,
còn nӃu gһp các tӯ nhѭ chocolate, delicious,… gҫn ÿó, ta sӁ chӑn dessert. Phѭѫng
pháp Tӯ ngӳ cҧnh ÿѭӧc Golding xây dӵng dӵa trên nhұn xét này. Trong giai ÿRҥn
Kӑc, vӟi mӛi tӯ thѭӡng bӏ viӃt sai chính tҧ, hӋ thӕng sӁ ghi nhӟ nhӳng tӯ thѭӡng
xuҩt hiӋn xung quanh nó trong ngӳ liӋu. Khi chҥy thӵc tӃ, vӟi mӛi tӯ nghi ngӡ, hӋ
thӕng sӁ xem xét các tӯ lân cұn vӟi nó, sau ÿó chӑn ra tӯ thích hӧp nhҩt ÿӇ làm tӯ
thay thӃ.
1.1.1.2. Phѭѫng pháp Ĉһc trѭng lân cұn2
Phѭѫng pháp Tӯ ngӳ cҧnh rҩt tӕt trong viӋc phát hiӋn các nguyên tҳc chung
nhҩt phө thuӝc vào nhӳng tӯ lân cұn, nhѭng không quan tâm ÿӃn trұt tӵ cӫa
chúng. Trong trѭӡng hӧp ÿó, các phѭѫng pháp Ĉһc trѭng lân cұn tӓ ra rҩt thích
Kӧp ÿӇ rút ra các quy luұt vӅ trұt tӵ.
1 Context words
2 Collocations
- 4 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
0ӝt ÿһc trѭng lân cұn là mӝt mүu các yӃu tӕ vӅ cú pháp xung quanh tӯ
ÿang xét. Có hai ÿһc trѭng thѭӡng ÿѭӧc sӱ dөng trong phѭѫng pháp này, ÿó là
nhãn tӯ loҥi và tӯ lân cұn.
Phѭѫng pháp Ĉһc trѭng lân cұn ÿѭӧc thӵc hiӋn theo cách thӭc tѭѫng tӵ vӟi
phѭѫng pháp Tӯ ngӳ cҧnh. Ý tѭӣng chính ӣꢀÿây là phân biӋt nhӳng tӯ dӉ bӏ dùng
nhҫm lүn vӟi nhau dӵa vào các ÿһc trѭng lân cұn cӫa chúng. Mӛi ÿһc trѭng lân
Fұn cung cҩp vài dҩu hiӋu vӟi khҧ năng quyӃt ÿӏnh3 khác nhau cho nhӳng tӯ trong
Wұp nhҫm lүn. Nhӳng dҩu hiӋu này ÿѭӧc kӃt hӧp vӟi nhau và tính toán theo mӝt
luұt quyӃt ÿӏnh (thѭӡng là Bayes). Sau cùng, tӯ nào có ÿӝ hӧp lý cao nhҩt sӁꢀÿѭӧc
chӑn.
Tuy nhiên, phѭѫng pháp Ĉһc trѭng lân cұn cNJng có nhѭӧc ÿLӇm, ÿó là khi
Pӝt tӯ có các ÿһc trѭng mâu thuүn hoһc hàm chӭa nhau, gӑi là xung ÿ͡t4. ĈӇ
phѭѫng pháp này hoҥt ÿӝng tӕt, các ÿһc trѭng xung ÿӝt vӟi nhau cҫn ÿѭӧc phát
hiӋn và loҥi bӓ. HiӋn nay, ngoài heuristic, vүn chѭa có mӝt phѭѫng pháp hoàn
chӍnh ÿӇ giҧi quyӃt vҩn ÿӅ này.
1.1.1.3. Phѭѫng pháp Danh sách quyӃt ÿӏnh
Danh sách quyӃt ÿӏnh là sӵ kӃt hӧp cӫa Tӯ ngӳ cҧnh và Ĉһc trѭng lân cұn
ÿӇ tұn dөng ѭu ÿLӇm cӫa cҧ hai phѭѫng pháp này: Tӯ ngӳ cҧnh sӁ rút ra các
nguyên tҳc tӕt nhҩt theo cách ÿӝc lұp vӟi trұt tӵ tӯ, còn Ĉһc trѭng lân cұn ÿѭӧc
dùng ÿӇ rút ra các nguyên tҳc phө thuӝc vào trұt tӵ.
Phѭѫng pháp này ÿòi hӓi phҧi xây dӵng mӝt danh sách rҩt lӟn các ÿһc
trѭng - ӣꢀÿây là các tӯ ngӳ cҧnh và các ÿһc trѭng lân cұn. Nhӳng ÿһc trѭng ÿѭӧc
Vҳp xӃp theo khҧ năng quyӃt ÿӏnh giҧm dҫn, trong ÿó khҧ năng quyӃt ÿӏnh cӫa mӛi
ÿһc trѭng phҧn ánh ÿӝ tin cұy cӫa nó trong viӋc ra quyӃt ÿӏnh. Mӝt tӯ nhұp nhҵng
VӁꢀÿѭӧc phân loҥi bҵng cách duyӋt qua danh sách và so khӟp tӯng ÿһc trѭng vӟi
ngӳ cҧnh. Ĉһc trѭng phù hӧp ÿҫu tiên sӁꢀÿѭӧc dùng ÿӇ phân loҥi tӯꢀÿang xét.
3 Strength
4 Conflict
- 5 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Vì Danh sách quyӃt ÿӏnh ÿѭa ra lӡi giҧi chӍ dӵa vào mӝt ÿһc trѭng mҥnh
nhҩt, hiӋu suҩt cӫa nó phҫn lӟn tùy thuӝc vào cách xác ÿӏnh khҧ năng quyӃt ÿӏnh
cho nhӳng ÿһc trѭng. Ĉây chính là nhѭӧc ÿLӇm cӫa phѭѫng pháp này, bӣi vì viӋc
tìm ra mӝt công thӭc ÿánh giá tәng quát là rҩt khó.
Do ÿó, Danh sách quyӃt ÿӏnh có thӇꢀÿѭӧc cҧi tiӃn bҵng cách dùng nhiӅu ÿһc
trѭng hѫn. Theo ÿó, ÿӇ lӵa chӑn các tӯ tӕt nhҩt, hӋ thӕng sӁ duyӋt qua toàn bӝ
danh sách ÿһc trѭng, so sánh tӯng ÿһc trѭng vӟi ngӳ cҧnh, rӗi kӃt hӧp chúng ÿӇ
ÿѭa ra lӡi giҧi sau cùng. ViӋc kӃt hӧp các ÿһc trѭng có thӇꢀÿѭӧc thӵc hiӋn nhӡ vào
Pӝt bӝ phân loҥi, ví dө nhѭ nhѭ Bayes.
1.1.2. KiӇm lӛi chính tҧ cho các ngôn ngӳ châu Á
*ҫn ÿây, kiӇm lӛi chính tҧ cho các ngôn ngӳ châu Á ÿã ÿѭӧc quan tâm và
ÿҥt ÿѭӧc mӝt sӕ thành tӵu. Không nhѭ các ngôn ngӳ châu Âu, viӋc kiӇm lӛi chính
Wҧ cho các ngôn ngӳꢀÿѫn lұp cӫa châu Á gһp nhiӅu khó khăn. Nguyên nhân chӫ
\Ӄu là do các ngôn ngӳ cӫa châu Á nhѭ tiӃng Hoa, tiӃng Nhұt, tiӃng Hàn,… không
có ranh giӟi tӯ rõ ràng. ĈӇ áp dөng nhӳng mô hình kiӇm lӛi chính tҧ cҧm ngӳ
Fҧnh cӫa các ngôn ngӳ châu Âu, văn bҧn tiӃng châu Á cҫn ÿѭӧc xác ÿӏnh ranh giӟi
Wӯ. ViӋc xác ÿӏnh ranh giӟi tӯ ngay khi văn bҧn ÿҫu vào là ÿúng chính tҧꢀÿã là
không ÿѫn giҧn. Vӟi văn bҧn ÿҫu vào sai chính tҧ, bài toán tách tӯ càng khó khăn
Kѫn.
Do ÿó, các nhà ngôn ngӳ hӑc – tin hӑc cӫa châu Á ÿã ÿӅ ra mӝt sӕ mô hình
Pӟi cho kiӇm lӛi chính tҧ. Phҫn này sӁꢀÿLӇm qua mӝt vài mô hình trong sӕꢀÿó.
1.1.2.1. Mô hình CInsunSpell cho tiӃng Hoa
Mô hình kiӇm lӛi này có tên là CInsunSpell [JX00] ÿѭӧc ÿӅ xuҩt bӣi Li
Jianhua và Wang Xiaolong, là sӵ kӃt hӧp giӳa Trigram ti͇ng, phѭѫng pháp ѭӟc
Oѭӧng Bayes và Phân phӕi trӑng sӕ tӵꢀÿӝng5, ÿѭӧc dùng cho sӱa lӛi chính tҧ tiӃng
Hoa.
5 Automatic Weight Distribution
- 6 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Trigram ÿѭӧc dùng trong bѭӟc kiӇm lӛi. Theo ÿó, mӝt “cӱa sӕ” trigram
kích thѭӟc 5 ÿѭӧc dùng ÿӇꢀÿánh giá mӕi liên kӃt giӳa các tiӃng vӟi nhau. Cӱa sә
trigram thӵc ra là mӝt chuӛi con, vӟi tiӃng cҫn xét ӣ trung tâm, và 4 tiӃng lân cұn
ӣ xung quanh (2 tiӃng liӅn trѭӟc và 2 tiӃng liӅn sau). TiӃng trung tâm ÿѭӧc xem là
sai chính tҧ khi hai liên kӃt trѭӟc và sau nó ÿӅu yӃu. Liên kӃt ÿѭӧc xem là yӃu khi
có có giá trӏ nhӓ hѫn mӝt giá trӏ ngѭӥng.
+ҫu hӃt các mô hình dùng n-gram ÿӅu gһp trӣ ngҥi chính, ÿó là dӳ liӋu quá
thѭa thӟt, dүn ÿӃn các xác suҩt n-gram sӁ rҩt thҩp (thѭӡng có giá trӏ bҵng 0). ĈӇ
khҳc phөc, các tác giҧ cӫa CInsunSpell dùng thêm bigram cùng vӟi làm mӏn bҵng
cách mӣ rӝng cӱa sә bigram tӯ 3 tiӃng thành 4 tiӃng vӅ phía sau ÿӇ nâng cao hiӋu
suҩt phát hiӋn lӛi.
%ӝ phân loҥi Bayes ÿѭӧc dùng trong bѭӟc sӱa lӛi. Ý tѭӣng chính là tìm
chuӛi thích hӧp nhҩt (có xác suҩt cao nhҩt) tӯ chuӛi ÿҫu vào ÿӇ làm phѭѫng án sӱa
Oӛi. ĈӇꢀÿánh giá sӵ phù hӧp cӫa chuӛi sӱa lӛi, Bayes ÿѭӧc kӃt hӧp vӟi phѭѫng
pháp Phân phӕi trӑng sӕ tӵꢀÿӝng dӵa trên Sӕ phép biӃn ÿәi ít nhҩt6 [WF74] ÿӇ
biӃn chuӛi ÿҫu vào thành chuӛi sӱa lӛi.
Theo thӱ nghiӋm cӫa các tác giҧ, CInsunSpell có tӹ lӋ phát hiӋn lӛi là
khoҧng 60%, tӹ lӋ lӛi tích cӵc khoҧng 10%. Hai giá trӏ này thay ÿәi tùy vào các
ngѭӥng ÿѭӧc dùng trong hӋ thӕng.
1.1.2.2. Phѭѫng pháp cӫa Nagata cho tiӃng Nhұt
Phѭѫng pháp cӫa Nagata [Na98] ÿѭӧc áp dөng ÿҫu tiên cho các hӋ thӕng
nhұn dҥng chӳ viӃt (OCR). Tuy nhiên nó vүn có thӇꢀÿѭӧc dùng ÿӇ sӱa các lӛi
chính tҧ do con ngѭӡi gây ra.
Phѭѫng pháp cӫa Masaaki gӗm hai giai ÿRҥn: Trong giai ÿRҥn thӭ nhҩt, câu
nhұp vào ÿѭӧc chia thành nhiӅu chuӛi tiӃng, vӟi ÿLӅu kiӋn mӛi chuӛi tiӃng tҥo
thành mӝt tӯ có trong tӯꢀÿLӇn hoһc Jҫn giӕng vӟi ít nhҩt mӝt tӯ nào ÿó trong tӯ
ÿLӇn. Trong giai ÿRҥn thӭ hai, bҵng các phѭѫng pháp thӕng kê, n chuӛi tӯ tӕt nhҩt
6 Minimun edit distance
- 7 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
ꢁÿѭӧc tҥo thành tӯ nhӳng “tӯ” ÿã có ӣ giai ÿRҥn trѭӟc) ÿѭӧc chӑn làm ӭng viên
Vӱa lӛi. Dѭӟi ÿây là ví dө minh hӑa cho cách tiӃp cұn này:
Câu ÿҫu vào:
Tôi lam viӋc ӣ
Ma trұn tiӃng nhҫm lүn:
hӧp tát
xҧ
mua bán
lám
làm
lãm
lҥm
hӑp tác
tҥt
sҧ
báng
xã
Tôi
lam
lám
làm
lãm
Oҥm
viӋc
ӣ
Kӧp
tát
tác
Wҥt
tác
tác
[ҧ
Vҧ
xã
mua
mua
bán
Kӑp
Kӝp
Kӧp
Kӧp
báng
viӋc
xã
Hình 1: Dò tìm lӛi bҵng ma trұn tiӃng nhҫm lүn
ĈӇ có thӇ chia chuӛi ÿҫu vào thành các chuӛi con mӝt cách hӧp lý, hӋ
thӕng dùng hai phѭѫng pháp, ÿó là Mô hình ngôn ngӳ thӕng kê và Thuұt toán
Forward-DB Backward A* ÿӇ tách tӯ.
Ngôn ngӳ thӕng kê ÿѭӧc dùng ÿӇ tính xác suҩt kӃt hӧp cӫa chuӛi con và
chuӛi nhãn tӯ loҥi. Xác suҩt kӃt hӧp này thӵc ra là tích xác suҩt xuҩt hiӋn cӫa
chuӛi con vӟi xác suҩt xuҩt hiӋn chuӛi nhãn trong ngӳ liӋu huҩn luyӋn. Sau cùng
Thuұt toán Forward-DB Backward A* [Na94] ÿѭӧc dùng ÿӇꢀÿánh giá các xác suҩt
- 8 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
NӃt hӧp ÿó, sau cùng tìm ra cách kӃt hӧp có xác suҩt lӟn nhҩt làm lӡi giҧi cho bài
toán tách tӯ.
Theo ÿánh giá cӫa tác giҧ, phѭѫng pháp này giúp cҧi thiӋn ÿӝ chính xác cӫa
KӋ OCR tӯ 90% lên 96%, hiӋu suҩt tách tӯ là 93%.
1.1.3. Ĉánh giá chung vӅ các mô hình trên
Các phѭѫng pháp Tӯ ngӳ cҧnh, Ĉһc trѭng lân cұn và Danh sách quyӃt ÿӏnh
ÿã ÿѭӧc ӭng dөng rҩt thành công cho các ngôn ngӳ châu Âu nhѭ tiӃng Anh, tiӃng
Pháp, tiӃng Tây Ban Nha,… Tuy nhiên ÿӇ áp dөng các mô hình ÿó cho tiӃng ViӋt,
Yăn bҧn ÿҫu vào cҫn phҧi ÿѭӧc tách tӯ bҵng mӝt mô hình tách tӯ mӡ. Mô hình
tách tӯ mӡ không tӕt sӁ làm giҧm ÿáng kӇ hiӋu suҩt chung cӫa toàn hӋ thӕng. Cho
ÿӃn nay vүn chѭa có mӝt mô hình tách tӯ mӡ hoàn chӍnh cho tiӃng ViӋt. Ngoài ra,
Kҫu hӃt các phѭѫng pháp cho tiӃng Anh ÿӅu ÿòi hӓi ngӳ liӋu ÿã ÿѭӧc gán nhãn tӯ
loҥi, trong khi ÿӃn nay vүn chѭa có kho ngӳ liӋu tiӃng ViӋt thoҧ mãn yêu cҫu này.
Thêm vào ÿó, các phѭѫng pháp nhѭ Danh sách quyӃt ÿӏnh và Bayes ÿòi hӓi hӋ
thӕng phҧi thӵc hiӋn nhiӅu thao tác xӱ lý khá phӭc tҥp ÿӇ nhұn ra tӯ sai chính tҧ
nên cNJng khó ÿѭӧc áp dөng vào thӵc tӃ. Do ÿó chúng tôi chӍ xem nhӳng mô hình
Fӫa Golding nhѭ là nguӗn tài liӋu tham khҧo thêm mà không áp dөng chúng.
9ӟi hӋ thӕng CInSunSpell cho kiӇm lӛi tiӃng Hoa, các tác giҧꢀÿã dùng cӱa
Vә Bigram và Trigram ӣ mӭc ti͇ngꢀÿӇ dò tìm tiӃng sai chính tҧ. Ĉó là cách tiӃp cұn
Uҩt phù hӧp cho tiӃng ViӋt vì không cҫn phҧi tách tӯ. Bên cҥnh ÿó, mô hình này
còn có nhӳng ѭu ÿLӇm khác. Ѭu ÿLӇm ÿҫu tiên là tính ÿѫn giҧn trong cài ÿһt cNJng
nhѭ trong quá trình xӱ lý. Ѭu ÿLӇm thӭ hai, cNJng là ÿһc ÿLӇm quan trӑng nhҩt,
CInsunSpell không ÿòi hӓi kho ngӳ liӋu huҩn luyӋn ÿã ÿѭӧc tách tӯ hay gán nhãn
Wӯ loҥi mà chӍ cҫn mӝt kho ngӳ liӋu ÿúng chính tҧ. Vӟi nhӳng ÿһc ÿLӇm ÿó, viӋc
áp dөng CInsunSpell cho tiӃng ViӋt có nhiӅu khҧ năng sӁ thành công trong thӵc tӃ.
Mô hình sӱa lӛi chính tҧ cӫa Masaaki cho tiӃng Nhұt, vӅ mһt lý thuyӃt cNJng
có thӇ áp dөng ngay cho tiӃng ViӋt mà không cҫn sӱa ÿәi nhiӅu vì Nhұt-ViӋt ÿӅu
là các ngôn ngӳꢀÿѫn lұp. Tuy nhiên, cNJng nhѭ mӝt sӕ mô hình dùng cho tiӃng
- 9 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Anh, mô hình này cҫn có kho ngӳ liӋu ÿã ÿѭӧc tách tӯ và gán nhãn tӯ loҥi, ÿó là
ÿLӅu chѭa thӇꢀÿáp ӭng ÿѭӧc. Bên cҥnh ÿó, viӋc dò tìm phѭѫng án sӱa lӛi bҵng ma
trұn tiӃng nhҫm lүn, khi áp dөng vào tiӃng ViӋt, sӁ phҧi ÿѭѫng ÿҫu vӟi mӝt thӱ
thách mӟi: bùng nә tә hӧp, nhҩt là trong thӵc tӃ, các lӛi sai khi nhұp liӋu rҩt ÿa
Gҥng nên tұp nhҫm lүn khá lӟn. Do ÿó, viӋc áp dөng mô hình cӫa Maasaki cho
tiӃng ViӋt ngay lúc này là rҩt khó khăn.
1.2.
Ki͛m lͯi chính t̻ ti͗ng Vi͟t
KiӇm lӛi chính tҧ là mӝt bài toán khó, nhҩt là kiӇm lӛi chính tҧ cho các
ngôn ngӳꢀÿѫn lұp nhѭ tiӃng ViӋt, tiӃng Hoa.
Trѭӟc khi tôi thӵc hiӋn ÿӅ tài này, nhӳng ngѭӡi ÿi trѭӟc ÿã công bӕ mӝt sӕ
công trình nghiên cӭu vӅ kiӇm lӛi chính tҧ tiӃng ViӋt vӟi các hѭӟng tiӃp cұn khác
nhau. Mӛi cách tiӃp cұn có các ѭu-khuyӃt ÿLӇm khác nhau. Tuy nhiên, ngoài
VietSpell, hҫu hӃt chúng ÿӅu chѭa ÿѭӧc áp dөng thành công trong thӵc tӃ. Phҫn
này sӁꢀÿLӇm qua các công trình ÿó, cùng vӟi mӝt vài nhұn xét vӅ chúng. Ngoài ra,
trong năm nay cNJng có mӝt sӵ kiӋn ÿáng chú ý: Microsoft phát hành trình xӱ lý
Yăn bҧn MS Word 2003 giao diӋn tiӃng ViӋt có kèm chӭc năng kiӇm lӛi chính tҧ
tiӃng ViӋt.
1.2.1. Chѭѫng trình VietSpell
VietSpell cӫa Lѭu Hà Xuyên là chѭѫng trình kiӇm lӛi chính tҧꢀÿã thѭѫng
Pҥi hoá và ÿѭӧc sӱ dөng rӝng rãi hiӋn nay. Chѭѫng trình này có nhiӅu ѭu ÿLӇm
nhѭ gӑn nhҽ, xӱ lý nhanh, tích hӧp tӕt. Nhӳng nhұn xét, ÿánh giá vӅ chѭѫng trình
này ÿѭӧc rút ra tӯ VietSpell Pro phiên bҧn 3.0.
Nhìn chung, VietSpell là mӝt chѭѫng trình tӕt, bӣi vì ngoài viӋc kiӇm lӛi
chính tҧ, nó còn có các chӭc năng hӳu ích cho ngѭӡi ViӋt nhѭ chuyӇn mã, bӝ gõ,
nhӳng chӭc năng ÿó không ÿѭӧc xem xét ӣꢀÿây. Tuy nhiên, ÿӇ dùng nó mӝt cách
Kӧp pháp, khách hàng phҧi trҧ tiӅn bҧn quyӅn. ĈLӅu này không phҧi ngѭӡi dùng
nào cNJng ÿáp ӭng ÿѭӧc.
- 10 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Tuy nhiên, vӟi chӭc năng kiӇm lӛi chính tҧ, VietSpell không hӅ có mӝt mô
hình ngôn ngӳ hoàn chӍnh, mà chӍ phát hiӋn lӛi dӵa vào các heuristic, nên vүn còn
phҥm mӝt sӕ lӛi tích cӵc lүn tiêu cӵc, Bên cҥnh ÿó, VietSpell vүn gây ra mӝt sӕ
xung ÿӝt vӟi MS Word, nhҩt là vӟi MS Word các phiên bҧn sau này nhѭ Word
2003. Ngoài ra, VietSpell vүn còn mӝt sӕ lӛi vӅ kӻ thuұt thiӃt kӃ chѭѫng trình nhѭ
chӑn khӕi sai, ÿôi khi làm hѭ văn bҧn nguӗn, ÿѭa ra ÿӅ nghӏ sӱa lӛi mӝt cách
không hӧp lý, …
1.2.2. KiӇm lӛi chính tҧ dӵa vào phân tích cú pháp
1ăm 1999, trong luұn văn tӕt nghiӋp ÿҥi hӑc, NguyӉn Ĉӭc Hҧi và NguyӉn
Phҥm Hҥnh Nhi [HN99] ÿã ÿӅ xuҩt mô hình kiӇm lӛi chính tҧ tiӃng ViӋt bҵng cách
phân tích cú pháp. Ĉây ÿѭӧc xem là cách tiӃp cұn dӵa trên luұt.
Theo mô hình này, câu ÿҫu vào sӁꢀÿѭӧc hӋ thӕng tiӃn hành phân tích cú
pháp bҵng thuұt toán Earley. Nhӳng chӛ không phân tích ÿѭӧc sӁ bӏ xem là lӛi
chính tҧ. Earley là mӝt thuұt toán mҥnh cho phân tích cú pháp. Tuy nhiên do có ÿӝ
phӭc tҥp cao: O(n3) vӟi n là sӕ tiӃng trong câu, Earley cҫn ÿѭӧc cài ÿһt tӕt ÿӇ tăng
thӡi gian xӱ lý.
ĈӇ áp dөng Earley cho tiӃng ViӋt, câu ÿҫu vào cҫn phҧi ÿѭӧc tách tӯ trong
ÿLӅu kiӋn nó có thӇ bӏ sai chính tҧ. Ĉó là khó khăn thӭ nhҩt. ĈLӇm khó khăn thӭ
hai, là các luұt ngӳ pháp cӫa ngôn ngӳ tӵ nhiên rҩt phӭc tҥp, tiӃng ViӋt có khoҧng
3000 luұt, trong khi chѭѫng trình chӍ tұp hӧp ÿѭӧc khoҧng 700 luұt. ĈLӇm khó
khăn tiӃp theo, tiӃng ViӋt là ngôn ngӳꢀÿѫn lұp, sӕ tiӃng lҥi ít, nên viӋc phӕi hӧp
các tiӃng ÿӇ tҥo thành câu “nghe có vҿ hӧp lý” cNJng nhiӅu, do ÿó có rҩt nhiӅu
trѭӡng hӧp câu sai chính tҧ nhѭng vүn phân tích cú pháp ÿѭӧc. Ĉây là hҥn chӃ
chính cӫa phѭѫng pháp này.
&NJng vӟi cách tiӃp cұn trên, [TPLT98] ÿã xây dӵng chѭѫng trình kiӇm lӛi
chính tҧ VPCTTV. Chѭѫng trình này có phҫn hoàn chӍnh hѫn [HN99] do có ÿӃn
140 tӯ loҥi, 2000 luұn và ÿҥt ÿӝ chính xác 95%.
- 11 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Nhìn chung, kiӇm lӛi chính tҧ bҵng phân tích cú pháp rҩt có nhiӅu triӇn
Yӑng. NӃu ÿѭӧc nghiên cӭu và phát triӇn hoàn chӍnh, khҧ năng ӭng dөng vào thӵc
WӃ sӁ rҩt cao.
1.2.3. KiӇm lӛi chính tҧ bҵng mô hình lѭӟi tӯ
1ăm 2004, trong luұn văn tӕt nghiӋp cӫa mình, NguyӉn Thái Ngӑc Duy
[Duy04] ÿã trình bày mô hình lѭӟi tӯ cho kiӇm lӛi chính tҧ tiӃng ViӋt. Mô hình
này hoҥt ÿӝng dӵa vào viӋc tách tӯ mӡ, sau ÿó ÿánh giá các cách tách tӯ khác
nhau ÿӇ tìm ra cách tách tӯ có vҿ hӧp lý nhҩt làm câu sӱa lӛi. Trong ÿó, lѭӟi tӯ
thӵc chҩt là mӝt cҩu trúc dӳ liӋu ÿһc biӋt, giӕng nhѭ mӝt ÿӗ thӏ thѭa có hѭӟng
không chu trình. Cҩu trúc dӳ liӋu này giúp cho viӋc tách tӯ mӡ và ÿánh giá các
cách tách tӯꢀÿѭӧc dӉ dàng và nhanh chóng, bӣi vì có thӇ áp dөng các thuұt toán
tìm ÿѭӡng ÿi trên ÿӗ thӏ vӟi nó.
/ѭӟi tӯ là mӝt mô hình mҥnh và chһt chӁ. VӅ lý thuyӃt, nӃu ÿѭӧc cài ÿһt và
huҩn luyӋn hoàn chӍnh, thì hiӋu suҩt cӫa nó sӁ rҩt khҧ quan.
Tuy nhiên, mô hình này có mӝt nhѭӧc ÿLӇm rҩt khó khҳc phөc, ÿó là vҩn ÿӅ
bùng nә tә hӧp. Bӣi vì, ngay vӟi mӝt câu ÿúng chính tҧ, viӋc tách tӯ cNJng không
ÿѫn giҧn, và thѭӡng tìm ÿѭӧc nhiӅu cách tách tӯ khác nhau. Vӟi câu ÿҫu vào là sai
chính tҧ, viӋc tách tӯ mӡ càng trӣ nên khó khăn do vӟi mӛi tiӃng, hӋ thӕng phҧi
phát sinh các tiӃng gҫn giӕng vӟi nó, rӗi xem xét các cách phӕi hӧp cӫa nhӳng
tiӃng ÿó vӟi các tiӃng lân cұn nó trong câu, sau cùng mӟi chӑn ra cách tӕt nhҩt.
ĈLӅu này khiӃn cho chѭѫng trình phҧi mҩt rҩt nhiӅu thӡi gian và không gian ÿӇ xӱ
lý, nhҩt là vӟi nhӳng câu dài.
Bên cҥnh cҩu trúc lѭӟi tӯ, mô hình cӫa NguyӉn Thái Ngӑc Duy còn dùng
n-gram ÿӇꢀѭӟc lѭӧng các giá trӏ cҫn thiӃt. Tuy nhiên, do ngӳ liӋu huҩn luyӋn chѭa
Wӕt, viӋc ѭӟc lѭӧng này chѭa ÿѭӧc chính xác. Ngoài ra, cách tә chӭc dӳ liӋu cӫa hӋ
thӕng có nhiӅu nhѭӧc ÿLӇm, khiӃn cho chѭѫng trình phҧi tӕn rҩt nhiӅu không gian
nhӟꢀ ÿӇ lѭu trӳ các n-gram. ĈLӅu này mӝt lҫn nӳa làm giҧm tính thӵc tӃ cӫa
chѭѫng trình.
- 12 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Nhѭ vұy, bên cҥnh nhӳng ѭu ÿLӇm, mô hình lѭӟi tӯ vүn còn nhӳng nhѭӧc
ÿLӇm nhҩt ÿӏnh. NӃu khҳc phөc ÿѭӧc nhӳng nhѭӧc ÿLӇm ÿó, lѭӟi tӯ sӁ trӣ thành
phѭѫng pháp hӳu hiӋu ÿӇ kiӇm lӛi chính tҧ.
1.2.4. Word 2003 phiên bҧn tiӃng ViӋt
Ĉҫu năm 2005, MicroSoft ÿã phát hành phҫn mӅm MS Word 2003 phiên
Eҧn tiӃng ViӋt dành riêng cho thӏ trѭӡng ViӋt Nam. MS Word là phҫn mӅm xӱ lý
Yăn bҧn ÿѭӧc dùng phә biӃn nhҩt hiӋn nay ӣ ViӋt Nam và cҧ trên thӃ giӟi.
Trong phiên bҧn tiӃng ViӋt này, MS Word 203 ÿã ÿѭӧc tích hӧp chӭc năng
mà có lӁ nhiӅu ngѭӡi ViӋt Nam ÿang rҩt quan tâm: kiӇm lӛi chính tҧ cho văn bҧn
tiӃng ViӋt. Tuy nhiên, không nhѭ mong ÿӧi, chӭc năng này chӍꢀÿѭӧc hoàn thành ӣ
Fҩp ÿӝ rҩt thҩp: kiӇm lӛi chính tҧꢀӣ mӭc tiӃng.
Theo các ÿánh giá cӫa trang tin VnExpress.Net và tҥp chí ThӃ Giӟi Vi Tính
(MS Office cho ngѭӡi ViӋt, tr. 74), ngoài viӋc phát hiӋn tӕt các lӛi sai tiӃng nhѭ
“khôgn”, “rtào”,… chӭc năng kiӇm lӛi tiӃng ViӋt cӫa Word còn khá “ngô nghê”,
nhiӅu lúc ÿѭa ra các ÿӅ nghӏ không hӧp lý do tӯꢀÿLӇn chѭa ÿҫy ÿӫ.
- 13 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Chʦʤng 2. &ʤ s˹ lý thuy˙t
Trѭӟc khi bҳt tay vào lӵa chӑn mô hình và cài ÿһt các thuұt toán, hiӇu rõ
nhӳng vҩn ÿӅ lý thuyӃt ÿѭӧc dùng trong ÿӅ tài là ÿLӅu rҩt cҫn thiӃt. Chѭѫng này
xin ÿѭӧc trình bày các vҩn ÿӅ lý thuyӃt ÿó, gӗm hai phҫn chính:
&ѫ sӣ lý thuyӃt ngôn ngӳ hӑc: các khái niӋm vӅ tiӃng, tӯ, hình vӏ,… cӫa
tiӃng ViӋt, các quy tҳc chính tҧ cѫ bҧn, và kӃt quҧꢀ ÿLӅu tra vӅ các lӛi chính tҧ
thѭӡng gһp ӣ TP HCM.
&ѫ sӣ lý thuyӃt tin hӑc: trình bày vӅ hӋ kiӇm lӛi chính tҧ tәng quát, mô
hình lý thuyӃt ÿѭӧc áp dөng trong luұn văn: n-gram, cùng vӟi phѭѫng pháp ѭӟc
Oѭӧng Bayes ÿӇ tính toán các xác suҩt n-gram, và các mô hình tách tӯ.
- 14 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
2.1.
Chún chính t̻
Theo [LTT97] thì chuҭn chính tҧ bao gӗm chuҭn viӃt các âm (phө âm,
nguyên âm, bán âm ), và các thanh, chuҭn viӃt tên riêng (viӃt hoa ), chuҭn viӃt
phiên âm tӯ và thuұt ngӳ vay mѭӧn.
HiӋn nay, chuҭn viӃt các âm và các thanh tiӃng ViӋt ÿã ÿѭӧc xác ÿӏnh theo
KӋ thӕng ngӳ âm cuҧ chӳ viӃt. Chuҭn viӃt hoa tuy chѭa thұt thӕng nhҩt, nhѭng xu
Kѭӟng ÿang ÿѭӧc chҩp nhұn là viӃt hoa con chӳꢀÿҫu cuҧ mӛi âm tiӃt thuӝc tӯ tên
riêng (ViӋt Nam, Hӗ Xuân Hѭѫng …); nӃu tên riêng là cөm tӯ thӇ hiӋn mӝt hay
Kѫn mӝt danh tӯ chung và mӝt danh tӯ riêng thì viӃt hoa con chӳꢀÿҫu thuӝc âm tiӃt
ÿҫu cuҧ các danh tӯ chung, còn danh tӯ riêng viӃt hoa theo quy ÿӏnh. Chuҭn viӃt
phiên âm tӯ vay mѭӧn (tiӃng nѭӟc ngoài ) phӭc tҥp hѫn: ÿang tӗn tҥi 2 cách viӃt
phiên âm, ÿó là phiên âm âm tiӃt hoá (có gҥch nӕi giӳa các âm tiӃt cuҧ tӯ nhѭ Lê-
nin, Pa-ri …) và phiên âm tӯ hoá (viӃt liӅn âm tiӃt, tôn trӑng âm và chӳ theo hӋ
Latinh nhѭ Paris, Canada, …).
2.2.
Mͱt sͩ ki͗n thc c˿ b̻n v͙ chính t̻ ti͗ng Vi͟t
Chӳ viӃt là hӋ thӕng kí hiӋu bҵng ÿѭӡng nét ÿһt ra ÿӇ ghi tiӃng nói và có
nhӳng quy tҳc, quy ÿӏnh riêng. Muӕn viӃt ÿúng chính tҧ tiӃng ViӋt, ta phҧi tuân
theo nhӳng quy ÿӏnh, quy tҳc ÿã ÿѭӧc xác lұp.
Chính tҧ là cách viӃt chӳꢀÿѭӧc xem là chuҭn, tӭc viӃt ÿúng âm ÿҫu, ÿúng
Yҫn, ÿúng dҩu (thanh), ÿúng quy ÿӏnh vӅ viӃt hoa, viӃt tҳt, viӃt thuұt ngӳ.
Trѭӟc khi nói vӅ các quy cách, ta cҫn xác ÿӏnh mӝt sӕ kiӃn thӭc vӅ chính tҧ
tiӃng ViӋt.
2.2.1. Các yӃu tӕ cӫa tiӃng và chӳ viӃt:
TiӃng do nhiӅu âm kӃt lҥi mà thành. Âm ÿѭӧc chia làm nhiӅu loҥi nhӓ.
- 15 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
2.2.1.1. Âm
Khi nói, luӗng hѫi phát sinh tӯ phәi, làm rung các dây thanh ӣ hӑng, qua
khoang miӋng hoһc cҧ khoang mNJi tҥo thành các âm. Âm gӗm có: nguyên âm, phө
âm, bán âm, âm ÿӋm.
Nguyên âm
Nguyên âm ÿѭӧc tҥo do luӗng hѫi thoát ra tӵ do, tӭc là không bӏ cҧn ӣ mӝt
ÿLӇm nào. Trong chính tҧ, nguyên âm có thӇ mang dҩu. Chӳ ViӋt có 11 nguyên âm
ÿѫn là A, Ă, Â, E, Ê, I, Y, O, Ô, U, Ѭ, và 3 nguyên âm ÿôi là IÊ / YÊ / IA / YA ;
ѬѪ / ѬA ; UÔ / UA
Nguyên âm ÿѫn có ÿһc ÿLӇm là giӳ nguyên chӳ trong khi viӃt, trӯ khi viӃt
Y. Nguyên âm ÿôi không giӳ nguyên nguyên chӳ khi viӃt. ViӃt IÊ, YÊ, ѬѪ, UÔ
khi có âm cuӕi (liên, tuyӃt, hѭѫng, muôn), viӃt IA, YA, ѬA, UA khi không có phө
âm cuӕi (hia, khuya, lӱa, mùa).
Phͭ âm
Phө âm ÿѭӧc tҥo ra do luӗng hѫi bӏ cҧn ӣ hӑng, lѭӥi, răng hoһc môi. Trong
chính tҧ, phө âm không mang dҩu. Chӳ ViӋt có 23 phө âm: B, C / K / Q, CH, D,
Ĉ, G /GH , GI, H, KH, L, M, N, NH, NG / NGH, P, PH, R, S, T, TH, TR, V, X.
Bán âm
TiӃng ViӋt có 2 bán âm cuӕi. Bán âm cuӕi thӭ nhҩt ÿѭӧc thӇ hiӋn bҵng 2
chӳ cái i và y (ví dө: lѫi, lây); bán âm cuӕi thӭ hai ÿѭӧc ghi bҵng hai chӳ cái o và
u (ví dө: ao, âu).
Âm ÿ͏m
TiӃng ViӋt có mӝt âm ÿӋm [u], ÿѭӧc thӇ hiӋn bҵng hai chӳ cái o và u (ví
Gө: hoa huӋ). Âm ÿӋm có tác dөng làm cho vҫn trӣ nên tròn môi (so sánh: an, ên
Yӟi oan, uên).
- 16 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
2.2.1.2. Chӳ cái
Chӳ cái dùng ÿӇ ghi âm. Theo quy ÿӏnh vӅ chính tҧ trong sách giáo khoa
Fҧi cách giáo dөc, bҧng chӳ cái tiӃng ViӋt gӗm 33 con chӳ xӃp theo thӭ tӵ sau: A,
Ă, Â, B, C, D, Ĉ, E, Ê, (F), G, H, I, (J), K, L, M, N, O, Ô, Ѫ, P, Q, R, S, T, U, Ѭ,
V, (W), X, Y, (Z). Các chӳ cái trong ngoһc ÿѫn là F, J, W, Z chӍ dùng ÿӇ viӃt tên
riêng nѭӟc ngoài và thuұt ngӳ gӕc nѭӟc ngoài. Vұy viӃt “fѭӡng”, “za” là sai chính
Wҧ.
2.2.1.3. Thanh và dҩu
Thanh là hiӋn tѭӧng nâng cao hoһc hҥ thҩp trong mӝt tiӃng. TiӃng ViӋt có 6
thanh (ngang, huyӅn, ngã, hӓi, sҳc, nһng) và ÿѭӧc thӇ hiӋn bҵng 5 dҩu (thanh
ngang không có dҩu ghi).
2.2.1.4. TiӃng hay âm tiӃt
TiӃng do mӝt hay nhiӅu âm phát ra cùng mӝt lúc tҥo thành. TiӃng có âm
ÿҫu, vҫn và thanh. Vҫn có âm ÿӋm, âm chính, âm cuӕi. Ví dө: “toàn” có phө âm
ÿҫu T, âm ÿӋm O, âm chính A, âm cuӕi N và thanh huyӅn.
Trong các yӃu tӕ tҥo thành tiӃng, âm chính và thanh lúc nào cNJng có. Còn
âm ÿҫu, âm ÿӋm và âm cuӕi có thӇ vҳng mһt.Ví dө: à, Ӄ, ӣ v.v…
Theo [Dien04] thì tiӃng là ÿѫn vӏ cѫ bҧn trong tiӃng ViӋt, khái niӋm “tiӃng”
ÿã có tӯ rҩt lâu ÿã có tӯ rҩt lâu và ÿѭӧc ngѭӡi bҧn ngӳ sӱ dөng trѭӟc khi hiӇu và
Vӱ dөng khái niӋm “tӯ”.
2.2.1.5. Hình vӏ
Trong ngӳ pháp truyӅn thӕng hình vӏ là thành tӕ trӵc tiӃp ÿӇ nên tӯ. Do ÿó,
hình vӏꢀÿѭӧc xem là ÿѫn vӏ tӃ bào gӕc, ÿѫn vӏ tӃ bào cӫa ngôn ngӳ, và còn ÿѭӧc
Jӑi là “tӯ tӕ”. Theo ngôn ngӳ hӑc ÿҥi cѭѫng, hình vӏ “là ÿѫn vӏ nhӓ nhҩt có ý
nghƭa và/hoһc có giá trӏ (chӭc năng) vӅ mһt ngӳ pháp”.
- 17 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
Theo [Dien04], hình vӏ cӫa tiӃng ViӋt, bên cҥnh ÿһc ÿLӇm nhѭ hình vӏ cӫa
ngôn ngӳ hӑc ÿҥi cѭѫng, còn phҧi có “hình tӕ” (là yӃu tӕ thuҫn túy hình thӭc biӇu
hiӋn nhӳng kiӇu quan hӋ bên trong giӳa các thành tӕ trong tӯ, ta có thӇ gӑi ÿây là
“tha hình vӏ” hay “á hình vӏ”).
Hình vӏ tiӃng ViӋt có khi gӗm mӝt tiӃng, nhѭng cNJng có khi gӗm nhiӅu
tiӃng tҥo thành (VD: lé ÿé, ÿӫng ÿӍnh,…).
2.2.1.6. 7ӯ
Theo [Hoa02] thì “Tӯ” gӗm có mӝt tiӃng hoһc mӝt tә hӧp tiӃng có ý nghƭa
hoàn chӍnh. Căn cӭ vào cách cҩu tҥo, ta có tӯꢀÿѫn và tӯ phӭc; trong tӯ phӭc có tӯ
ghép và tӯ láy (hay láy âm). Xét theo nguӗn gӕc, tӯ tiӃng ViӋt gӗm có tӯ thuҫn
ViӋt và tӯ Hán ViӋt.
7ӯꢀÿѫn: là tӯ chӍ gӗm mӝt tiӃng. VD: chӏ, anh, nhà, …
7ӯ ghép: là tӯꢀÿѭӧc tҥo thành tӯ nhiӅu tiӃng, giӳa các tiӃng có mӕi quan hӋ
YӅ ngӳ nghƭa. Tùy theo mӕi quan hӋꢀÿó, tӯ ghép lҥi ÿѭӧc chia thành:
· 7ӯ ghép ÿҷng lұp: các tiӃng trong tӯ có mӕi quan hӋ bình ÿҷng vӟi
nhau vӅ ý nghƭa. Có thӇ các tiӃng ÿӅu rõ nghƭa (ăn ӣ, nhà cӱa, bàn
ghӃ,…) nhѭng cNJng có khi tiӃng không rõ nghƭa (chӧ búa, giá F̫,…).
· 7ӯ ghép chính phө: là tӯ ghép mà tiӃng này phө thuӝc vào tiӃng kia.
Thành tӕ phө có nhiӋm vө phân loҥi, chuyên biӋt hoá cho thành tӕ
chính. VD: tàu hoҧ, ÿѭӡng sҳt, sân bay,…
7ӯ láy: là tӯ có các tiӃng ÿѭӧc tә hӧp trên cѫ sӣ hoà phӕi ngӳ âm. Thành
phҫn ngӳ âm có thӇꢀÿѭӧc lһp lҥi (gӑi là ÿLӋp) hoһc ÿѭӧc biӃn ÿәi (gӑi là ÿӕi).
Ngoài ra, theo [Dien04], tiӃng ViӋt còn có mӝt loҥi tӯ là tӯ Ngүu hӧp. Ĉây
là nhӳng tӯ mà ngѭӡi bҧn ngӳ hiӋn nay không tìm thҩy mӕi quan hӋ gì vӅ ngӳ âm
hay ngӳ nghƭa giӳa các tiӃng cҩu tҥo nên chúng. VD: bӗ câu, bӗ hòn, sao su, hy
sinh, kinh tӃ,…
- 18 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
2.2.2. Quy cách ghi dҩu thanh trên chӳ viӃt
Khi bӓ dҩu thanh theo khoa hӑc, ta phҧi tuân theo 4 quy cách sau ÿây
'ҩu chӍ ghi trên hoһc dѭӟi nguyên âm, không ghi trên hoһc dѭӟi phө âm.
Ví dө: láng, bӋnh, mình (ÿúng).
'ҩu chӍ ghi trên hoһc dѭӟi nguyên âm (âm chính), không ghi trên hoһc
Gѭӟi âm ÿӋm. Ví dө: hoà, thuӃ, quӍ, thuӷ (ÿúng); hòa, lóe, qúi, thӫy (sai).
'ҩu chӍ ghi trên hoһc dѭӟi nguyên âm (âm chính), không ghi trên hoһc
Gѭӟi bán âm cuӕi. Ví dө: sáu, táo, mái, lҥy (ÿúng); saú, taó, maí, laӷ (sai).
Ĉӕi vӟi nguyên âm ÿôi:
· Khi nguyên âm ÿôi ÿӭng ӣ cuӕi tӯ, ta ghi dҩu trên hoһc dѭӟi nguyên
âm thӭ nhҩt: mía, lөa, nӭa.
· Khi nguyên âm ÿôi ÿӭng ӣ giӳa tӯ, ta ghi dҩu trên hoһc dѭӟi nguyên
âm thӭ hai: liӅn, muӕn, hѭӟng.
Ngoài ra, hiӋn nay vүn có nhiӅu ngѭӡi thích dùng kiӇu bӓ dҩu mӻ thuұt, tӭc
là bӓ dҩu sao cho tiӃng ÿѭӧc cân ÿӕi. Theo cách này, mӝt sӕ tiӃng có vҫn ‘oa’,
‘oe’ ÿѭӧc bӓ dҩu trên âm ‘o’. VD: hòa, hòe,…
2.2.3. KӃt quҧꢀÿLӅu tra lӛi chính tҧ
Qua các bҧn ÿLӅu tra lӛi chính tҧ trong nhà trѭӡng phә thông và trên các
phѭѫng tiӋn truyӅn thông ӣ TP. HCM, [Hoa03] kӃt luұn các loҥi lӛi sau ÿây xҧy ra
phә biӃn nhҩt (phҫn này chӍꢀÿӅ cұp ÿӃn các lӛi chính tҧ do phát âm sai).
2.2.3.1. 9Ӆ thanh ÿLӋu
TiӃng ViӋt có 6 thanh ÿLӋu thanh (ngang, huyӅn, ngã, hӓi, sҳc, nһng) thì cѭ
dân ӣ thành phӕ không phân biӋt hai thanh hӓi, ngã. Tuy chӍ có hai dҩu nhѭng sӕ
Oѭӧng lӛi này không ít mà rҩt phә biӃn – kӇ cҧꢀӣ nhӳng ngѭӡi có trình ÿӝ văn hoá
cao.
- 19 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
2.2.3.2. 9Ӆ âm ÿҫu
Ngѭӡi thành phӕ viӃt lүn lӝn mӝt sӕ chӳ ghi các âm ÿҫu sau ÿây: C / K, G /
Gh, Ng / Ngh, Ch / Tr, X / S, V / D / Gi / R, W / Hw / Ngw / Qu. Trong sӕ này,
các lӛi vӅ Ch / Tr, X / S, V / D / Gi phә biӃn hѫn.
2.2.3.3. 9Ӆ âm chính
+ӑc sinh và quҫn chúng có thӇ viӃt lүn lӝn chӳ ghi các âm chính trong 48
Yҫn sau ÿây: ai / ay / ây, ao / au / âu, ăm / âm, ăp / âp, iu / iêu / êu, im / iêm / êm /
em, ip / iêp / êp / ep, oi / ôi / ѫi, om / ôm / ѫm, op / ôp / ѫp, ong / ông, oc / ôc, ui /
uôi, um / uôm, up / (uôp), ѭi / ѭѫi, ѭu / ѭѫu, ѭm / ѭѫm, (ѭp) / ѭѫp.
2.2.3.4. 9Ӆ âm cuӕi
&ѭ dân thành phӕ có thӇ viӃt lүn lӝn chӳ ghi các âm cuӕi trong 48 vҫn sau
ÿây: an / ang, at / ac, ăn / ăng, ăt / ăc, ân / âng, ât / âc, en / eng, ên / ênh, êt / êch, in
/ inh, it / ich, iên / iêng, iêt / iêc, ѫn / (ѫng), ѫt / (ѫc), un / ung, ut / uc, uôn / uông,
uôt / uôc, ѭn / ѭng, ѭt / ѭc, ѭѫn / ѭѫng, ѭѫt / ѭѫc.
Nhѭ vұy ngѭӡi thành phӕ có khҧ năng viӃt sai chính tҧ 33% sӕ dҩu, trên
50% sӕ chӳ ghi âm ÿҫu, 59% sӕ vҫn trong tiӃng ViӋt.
2.2.4. Nguyên nhân
2.2.4.1. 9Ӆ thanh ÿLӋu
Theo các nhà ngӳ âm hӑc, ngѭӡi ViӋt tӯ NghӋ An trӣ vào không phân biӋt
ÿѭӧc hai thanh hӓi, ngã. Hay nói ÿúng hѫn trong phѭѫng ngӳ Trung và Nam,
không có thanh ngã. Mһt khác, sӕ lѭӧng tiӃng mang hai thanh này khá lӟn ( ÿӝ
1900 tiӃng mang thanh hӓi, 900 tiӃng mang thanh ngã). Do hai nguyên nhân trên,
Oӛi vӅ dҩu rҩt thѭӡng thҩy trên các văn bҧn ӣ miӅn Nam nói chung, ӣ thành phӕ
nói riêng.
- 20 -
Cách tiӃp cұn dӵa trên ngӳ liӋu cho kiӇm lӛi chính tҧ tiӃng ViӋt
2.2.4.2. 9Ӆ âm ÿҫu
Trong phѭѫng ngӳ Bҳc và Nam, có sӵ lүn lӝn giӳa các chӳ ghi âm ÿҫu Ch /
Tr, S / X, D / Gi. Mһt khác, ngѭӡi miӅn Nam còn lүn lӝn giӳa V vӟi D, Gi và W /
Hw / Ngw / Qu. Ngoài ra trong quy ѭӟc vӅ chӳ Quӕc ngӳ, có chӛ bҩt hӧp lí khi
cùng mӝt âm mà ghi bҵng 2, 3 dҥng: /k/ ghi bҵng C, K, Qu; /ϻ/ ghi bҵng G, Gh; /ƾ/
ghi bҵng Ng, Ngh. Dƭ nhiên là có nhӳng quy ÿӏnh riêng cho mӛi dҥng. Nhѭng ÿӕi
Yӟi ngѭӡi có trình ÿӝ văn hoá chѭa cao hoһc do sѫ ý, có thӇ lүn lӝn.
2.2.4.3. 9Ӆ âm chính
Có 2 nguyên nhân gây ra sӵ lүn lӝn trong 48 vҫn này. Nguyên nhân ÿҫu
tiên là sӵ bҩt hӧp lý trong chӳ Quӕc ngӳ: nguyên âm /ă/ lҥi ÿѭӧc ghi bҵng chӳ a
trong các vҫn ay, au; các nguyên âm ÿôi lҥi ÿѭӧc ghi bҵng các dҥng iê – yê – ia –
ya, ѭѫ – ѭa, uô – ua (bia – khuya, biên – tuyӃn, lӱa – lѭѫng, mua – muôn); âm
ÿӋm /w/ ÿѭӧc ghi bҵng hai con chӳ u, o (ví dө: huӋ, hoa). Nguyên nhân thӭ hai là
cách phát âm lүn lӝn trong phѭѫng ngӳ Nam Bӝꢀÿӕi vӟi các âm chính trong hӃt
các vҫn trên.
2.2.4.4. 9Ӆ âm cuӕi
Ngѭӡi miӅn Nam nói chung, ngѭӡi thành phӕ nói riêng phát âm hoàn toàn
không phân biӋt 48 vҫn có các âm cuӕi n / ng / nh và t / c / ch. Mà sӕ tӯ mang các
Yҫn này không nhӓ. Mһt khác, hai bán âm cuӕi /j, u/ ÿѭӧc ghi bҵng 4 con chӳ i – y
(rong lai, lây), u – o (trong sau, sao). Do ÿó, lӛi vӅ âm cuӕi là mӝt trong nhӳng vҩn
ÿӅ khó khҳc phөc ÿӕi vӟi cѭ dân ӣ TP. HCM.
- 21 -
Tải về để xem bản đầy đủ
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
khoa_luan_cach_tiep_can_dua_tren_ngu_lieu_cho_kiem_loi_chinh.pdf