Luận văn Phân tích cú pháp tiếng Việt theo tiếp cận thống kê

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Vương Hoài Thu  
PHÂN TÍCH CÚ PHÁP TING VIT THEO TIP  
CN THNG KÊ  
KHÓA LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Vương Hoài Thu  
PHÂN TÍCH CÚ PHÁP TING VIT THEO TIP  
CN THNG KÊ  
KHÓA LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bộ hướng dẫn: TS. Lê Anh Cường  
HÀ NI – 2009  
LI CẢM ƠN  
Đầu tiên tôi xin tlòng biết ơn sâu sắc đến thầy giáo hướng dn ca tôi,TS Lê  
Anh Cường, người đã hướng dn, chbo và tạo điều kiện để tôi hoàn thành luận văn  
này.  
Tôi xin gi li cảm ơn sâu sắc ti thy giáo TS Nguyễn Phương Thái và nhóm  
xây dng ngliu Viet Treebank, đặc bit là thy Ngyễn Phương Thái, người đã  
hướng dn và cung cp tài liu, dliu cn thiết cho tôi trong quá trình hoàn thành  
luận văn.  
Tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại hc Công nghệ, đc  
bit là nhng thy cô trong bmôn Khoa hc máy tính, những người đã dy bo, to  
điều kin cho tôi trong sut quá trình hc tp tại trưng.  
Cuối cùng, gia đình và bn bè là hậu phương vững chc, là nguồn đng viên giúp  
tôi hoàn thành luận văn này.  
TÓM TT  
Phân tích cú pháp là mt trong những bài toán cơ bản và quan trng nht trong  
xlý ngôn ngtnhiên (XLNNTN). Kết qucủa phân tích cú pháp được sdng  
trong rt nhiu ng dụng XLNNTN khác như dịch máy, hỏi đáp, trích chọn thông  
tin… Xây dng mt bphân tích cú pháp cho tiếng Vit có độ chính xác cao là mt  
công vic rt có ý nghĩa. Mục tiêu đề ra ca luận văn là xây dựng bphân tích cú pháp  
tiếng Vit theo tiếp cn thống kê. Đây là một hướng tiếp cn khá mi mtrong cách  
xây dng bphân tích cú pháp tiếng Vit. Luận văn sẽ trình bày khái quát vcác cách  
tiếp cn trong vic xây dng bộ phân tích cú pháp, và đi sâu tìm hiu về văn phạm phi  
ngcnh xác sut tvng (Lexicalized Probabilistic Context Free Grammar). Cthể  
hơn, tôi tìm hiu, nghiên cu 3 mô hình xác sut ca Collins [11], và áp dng công cụ  
phân tích ca Bikel’s [9] để thnghim cho phân tích cú pháp tiếng Vit. Phân tích cú  
pháp da theo thng kê cn có dliệu để hun luyn mô hình. Trong luận văn, tôi sẽ  
sdng ngliu Viet Treebank. Kết quthc nghim cho thấy độ chính xác  
(precision) là trên 80% với hơn 9000 câu huấn luyn và 500 câu kim tra. Nhng kết  
quca luận văn cho thấy rằng, đối vi tiếng Vit, mô hình 1 của Collin có độ chính  
xác thấp hơn so với mô hình 2, và mô hình 3 chưa thực shiu qu. Ngoài ra, kết quả  
thc nghim còn chra mt stham sca mô hình 2 ca Collins có ảnh hưng tới độ  
chính xác ca bphân tích cú pháp.  
MC LC  
MỞ ĐẦU ............................................................................................................1  
Chương 1. Gii thiu...........................................................................................2  
1.1. Xlý ngôn ngtnhiên và các vấn đề chính............................................2  
1.2. Phân tích cú pháp và ng dng trong xlý ngôn ngtnhiên..................3  
1.2.1. Định nghĩa:........................................................................................3  
1.2.2. Vai trò ca phân tích cú pháp trong xlý ngôn ngtnhiên .............3  
1.3. Phân tích cú pháp dành cho tiếng Vit ......................................................4  
1.3.1. Nhp nhng – vấn đề chính ca xlý ngôn ngtnhiên: ..................4  
1.3.2. Phân tích cú pháp trong tiếng Vit .....................................................5  
1.4. Mc tiêu ...................................................................................................6  
Chương 2. Phương pháp phân tích cú pháp..........................................................7  
2.1. Văn phạm phi ngcnh............................................................................7  
2.2. Các phương pháp cổ đin..........................................................................8  
2.2.1. Phân tích top – down..........................................................................8  
2.2.2. Phân tích bottom – up: .....................................................................10  
2.2.3. So sánh gia top – down và bottom – up..........................................13  
2.2.4. Thut toán CYK (Cocke – Younger – Kasami) ................................13  
2.2.5. Thut toán Earley.............................................................................15  
2.3. Văn phạm phi ngcnh xác sut (PCFGs)..............................................19  
2.3.1. Định nghĩa .......................................................................................19  
2.3.2. Nhược điểm của văn phạm phi ngcnh xác sut............................20  
2.4. Văn phạm phi ngcnh xác sut tvng (LPCFGs) ..............................22  
2.4.1. Cu trúc head...................................................................................22  
2.4.2. Mô hình mt: Mô hình cơ s............................................................23  
2.4.3. Mô hình 2: Phân biệt định ngvà bng, subcategorization ...........25  
2.4.4. Mô hình 3: Trace và Wh-movement.................................................27  
Chương 3. Tiếp cn trong xây dng bphân tích cú pháp Tiếng Vit................28  
3.1. Penn Treebank........................................................................................28  
3.1.1. Gán nhãn tloi...............................................................................28  
3.1.2. Bracketing .......................................................................................30  
3.2. Viet Treebank.........................................................................................32  
3.2.1. Mc tiêu...........................................................................................32  
3.2.2. Danh sách tloi và các nhãn cú pháp.............................................32  
3.2.3. Mt số đặc điểm ca Viet Treebank.................................................34  
Chương 4. Bphân tích cú pháp ca Bikel........................................................35  
4.1. Mt snhim vcơ bn..........................................................................35  
4.1.1. Tin xlý ........................................................................................35  
4.1.2. Hun luyn ......................................................................................40  
4.1.3. Các loi tham số và các đánh giá......................................................42  
4.1.4. Decode.............................................................................................48  
4.2. Tng quan vbphân tích cú pháp.........................................................49  
4.2.1. Mở đu ............................................................................................49  
4.2.2. Vấn đề cơ bn..................................................................................50  
4.2.3. Tng quan vhthng.....................................................................50  
4.2.4. Khả năng..........................................................................................54  
4.3. Kết lun..................................................................................................55  
Chương 5. Áp dng bphân tích cú pháp ca Bikel và dliu Viet Treebank...56  
5.1. Gói ngôn ngtiếng Vit .........................................................................56  
5.2. Quá trình thc hin:................................................................................57  
5.2.1. Xlý dliu....................................................................................57  
5.2.2. Cu hình để thc hin: .....................................................................58  
5.2.3. Hun luyn ......................................................................................61  
5.2.4. Phân tích cú pháp.............................................................................62  
5.2.5. Đánh giá kết qu:.............................................................................62  
5.3. Kết quả đạt được:....................................................................................63  
KT LUN.......................................................................................................67  
TÀI LIU THAM KHO .................................................................................68  
DANH SÁCH CÁC BNG  
Bng 1: Bng phân tích bng thut toán CYK ..................................................15  
Bng 2: Bng nhãn tloi trong Penn Treebank................................................29  
Bng 3: Bng nhãn cú pháp trong Penn Treebank..............................................31  
Bng 4: Nhãn tloi trong Viet Treebank .........................................................32  
Bng 5: Bng nhãn cm ttrong Penn Treebank...............................................33  
Bng 6: Bng nhãn mệnh đề trong Viet Treebank..............................................34  
Bng 7: Các mc back-off vi  
...........................................................47  
Bng 8: Tham số do Bikel đề xut....................................................................47  
Bng 9: Cu trúc back-off đi vi các tham s.................................................48  
Bng 10: Sô lượng câu để hun luyn................................................................58  
Bng 11: Bng so sánh kết quả đi vi xâu dài không quá 40 t.......................63  
Bng 12: Bng so sánh kết quả đi vi xâu dài không quá 100 t.....................64  
DANH SÁCH CÁC HÌNH VẼ  
Hình 1: Mô hình xlý ngôn ngtnhiên...........................................................1  
Hình 2: Cây cú pháp ca câu "tôi nhìn cô gái vi chiếc ng nhòm" .....................5  
Hình 3: Dn xut phân tích top - down..............................................................10  
Hình 4: Dn xut phân tích bottom - up.............................................................13  
Hình 5: Mã gica thut toán Earley.................................................................17  
Hình 6: Miêu tdn xut xâu tNi.....................................................................1  
Hình 7: Cây cú pháp ca câu "ăn cỏ "...........................................................20  
Hình 8: Cây dn xut thnht ca xâu "Trung hiu Nam hơn Thng"...............21  
Hình 9: Cây dn xut thhai ca xâu "Trung hiu Nam hơnThng"..................21  
Hình 10: Cây cú pháp ca xâu "bò ăn c" có thêm thông tin tvng.................23  
Hình 11: Miêu tả độ đo khoảng cách trong câu..................................................25  
Hình 12: Cây cú pháp vi hu t- C đánh dấu complement. "IBM" và "Lotus" là  
chngvà bngữ, trong khi "Last week" là định ng...............................................25  
Hình 13: Hai ví dvcác thành phn btrợ được sinh ra một cách độc lập đã  
gây ra sai s...............................................................................................................26  
Hình 14: Dliệu đã gán nhãn trước khi xlý thcông .....................................30  
Hình 15: Dliệu đã gán nhãn sau khi xlý thcông ........................................30  
Hình 16: Dliu hoàn chnh..............................................................................32  
Hình 17: Liên kết ttrong Penn Treebank.........................................................36  
Hình 18: Liên kết ttrong Viet Treebank..........................................................36  
Hình 19: Nút NBP cn thêm nút NP..................................................................37  
Hình 20: Nhãn NBP được chnh sa..................................................................38  
Hình 21: Nâng cc du câu lên, trong cây bên phi xut hin các du phy nm  
cnh nhau ..................................................................................................................39  
Hình 22: Nút có nhãn HEAD cũng không là ngoi lệ khi thay đổi nhãn chức năng  
..................................................................................................................................40  
Hình 23: Mt ví dvhàm vi (“verb intervening”) nhn giá trtrue, do nhãn NP  
có chứ đng t...........................................................................................................41  
Hình 24: Các thành phn và lung làm vic......................................................51  
MỞ ĐẦU  
Phân tích cú pháp là mt bài toán trung tâm trong XLNNTN. Phân tích cú pháp  
được sdng trong rt nhiu ng dng ca XLNNTN. Độ chính xác ca bphân tích  
cú pháp có ảnh hưởng ln ti kết quca các ng dng xlý ngôn ngkhác. Các  
nghiên cu vxây dng phân tích cú pháp tự động đã được phát trin trt sớm và đã  
có nhiu bphân tích cú pháp vi chất lượng rt tt cho các ngôn ngữ như tiếng Anh,  
tiếng Trung [9]. Ngày nay, nhiu ng dng trong XLNNTN đang được nghiên cu và  
phát trin cho tiếng Vit và nhu cu vmt bphân tích cú pháp tiếng Vit với độ  
chính xác cao là rt cp thiết. Tuy nhiên, các nghiên cu vphân tích cú pháp tiếng  
Vit vn còn hn chế và tp trung chyếu vào tiếp cn cũ (Knowledge-based), vi kết  
qucòn hn chế và chưa có bộ phân tích nào được công brng rãi. Vì vy, khóa lun  
này hướng ti vic xây dng bphân tích cú pháp tiếng Vit theo tiếp cn thng kê.  
Chúng tôi theo tiếp cn này sdụng văn phạm phi ngcnh xác sut tvng  
(Lexicalized Probabilistic Context Free Grammar). Luận văn sẽ nghiên cu các cách  
tiếp cận cơ bản trong phân tích cú pháp, đi sâu tìm hiểu văn phạm phi ngcnh xác  
sut tvng theo 3 mô hình ca Collins [11]. Từ đó, dựa vào hiu biết vngliu  
Viet Treebank để hun luyện và đánh giá độ chính xác ca mô hình da trên vic tích  
hp tiếng Vit vào bphân tích cú pháp ca Bikel [9]. Kiến trúc cúa hphân tích cú  
pháp ca Bikel cũng được nghiên cứ và phân tích để có thsửa đổi đối tượng tương  
thích cho tiếng Vit cũng như khảo sát ảnh hưởng ca các tham số khác nhau đối vi  
phân tích cú pháp tiếng Vit.  
1
Chương 1. Giới thiệu  
Đã từ lâu, con người luôn ước mơ phát minh ra một chiếc máy có khả năng nghe  
và thc hin các mnh lnh của con người. Cho đến nay, mt hthống như vậy vn  
còn trong ước mơ bởi máy móc vn gặp khó khăn trong việc nhn biết ngôn ngca  
con người, tviệc nghe đúng cho đến vic hiểu đúng được li nói của con người rt là  
khó khăn. Tuy nhiên, con người đang tích cực nghiên cu phát trin ra công nghmi  
để thc hiện được mt hthống thông minh như con người, lĩnh vực đó là xử lý ngôn  
ngtnhiên.  
1.1. Xử lý ngôn ngữ tự nhiên và các vấn đề chính  
Xlý ngôn ngtnhiên là lĩnh vực trong khoa hc máy tính, nhim vca nó là  
xây dng mt hthng có thphân tích, hiu được ngôn ngcủa con người, không  
nhng thế hthng này còn có khả năng phản hi li bng chính ngôn ngca con  
người. Như vậy ta có mt mô hình đơn giản vmt hthng xlý ngôn ngtnhiên  
như sau:  
ngôn  
ngôn  
Hthng  
hiu ngôn  
sinh ra ngôn  
Hình 1: Mô hình xlý ngôn ngtnhiên  
Xlý ngôn ngtnhiên có rt nhiu ng dng trong thc tế, có thkra ở đây  
mt vài ng dng ca xlý ngôn ngtự nhiên như là dịch máy (machine translation),  
tìm kiếm thông tin (information retrieval), trích chn thông tin (information retrieval)  
hay như là nhận dng tiếng nói (speech recognition).  
- Dch máy (machine translation) là mt ng dng có nhim vdch một văn bản  
tmt ngôn ng(ví dụ như tiếng Anh) sang mt ngôn ngkhác (chng hn là tiếng  
Vit), giống như người phiên dch.  
2
- Tìm kiếm thông tin (information retrieval): ở đây ta có ththy mt ví drt  
điển hình đó là web search engine, www.google.com, website này là mt dng ca tìm  
kiếm thông tin, tc là khi cn mt thông tin, hthng sthc hin vic tìm kiếm trong  
dliu (tp rt nhiều các văn bản) mt hay nhiều văn bản tương tvi thông tin ta cn  
tìm kiếm.  
- Trích chọn thông tin (information extraction): khi đưa vào một tập văn bản, hệ  
thng này có thtrvcho ta những đoạn trong văn bản đó miêu tả thông tin chúng ta  
quan tâm. Mt ví dụ đơn giản ở đây là khi gặp mt trang blog ta cần xác định mt số  
thông tin vcá nhân shữu blog như tên, giới tính, địa ch, v.v… thì hthng trích  
chn thông tin có nhim vtrvcho ta các thông tin này.  
- Nhn dng tiếng nói (speech recognition): Khi bn nói một câu, chúng ta đã có  
nhng hthng có thghi li nhng âm thanh này dng dliu s, mc tiêu ca ng  
dng này là chuyển đưc sóng âm thanh này thành dliệu văn bản.  
Trên đây là một số ứng dng ca xlý ngôn ngtnhiên và trong thc tế còn  
nhiu ng dụng khác đang được nghiên cu và phát trin. Tuy nhiên, các ng dng  
ngôn ngtự nhiên đều có chung mt số bài toán cơ sở như là phân tích từ t, phân tích  
cú pháp, phân tích ngnghĩa. Trong đó, phân tích cú pháp đóng vai trò trung tâm  
trong ng dng XLNNTN và là mc tiêu của luân văn này.  
1.2. Phân tích cú pháp và ứng dụng trong xử lý ngôn ngữ tự nhiên  
1.2.1. Định nghĩa:  
Phân tích cú pháp (parsing hay syntatic analys) là quá trình phân tích mt chui  
tt(chui ttnày là kết quca quá trình phn tích tt, thông thường đi vi xử  
lý ngôn nglà các t), nhằm đưa ra cấu trúc ngpháp ca chui từ đó dựa vào mt  
văn phạm nào đó. Thông thường cu trúc ngữ pháp được chn ở đây thường là dng  
cây, bi thông qua dng này sphthuc ca các thành phn là trc quan.  
1.2.2. Vai trò của phân tích cú pháp trong xử lý ngôn ngữ tự nhiên  
Có thể nói phân tích cú pháp là bài toán cơ sở, xut hin rt nhiu trong các ng  
dng ca xlý ngôn ngtnhiên. Ví dụ đầu tiên ta có ththấy ngay đó là áp dụng  
phân tích cú pháp trong kim tra li ngữ pháp. Đối vi vic kim tra li ngpháp ta  
cn thc hin vic phân tích cú pháp câu đu vào, xem cấu trúc có đúng không?  
Trong dch máy, hin nay, có ba chiến lược dịch cơ bản là dch trc tiếp, dch  
chuyển đổi và dch liên ngữ. Đối vi dch trc tiếp, cách dch này da vào btừ điền  
3
song ngữ để dch, không sdụng đến phân tích cú pháp. Tuy nhiên trong dch chuyn  
đổi và dch liên ng, quá trình phân tích cú pháp là một bước quan trọng. Tư tưởng  
chung ở đây là đều phân tích câu ngun trthành cây cú pháp sdng bphân tích cú  
pháp. Đối vi dch chuyển đổi, hthng sxây dựng cây cú pháp tương đương trong  
ngôn ngữ đích và cuối cùng đưa cây cú pháp thành câu cần đưa ra. Đối vi dch liên  
ng, cây cú pháp ngôn ngnguồn được đưa thành mt biu din chung gia hai  
ngôn ngữ sau đó dạng biu diễn chung này được chuyn vcây cú pháp ngôn ngữ  
đích, cuối cùng trvcâu cn dch.  
Trong lĩnh vực như nhận dng tiếng nói (speech recoginition) sdng phân tích  
cú pháp có thgiúp sa sai quá trình nhn dng. Trong tng hp tiếng nói, phân tích  
cú pháp giúp đặt trọng âm vào đúng vị trí trong câu.  
Nhng ví dụ ở trên đây đã khẳng định được vai trò ca phân tích cú pháp trong  
xlý ngôn ngtnhiên. Vì vy, ng dng xlý ngôn ngtnhiên cho tiếng Vit cn  
phi gii quyết được bài toán cơ sở và trng tâm là phân tích cú pháp cho tiếng Vit.  
1.3. Phân tích cú pháp dành cho tiếng Việt  
1.3.1. Nhập nhằng – vấn đề chính của xử lý ngôn ngữ tự nhiên:  
Trưc tiên, ta ly mt câu làm ví d: “Con ngựa đá con ngựa đá”. Trong câu này,  
từ “đá” xuất hin hai ln, từ đá thứ nhất là động tchỉ hành động sdng chân tác  
động vào vt khác, từ “đá” thứ hai li là tính tthhin cht liu ca con nga thhai.  
Có mt snhp nhng trong xlý ngôn ngtnhiên như là  
- Nhp nhng trong việc phân đoạn t(word segmentation): ví dcâu hc sinh  
hc sinh hc, việc phân đoạn tchính xác slà hc_sinh hc sinh_học, nhưng có thể  
gặp tách như học_sinh hc_sinh hc, hoc hc sinh_hc sinh_hc. Có ththy vic  
phân đoạn tcác từ đều chính xác nhưng trong hai cách tách từ cuối đều không chp  
nhận đưc vì các cm tnày không có ý nghĩa.  
- Nhp nhn trong gán nhãn tloi: giống như ví dụ “con ngựa đá con ngựa đá”  
từ “đá” thứ hai có thể được gán nhãn là V (nhãn chỉ động t) trong khi nó là mt tính  
tthhin cht liu.  
- Nhp nhằng trong phân tích cú pháp: Đối vi phân tích cú pháp ta có ththy  
hai loại như sau:  
+ Nhp nhng do việc xác định tbnghĩa:  
d: “Tôi nhìn cô gái vi ng nhòm”  
4
Ta sdng cây pháp đmiêu tả 2 trưng hp ca câu này  
Hình 2: Cây cú pháp ca câu "tôi nhìn cô gái vi chiếc ng nhòm"  
Cây cú pháp bên trái miêu tả trường hp “vi ng nhòm” bnghĩa cho từ “cô  
gái”, trong trường hợp này câu được hiu là “tôi” “nhìn” “cô gái vi ng nhòm” (tôi  
nhìn thy cgái và cô gái y có mt cái ng nhòm). Còn hình bên phải miêu ta trường  
hp “vi ng nhòm” bnghĩa cho động t“nhìn”. Câu này có thhiu là “tôi” “nhìn”  
“cô gái” “vi ng nhòm” (tôi dùng ng nhòm để nhìn cô gái).  
+ Nhp nhng thhai là hiện tượng liên kết t: Nhp nhng này xy ra trong  
mt câu mà mt tcó thliên kết vi từ trước hay từ đng sau nó to thành mt câu có  
ý nghĩa hoàn toàn khác nhau. Ví dụ như câu sau: “Nam hiểu Trung hơn Thành”. Nếu  
như t“Thành” liên kết vi t“Trung” ta có thhiu câu này là Nam hiu Trung  
nhiều hơn là Nam hiểu Thành, nhưng ta có thể hiu câu này theo mt cách khác là  
Nam hiu Trung nhiều hơn Thành hiểu Trung.  
1.3.2. Phân tích cú pháp trong tiếng Việt  
Mc dù phân tích cú pháp có vai trò trung tâm trong các ng dng XLNNTN,  
nhưng những nghiên cu vphân tích cú pháp cho tiếng Vit còn rt hn chế và chưa  
có bộ phân tích cú pháp nào được công brng rãi. Mt sbộ phân tích cú pháp đi  
theo hướng tiếp cn cũ (knowledge-base) thc hin vic xây dng lut ngpháp thủ  
công và không sdng thống kê trong đó. Do việc xây dng lut ngpháp thcông  
nên độ chính xác ca bphân tích cú pháp này còn chưa cao, chỉ phân tích được mt  
5
số lượng hu hạn câu do văn phạm sinh ra. Hướng tiếp cn sdng thng kê cũng đã  
được nghiên cu [6], nhưng còn sơ lược và đặc biệt là chưa có kết quthc nghim.  
1.4. Mục tiêu  
Luận văn hướng ti vic xây dng bphân tích cú pháp tiếng Vit theo tiếp cn  
thng kê vi các nghiên cu cthsau:  
- Nghiên cu các tiếp cận và phương pháp cơ bản trong phân tích cú pháp, tp  
trung vào tiếp cn sdng thông kê và thông tin tvng.  
- Phân tích và áp dng bphân tích cú pháp ca Bikel [9] để xây dng bphân  
tích cú pháp tiếng Vit.  
Vi mục tiêu đó luận văn sẽ trình bày các ni dung sau:  
Chương 2 trình bày về các phương pháp tiếp cn trong vic xây dng bphân  
tích cú pháp từ phương pháp cổ điển như chiến lược phân tích top-down hay chiến  
lược phân tích bottom-up, cho đến hưng tiếp cn thống kê nsdụng văn phm phi  
ngcnh xác sut, cui cùng là sdụng văn phạm phi ngcnh xác sut tvựng để  
xây dng bphân tích cú pháp.  
Chương 3 sẽ trình bày vkho ngliu, mt thành phn không ththiếu theo  
hướng tiếp cn sdng thống kê. Chương này sẽ gii thiu vmt số đặc điểm, cách  
tiếp cn xây dng kho ngliu tiếng Anh – Penn Treebank và kho ngliu tiếng Vit  
– Viet Treebank.  
Chương 4 scung cp cái nhìn tng quan nht vbphân tích cú pháp ca Bikel.  
Chương 5 sẽ trình bày vcách thc thc hin thc nghim thông qua vic sử  
dng bphân tích cú pháp ca Bikel cho tiếng Vit da vào kho ngliu Viet  
Treebank và các kết qucũng như đánh giá với hướng tiếp thng kê sdng Viet  
Treebank để hun luyn.  
Cui cùng là kết lun và tài liu tham kho.  
6
Chương 2. Phương pháp phân tích cú pháp  
Trong chương trước chúng ta đã thấy được mt skhái niệm cơ bản vxlý  
ngôn ngtnhiên, phân tích cú pháp là gì và vai trò ca nó trong các vấn đề ca xlý  
ngôn ngtự nhiên. Để xây dng bphân tích cú pháp, hu hết các phương pháp hiện  
nay đều sdụng văn phạm phi ngcnh (Context Free Grammar) hay nhng ci tiến  
bố sung để miêu tcác ngữ pháp. Trong chương này, chúng ta sẽ tìm hiu mt số  
phương pháp xây dựng bphân tích cú pháp từ trước đến nay. Đầu tiên phn 2.1, sẽ  
nêu li khái nim về văn phạm phi ngcnh, khái niệm chung để biu din ngôn ngữ  
và nn tảng cho các phương pháp sau này. Trong phn 2.2, chúng ta snhc li hai  
phương pháp cổ điển là top – down và bottom – up (thut toán CYK – cook, young  
and kasami), chart parsing (thut toán Earley – phương pháp kết hp gia top – down  
và bottom – up). Phn 2.2 sẽ đưa ra hướng đi mới trong vic xây dng bphân tích cú  
pháp, bài toán phân tích cú pháp được coi như là một vấn đề trong hc máy. Và trong  
chương cuối, chúng ta stiếp cn vi mt mô hình sdng ttkết hp vi xác sut  
để gii quyết bài toán.  
2.1. Văn phạm phi ngữ cảnh  
Mun thc hiện được phân tích cú pháp trước tiên ta cn phi biu diễn được  
ngôn ngữ đó bng máy tính. Ngôn ngữ được định nghĩa là tp các xâu mà mi xâu này  
được to ra bi mt tp hu hn các phn tkhông rng gi là bng chcái, ví dụ như  
bng chcái tiếng Vit và ngôn ngtiếng Việt. Văn phạm là mt bgm 4 phn t: G  
= <, , S, R> vi  
-   cha hu hn các phn từ được gi là phn tkết thúc – terminal.  
-    chứa hưu hạn các phn tử được gi là phn tkhông kết thúc –  
nonterminal và     .  
- S là mt trong nhng phn t  được gi là ký tbắt đu.  
- R là mt tp hu hạn các văn phạm, cha các lut ngữ pháp(đôi khi gọi là sn  
xut – production).  
Hp giđược gi là từ điển đầy đủ ca ngôn ng.  
Mt xâu gọi là được sinh ra bởi văn phạm khi và chỉ khi xâu đó có một dn xut  
đầy đtrong G.  
Chomsky đưa ra phân loại ca mình về văn phạm:  
- Văn phạm loại 0: Văn phạm cấu trúc câu là các văn phạm mà lut có dng  
- Văn phạm loại 1: Văn pham cảm ngcảnh là văn phạm mà lut có dng  
vi  
là độ xài ca xâu .  
- Văn phạm loại 2: Văn phạm phi ngcảnh là văn phạm mà lut có dng  
- Văn phạm loại 3: Văn phạm chính quy là văn phạm mà lut có dng  
7
Trong phân tích cú pháp người ta sdụng văn phạm phi ngcnh hoc mt số  
ci tiến của văn phạm phi ngcảnh để biu diễn văn phm xây dựng các phương pháp  
để gii quyết bài toán phân tích cú pháp. Phn tiếp theo strình bày về các phương  
pháp này.  
2.2. Các phương pháp cổ điển  
2.2.1. Phân tích top – down  
2.2.1.1. Định nghĩa  
Cây cú pháp sinh ra bi bphân tích top – down là kết quá ca quá trình xây  
dng cây bng vic xut phát tmt ký tbắt đu(gc ca cây), sdng các lut trong  
văn phạm phi ngcảnh để đi từ gốc đến là (ký tkết thúc – nm trong chui cn phân  
tích). Đối vi các lut có cùng vế trái, vic la chn lut có thể đơn giản dựa theo độ  
ln ca xâu vphi (so sánh gia các xâu vphi) hoặc đơn giản là thtca các xâu  
vế phi trong bluật. Trong trường hp phân tích top – dowm chưa kết thúc (chưa  
phát triển đưc toàn bộ xâu đầu vào) thì ta thc hin quay lui để tìm lut khai trin phù  
hp.  
2.2.1.2. Mô tả thuật toán  
Đầu vào: văn phạm phi ngcảnh không đệ quy trái (nếu văn phạm đệ quy trái  
thì khi phân tích sxy ra hiện tưng lp vô hn) và chui tcn phân tích.  
Đầu ra: là các cây cú pháp ca chui tcân phân tích.  
- Bước 1: Ta gi gc ca cây là S (ký tbắt đầu). Ta sdng mt con trchỉ  
vào xâu cn phân tích. Tvào hin ti là từ trong xâu vào được con trtrỏ đến. Vtrí  
đầu tiên ca con trlà ttrái nht ca xâu.  
- Bước 2: GisA là ký tự đnh hin ti và con trỏ đang trỏ vào ký tx ca xâu  
đầu vào (đỉnh hin tại là đnh sẽ đưc xây dng tiếp theo)  
+Nếu A thuc tp ký tkhông kết thúc thì chn lut mà vế trái là A, gisử  
lut này có dng A X1X2..Xk thì ta chn nút X1 làm nút đang xét. Nếu như k = 0 thì  
đỉnh phân tích tiếp theo slà ký tbên phi ca A.  
+ Nếu A thuc tp ký tkết thúc thì thc hin so sánh vi tvào hin ti.  
Nếu trùng nhau thì ly ký tbên phải A là đỉnh phân tích tiếp và con trdch sang  
phi mt ký t. Nếu như khác nhau thì quay lại bưc 2a, chn lut kế tiếp bắt đu bng  
A.  
Sau mt shu hạn bước ta sẽ phân tích được hết xâu vào, lúc đó sẽ có trường  
hp sau:  
- Xây dựng được cây cú pháp với đầu vào là văn phạm và xâu  
- Không xây dựng được cây cú pháp  
2.2.1.3. Ví dụ  
Ta sdụng văn phạm sau:  
S
NP  
NP VP  
N  
(1)  
(2)  
8
N
N
N
VP  
VP  
V
V
PP  
“tôi”  
“bò”  
“c”  
V  
V PP  
“ăn”  
“bò”  
N  
(3)  
(4)  
(5)  
(6)  
(7)  
(8)  
(9)  
(10)  
Ta thc hin vic phân tích câu “tôi bò”.  
Sau đây là dẫn xut ca quá trình phân tích  
9
Hình 3: Dn xut phân tích top - down  
Quá trình phân tích ttrái qua phi, tìm dn xut ca ký tkhông kết thúc trái  
nhất, ưu tiên luật ttrên xuống dưới, ở đây từ dn xut d e ta thấy xâu “tôi” “ăn”  
không chính xác nên quay lui, ta có được dn xut f khi sdng lut 9. Cui cùng ta  
thu được xâu cn phân tích.  
2.2.2. Phân tích bottom – up:  
2.2.2.1. Định nghĩa:  
Khác hn vi phân tích top – down, bphân tích bottom – up xut phát tmt  
câu đu vào, sdụng hai hành động chính là đẩy vào (shift) và thu gọn (reduce) để thu  
gn chuỗi đầu vào thành ký tbắt đầu (gc ca cây cú pháp). Sdng một ngăn xếp,  
ta tiến hành đẩy các từ đầu vào vào ngăn xếp theo chiu ttrái sang phi (shift), nếu  
như ngăn xếp có ththu gn (reduce – ngăn xếp lúc này cha vế phi ca mt lut và  
nhng ký tnày có thể được thay bng vế trái ca luật đó). Cũng giống như trong  
phân tích top – down, khi xy ra li, hoặc không phân tích được, chúng ta thc hin  
hành động quay lui để phát trin theo mt lut khác. Quá trình này tiếp tục cho đến khi  
ta không thể quay lui được na, lúc này nếu ngăn xếp không được thu gn vtrng  
thái bắt đu thì bphân tích bottom – up không thphân tích chui từ đu vào.  
2.2.2.2. Ví dụ  
Ta sdng li văn phạm đã định nghĩa ở trên để phân tích câu “bò ăn c”  
S
NP  
N
N
N
NP VP  
N  
“tôi”  
“bò”  
“c”  
(1)  
(2)  
(3)  
(4)  
(5)  
10  
VP  
VP  
V
V
PP  
V  
(6)  
(7)  
V PP  
“ăn”  
“bò”  
N  
(8)  
(9)  
(10)  
Ta có cây phân tích  
11  
12  
Hình 4: Dn xut phân tích bottom - up  
Ta thy có quá trình tích khi đến trng thái (e) có li xy ra nên thc hin quay  
lui, chú ý ở đây có trường hp N bò, và V bò, tuy nhiên vi cách sp xếp lut  
như trên nên trường hp này không bphân tích li, tuy nhiên khi có li xy ra có thể  
vn quay lui về cây cú pháp đúng này.  
2.2.3. So sánh giữa top – down và bottom – up  
Cả hai phương pháp này đu có những ưu điểm và nhược điểm riêng. Chiến lược  
phân tích top – down không lãng phí thi gian để duyt các cây không là kết quả đối  
vi gc S, khi mà nó bắt đầu được sinh ra bi những cây này. Điều đó có nghĩa là nó  
cũng không bao giờ thăm các cây con mà không thể tìm được vtrí trong các gc cây  
S. Ngược lại, đối vi chiến lược bottom – up, cây cú pháp có thể không được sinh ra  
bi ký tbắt đầu S hoc phù hp vi bt knt lin kề nào đó, mà được sinh ra mt  
cách ngu nhiên.  
Cách tiếp cn có những nhược điểm nhất định. Trong khi không lãng phí thi  
gian với nhưng cây không bắt đầu bi S, bphân tích li dành quá nhiu nlc vào  
cây S mà không phù hp với đầu vào. Điểm yếu này ca bphân tích là do vic sinh  
cây diễn tra trước khi kim tra về đầu vào.  
2.2.4. Thuật toán CYK (Cocke – Younger – Kasami)  
2.2.4.1. Mô tả:  
Thuật toán CYK, đôi khi được gi là thut toán CKY, có thể xác định được mt  
xâu có do một văn phạm phi ngcảnh sinh ra hay không, và cách mà nó được sinh ra.  
Thut toán này là mt dng phân tích bottom – up sdng quy hoạch đng. Thut toán  
CYK làm vic với văn phạm phi ngcnh chuẩn. Văn phạm phi ngcnh chun là  
văn  
phạm  
phi  
ngữ  
cảnh  
trong  
đó  
luật  
có  
dng  
, và nếu văn phạm phi ngcnh không cha  
xâu rng thì đều có thphân tích vdng chun Chomsky.  
13  
2.2.4.2. Mã giả và ví dụ  
- Mã gica thut toán CYK  
Let the variable Carlos be the input string consisting  
of n letters, a1 ... an.  
Let the grammar contain r nonterminal symbols R1 ...  
Rr.  
This grammar contains the subset Rs which is the set  
of start symbols.  
Let P[n,n,r] be an array of booleans. Initialize all  
elements of P to false.  
For each i = 1 to n  
For each unit production Rj -> ai, set P[i,1,j] =  
true.  
For each i = 2 to n -- Length of span  
For each j = 1 to n-i+1 -- Start of span  
For each k = 1 to i-1 -- Partition of span  
For each production RA -> RB RC  
If P[j,k,B] and P[j+k,i-k,C] then set P[j,i,A]  
= true  
If any of P[1,n,x] is true (x is iterated over the set  
s, where s are all the indices for Rs)  
Then Carlos is member of language  
Else Carlos is not member of language  
- Ví dụ  
Ta sdng lại văn phạm ví dụ trước và phân tích li câu “bò ăn cỏ” sdng  
thut toán CYK  
S
NP  
N
N
N
VP  
VP  
V
V
PP  
NP VP  
N  
“tôi”  
“bò”  
“c”  
V  
V PP  
“ăn”  
“bò”  
N  
(1)  
(2)  
(3)  
(4)  
(5)  
(6)  
(7)  
(8)  
(9)  
(10)  
Trưc hết, ta thấy văn phạm này chưa phải là văn phạm phi ngcnh chun. Ta  
thc hin vic chuyển đi về văn phạm mi  
S
NP VP  
“tôi”  
“bò”  
“c”  
“tôi”  
“bò”  
“c”  
(1a)  
NP  
NP  
NP  
N
N
N
(2a) (ghép lut (2) vi lut (3))  
(3a) (ghép lut (2) vi lut (4))  
(4a) (ghép lut (2) vi lut (5))  
(5a)  
(6a)  
(7a)  
14  
VP  
VP  
VP  
V
“ăn”  
“bò”  
V PP  
“ăn”  
“bò”  
“tôi”  
“bò”  
“c”  
(8a) (ghép lut (6) vi lut (8))  
(9a) (ghép lut (6) vi lut (9))  
(10a)  
(11a)  
(12a)  
(13a) (ghép lut (10) vi lut (3))  
(14a) (ghép lut (10) vi lut (4))  
(15a) (ghép lut (10) vi lut (5))  
V
PP  
PP  
PP  
Ta có bng phân tích sau:  
S
S
NP, N, PP, VP  
Bò  
VP  
VP, V  
ăn  
NP, N, PP, VP  
cỏ  
Bng 1: Bng phân tích bng thut toán CYK  
2.2.5. Thuật toán Earley  
2.2.5.1. Mô tả  
Cũng giống nhưng CYK, Earley (Earley, 1970) sử dng cách tiếp cn bng quy  
hoạch động để đưa ra bộ phân tích top – down. Như mọi li gii ca quy hoạch động,  
thut toán này gim thi gian chy thàm mũ về hàm đa thức bng cách loi bnhng  
gii pháp con do việc quay lui sinh ra. Trong trường hp này, quy hoạch đng làm cho  
thut toán có thi gian chy là O (N3) vi N là tng stca chuỗi đu vào.  
Tư tưởng chính ca thut toán Earley là duyt ttrái qua phi và to ra mt mng  
được gi là chart có N + 1 thc th. Mi ttrong câu, chart cha mt danh sách các  
trng thái biu din tng thành phn của cây phân tích mà nó được sinh ra. Khi phân  
tích xong một câu, chart đánh dấu việc phân tích câu đầu vào đã kết thúc. Mi cây con  
có thchỉ đưc biu din mt ln duy nht và có thể đưc bphân tích sdng li.  
Mi trng thái riêng cha mt thc thchart bao gm ba thông tin: mt cây con  
tương ứng vi mt lut ngpháp, thông tin vquá trình phát trin cây, và vtrí ca  
cây con tương ứng với đầu vào. Chúng ta đặt ký tchm (.) bên phi ca mt luât  
ngữ pháp để miêu tquá trình phát triển đã phân tích được luật đó. Cấu trúc này được  
gi là dotted rule. Trng thái ca vtrí sẽ đưc miêu tbi hai số: xác định vtrí trng  
thái bắt đu và vtrí ca du chm.  
Sdụng văn phm phn 2.2.1 ta có ví dvề dotted rule như sau:  
S NP VP [0, 0]  
VP V PP [1, 2]  
N “c[2, 2]  
Nguyên lý cơ bản ca bphân tích Earley là phát trin thông qua tp N + 1 trng  
thái trong chart ttrái qua phi, xlý tng trng thái nm trong tập đó. Tại mỗi bước,  
mt trong ba toán từ đưc miêu tả ở dưới đay được áp dụng đối vi mi trng thái ca  
ca lut. Trong mỗi trường hp, kết quả được đưa thêm vào một trng thái mi da  
vào trng thái hin ti hoc kế tiếp trong chart. Thut toán luôn phát trin tiếp thông  
15  
qua vic to thêm thông tin vào chart, trng thái không bao gibhy bvà không có  
quay lui vthc thể chart trước đó. Và trng thái S α , [0, N] trong danh sách các  
trng thái là thc thchart cui cùng, thhin quá trình phân tích thành công đầu vào.  
Ba toán tchính ca thut toán Earley là PREDICTOR, COMPLETER và  
SCANNER. Các toán tnày nhận đầu vào là mt từ và dưa ra một trng thái. Hai toán  
từ PREDICTOR và COMPLETER đưa thêm các trạng thái vào thc th, còn  
SCANNER thêm trng thái vào mt thc thchart mi.  
+ Predictor  
Predictor có nghĩa là người dự đoán, đúng như tên gọi ca nó toán tnày có  
nhim vto ra trng thái mi, biu din các trng thái có thxy ra trong sut quá  
trình phân tích. PREDICTOR được áp dụng đối vi bt ktrng thái nào mà ký tự  
không kết thúc nm bên phi ca du chm và không nm trong nhóm part-of-  
speech. Kết quca toán tnày là mt trng thái mi cho mi mrộng được thay thế  
cho kí tkhông kết thúc trong ngpháp. Chúng bắt đầu và kết thúc ti vtrí ca du  
chấm trong xâu đầu vào tại điểm mà trạng thái được sinh ra kết thúc.  
+ Scanner  
Khi mt trng thái có từ được gán nhãn nm bên phi ca du chm, toán từ  
Scanner được goi để kiểm tra đầu vào và hp nht trng thái tương ứng vi các nhãn  
để đưa vào chart. Nhiệm vhoàn thành khi mt trng thái mới được tạo ra và thay đổi  
vtrí ca du chm dựa vào nhóm đầu vào đã dự đoán. Chú ý rằng, bphân tích  
Earley sdụng đầu vào như bộ phân tích top – down để tránh nhp nhng trong quá  
trình phân tích, chnhng ký tkết thúc (được gán nhãn) , nhng từ đưc dự đoán bi  
nhng trng thái, sẽ đưc phân tích bi chart.  
+ Completer  
Toán tCompleter áp dng cho nhng trng thái mà du chấm đã cui lut. Dễ  
dàng nhn thy, trng thái hin ti thhin rng bộ phân tích đã thành công trong vic  
tìm ra dn xut theo ngôn ngcủa đầu vào. Mục địch ca toán tCompleter là tìm  
trong nhng lut ngpháp và phát trin nhng trạng thái trước đối vi vtrí hin ti  
của đầu vào. Trng thái mới được to bng vic ly nhng trng thái cũ, và phát trin  
du chm thông qua lut ca ngữ pháp và đưa những trng thái mi vào thc thchart  
hin ti.  
16  
Hình 5: Mã gica thut toán Earley  
Ta sdụng văn phạm phn trước để phân tích câu “tôi bò” dùng thut toán  
Earley:  
S
NP  
N
N
N
VP  
VP  
V
V
PP  
NP VP  
N  
“tôi”  
“bò”  
“c”  
V  
V PP  
“ăn”  
“bò”  
N  
(1)  
(2)  
(3)  
(4)  
(5)  
(6)  
(7)  
(8)  
(9)  
(10)  
Chart[0]:  
S
NP VP [0, 0]  
NP  
N
N  
“tôi”  
[0, 0]  
[0, 0]  
17  
N
N
“bò”  
“c”  
[0, 0]  
[0, 0]  
Xét t“tôi”  
Chart[1]  
N
NP  
S
“tôi”   
N   
NP VP [0, 1]  
[0, 1]  
[0, 1]  
VP  
VP  
V
V  
[1, 1]  
[1, 1]  
[1, 1]  
[1, 1]  
VPP  
“ăn”  
“bò”  
V
Xét t: “bò”  
Chart[2]  
V
“bò”   
VP   
VP PP [1, 2]  
[1, 2]  
[1, 2]  
VP  
VP  
PP  
N
N
N
N  
[2, 2]  
[2, 2]  
[2, 2]  
[2, 2]  
“tôi”  
“bò”  
“c”  
SNP VP [0, 2]  
Trong Chart[2] có trng thái S NP VP [0, 2] và độ dài xâu là 2 nên thông  
báo phân tích thành công.  
2.2.5.2. Khôi phục cây cú pháp từ Chart  
Thuật toán Earley như ở trên chcó tác dụng xác định xem câu cn phân tích có  
thuc bphân tích cú pháp hay không chkhông phi là mt bphân tích cú pháp.  
Sau khi thut toán kết thúc, thc thchart cui cùng scha mt trạng thái như sau: S  
α [0, N]. Tuy nhiên, chúng ta không có phương pháp nào để thu hồi được cu trúc  
của S. Để xây dng bphân tích cú pháp tthut toán Earley, chung ta cần đưa ra  
thông tin vcú pháp từ chart. Để là được điều này, chúng ta smiêu tmi trng thái  
bng mt tham skết hp vi thông tin htrợ để lưu trữ thông tin vtrng thái kết  
thúc.  
Nhng thông tin htrợ này được sinh ra khi ta thay đổi toán tCOMPLETER.  
Bng việc đánh dấu trng thái mới được sinh ra ttrạng thái nào trước đó. Việc truy  
vết cây cú pháp tchart chỉ đơn thuần là quá trình hi quy bứt đầu vi trng thái kết  
thúc ca S trong thc thchart cui cùng.  
Nếu có nhiều cây cú pháp đối vi mt câu, thut toán Earley không thtrvề  
toàn bkết qutrong thời gian đa thức. Nhưng thời gian tt nhất để sinh ra chart là  
thời gian đa thức. Một nhược điểm nữa đó là trong quá trình to ra các chart thì thut  
toán cũng tạo ra nhng trng thái tha.  
18  
2.3. Văn phạm phi ngữ cảnh xác suất (PCFGs)  
2.3.1. Định nghĩa  
Một hướng tiếp cn mi trong vic xây dng bphân tích cú pháp là sdng  
phương pháp thống kê. Bài toán phân tích cú pháp giống như một bài toán trong hc  
máy, thông qua quá trình hun luyn xây dng mt mô hình xác suất, để thc hin vic  
la chn cây cú pháp phù hp nht. Trong phn này chúng ta stiếp cận văn phạm phi  
ngcnh xác sut (PCFG – Probabilistic Context Free Grammar). Mô hình đơn giản  
nht của PCFG là văn phạm phi ngcnh (CFG – Context Free Grammar) vi xác  
suất đưc thêm vào mi lut. Ti sao li sdụng PCFGs, đó là vì: PCFGs rt đơn giản  
và mô hình xác suất đơn giản đối vi cu trúc cây, mô hình toán học đơn giản, thut  
toán không quá phc tp, v.v…  
Văn phạm phi ngcnh xác sut bao gm:  
- Tp các ký tkết thúc { wk } vi k = 1, 2, … V  
- Tp các ký tkhông kết thúc { Ni } vi i = 1, 2, … n  
- Ký tN1 được gi là ký tbắt đu  
- Tp các lut có dng Ni αj với α [ w x N ]*  
- Tương ứng vi mi lut là mt xác sut P (Ni αj) sao cho  
vi J là tng slut có vế trái là Ni.  
Khi viết P (Ni αj) có nghĩa là P (Ni αj | Ni) – xác sut sdng lut Ni αj  
khi xut hin vế trái Ni. Để miêu tmt câu là dùng chui sau: w1w2…wm hay wab để  
miêu tmt chui ký tkhông kết thúc wa…wb. Mt dng rút gn khi biu din các  
nhánh cây có gc là nt Ni và dn xut ra xâu wa…wb như sau:  
N
wa…wb  
Hình 6: Miêu tdn xut xâu tNi  
Ta có thhiu rng xâu wa…wb có thdn xut tNj. Xác sut ca mt câu sẽ  
được tính theo công thc  
vi t là cây cú pháp ca xâu.  
Ta tháp dng PCFGs cho tập văn phạm phn 2.1:  
S
NP  
N
N
N
VP  
VP  
V
NP VP  
N  
“tôi”  
“bò”  
“c”  
V  
V PP  
“ăn”  
“bò”  
1.0  
1.0  
0.33  
0.33  
0.34  
0.5  
0.5  
0.5  
0.5  
(1)  
(2)  
(3)  
(4)  
(5)  
(6)  
(7)  
(8)  
(9)  
V
19  
PP  
N  
1.0  
(10)  
Hình 7: Cây cú pháp ca câu "bò ăn cỏ "  
Gisvi cây cú pháp này ta stính toán xác sut ca cây  
2.3.2. Nhược điểm của văn phạm phi ngữ cảnh xác suất  
- Văn phạm phi ngcnh thiếu snhạy bén đối vi các thông tin tvng. Trong  
ngôn ng, ý nghĩa và cu trúc câu phthuc nhiu vào ngcnh ca câu đó, chằng  
hn câu “Trung hiểu Nam hơn Thắng”. Câu này có thể đưa phân tích thành 2 cấu trúc  
như Hình 8 và Hình 9.  
20  
Hình 8: Cây dn xut thnht ca xâu "Trung hiểu Nam hơn Thắng"  
Hình 9: Cây dn xut thhai ca xâu "Trung hiểu Nam hơnThắng"  
21  

Tải về để xem bản đầy đủ

pdf 78 trang yennguyen 24/04/2025 30
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Phân tích cú pháp tiếng Việt theo tiếp cận thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_phan_tich_cu_phap_tieng_viet_theo_tiep_can_thong_ke.pdf