Luận văn Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình crfs theo tiêu chuẩn kỳ vọng tổng quát

- 1 -  
TRƯỜNG ………………….  
KHOA……………………….  
----------  
Báo cáo tốt nghiệp  
Đề tài:  
TRÍCH CHN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUT DÙNG KỸ  
THUT HC MÁY BÁN GIÁM SÁT DA TRÊN MÔ HÌNH CRFs THEO TIÊU  
CHUN KVNG TNG QUÁT  
1
- 2 -  
LỜI CAM ĐOAN  
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phm ca riêng cá  
nhân tôi, không sao chép li của người khác. Trong toàn bni dung ca lun  
văn, những điều được trình bày hoc là ca cá nhân hoặc là được tng hp từ  
nhiu ngun tài liu. Tt ccác tài liu tham khảo đều có xut xrõ ràng và  
được trích dn hp pháp. Tôi xin hoàn toàn chu trách nhim và chu mi hình  
thc kluận theo quy định cho lời cam đoan của mình.  
Hà Ni, 05/2011  
Phm ThNgân  
2
- 3 -  
MC LC  
LỜI CAM ĐOAN .............................................................................................. 1  
MC LC ......................................................................................................... 3  
DANH MC HÌNH V..................................................................................... 5  
DANH MC BNG BIU................................................................................ 6  
KÝ TVIT TT............................................................................................. 7  
LI CẢM ƠN.................................................................................................... 8  
LI MỞ ĐẦU.................................................................................................... 9  
CHƯƠNG 1: HC BÁN GIÁM SÁT THEO MÔ HÌNH TRƯỜNG NGU  
NHIÊN CÓ ĐIỀU KIN.................................................................................. 11  
1.1.Phương pháp học máy Trường ngẫu nhiên có điều kin ............................. 11  
1.1.1. Khái niệm trường ngẫu nhiên có điều kin ......................................... 11  
1.1.2. Hc máy CRFs ................................................................................... 13  
1.1.2.1. Hàm tiềm năng ca các mô hình CRFs .................................... 13  
1.1.2.2. Thut toán gán nhãn cho dliu dạng chui............................ 14  
1.1.2.3. Ước lượng tham scho các mô hình CRFs .............................. 15  
1.2.Hc máy bán giám sát CRFs ...................................................................... 15  
1.2.1. Hc máy bán giám sát......................................................................... 15  
1.2.1.1. Hc không có giám sát và Hc có giám t............................. 16  
1.2.1.2. Hc máy bán giám sát.............................................................. 18  
1.2.1.3. Mt sthut toán hc máy bán giám sát .................................. 19  
1.2.2. Sơ bộ vmô hình hc máy bán giám sát CRFs ................................... 21  
1.3.Kết luận chương 1 ...................................................................................... 22  
CHƯƠNG 2: HC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUN KỲ  
VNG TNG QUÁT ...................................................................................... 23  
2.1.Tiêu chun kvng tng quát .................................................................... 23  
2.1.1. Gii thiệu sơ bộ .................................................................................. 23  
2.1.2. Tiêu chun kvng tng quát............................................................. 24  
2.2.Mô hình hc máy bán giám sát CRFs theo tiêu chun kvng tng quát ... 26  
3
- 4 -  
2.3.Kết luận chương 2 ...................................................................................... 28  
CHƯƠNG 3: MỘT MÔ HÌNH HC MÁY BÁN GIÁM SÁT CRFs TRÍCH  
CHN THÔNG TIN PHÁP LUT TING VIT ......................................... 29  
3.1. Trích chn thông tin từ văn bản pháp lut tiếng Vit ................................. 29  
3.1.1. Mt số đặc trưng vmin dliệu văn bản pháp lut tiếng Vit........... 29  
3.1.2. Bài toán trích chọn thông tin văn bản pháp lut tiếng Vit.................. 31  
3.2. Mt mô hình hc máy bán giám sát CRFs trích chn thông tin pháp lut  
tiếng Vit ...................................................................................................... 31  
3.2.1. Mt sphân tích................................................................................. 31  
3.2.2. Mô hình đề ngh................................................................................. 32  
3.2.3. La chn thuc tính............................................................................ 36  
3.2.4. Cách đánh giá ..................................................................................... 36  
3.3.Kết luận chương 3 ...................................................................................... 37  
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................. 38  
4.1. Mô hình thc nghim ................................................................................ 38  
4.1.1. Dliu thc nghim........................................................................... 38  
4.1.2. Bcông cMallet .............................................................................. 38  
4.2. Thc nghiệm và đánh g.......................................................................... 38  
4.2.1. Môi trường thc nghim..................................................................... 38  
4.2.2. Mô tquy trình thc nghim............................................................... 38  
4.2.3. Kết quthc nghim........................................................................... 39  
4.2.4. Đánh giá ............................................................................................. 40  
4.3. Kết luận chương 4 ..................................................................................... 43  
KT LUN...................................................................................................... 45  
TÀI LIU THAM KHO................................................................................ 47  
4
- 5 -  
DANH MC HÌNH VẼ  
Hình 1. Đồ thvô hướng mô tả CRFs ....................................................... 12  
Hình 2. Mt bước trong thut toán Viterbi cải tiến................................... 14  
Hình 3/4. Mô hình đề xut gii quyết bài toán.......................................... 34  
Hình 5. Tp các ràng buc (Constraint file)............................................. 35  
Hình 6. Kết qunhóm thc nghim 1 ....................................................... 40  
Hình 7. Kết qunhóm thc nghim 2 ....................................................... 40  
Hình 8. Kết qunhóm thc nghim 3 ....................................................... 41  
Hình 9. Kết qunhóm thc nghim 4 ....................................................... 42  
Hình 10. Kết qunhóm thc nghim 5 ..................................................... 43  
5
- 6 -  
DANH MC BNG BIU  
Bng 1. Mu ngcnh tvng ........................................................................ 36  
Bng 2. Mu ngcnh phát hin tên thc th.................................................. 36  
Bng 3. Kết qunhóm thc nghim 1............................................................... 39  
Bng 4. Kết qunhóm thc nghim 2............................................................... 40  
Bng 5. Kết qunhóm thc nghim 3............................................................... 41  
Bng 6. Kết qunhóm thc nghim 4............................................................... 42  
Bng 7. Kết qunhóm thc nghim 5............................................................... 42  
6
- 7 -  
KÝ TVIT TT  
CRFs  
EM  
Conditional Random Fields  
Entropy Maximum  
GE  
Generalized Expectation  
Generalized Expectation Criteria  
Generalized Iterative Scaling  
independently and identically  
Improved Iterative Scaling  
Kullback Leibler  
GEC  
GIS  
i.i.d  
IIS  
KL  
L-BFGS  
LOC  
MISC  
NER  
ORG  
PER  
Limited memory Broyden–Fletcher–Goldfarb–Shanno  
LOCation  
MIScellaneous  
Named Entity Recognition  
ORGanization  
PERson  
7
- 8 -  
LI CẢM ƠN  
Để hoàn thành lun văn này tác giả đã nhận được sự giúp đỡ trt nhiều cơ  
quan, đoàn thể và cá nhân.  
Trưc hết tôi xin chân thành cảm ơn các thầy giáo, cô giáo trong Khoa  
Công nghThông tin, trường Đại hc Công nghệ, Đại hc Quc gia Hà Ni đã  
tn tình ging dy, trang bcho tôi nhng kiến thc quý báu trong sut quá trình  
hc tp tại trường.  
Tôi xin bày tlòng biết ơn sâu sắc đến TS. Nguyn Lê Minh - người thy  
đã trc tiếp hướng dn tôi trong sut quá trình xây dng và hoàn thành lun văn  
này. Tôi xin bày tlòng biết ơn chân thành đến thy giáo PGS.TS. Hà Quang  
Thy và các bn trong Phòng thí nghim công nghtri thc, Trường Đại hc  
Công nghệ đã giúp đỡ và đóng góp nhiều ý kiến quý báu cho tôi.  
Cui cùng, tôi xin bày tlòng biết ơn sâu sắc tới gia đình, bn bè, nhng  
người luôn động viên, giúp đỡ tôi rt nhit tình để hoàn thành luận văn.  
Hà Ni, tháng 05 năm 2011  
Hc viên  
Phm ThNgân  
8
- 9 -  
LI MỞ ĐẦU  
Trích chn thông tin là một khâu cơ bản trong bài toán khai phá dliu.  
Ngày nay, cùng vi sphát trin ca công nghthông tin, Tin học đã dần được  
ng dng rng rãi trong nhiu lĩnh vực như kinh tế, thương mại, y tế, ngân hàng  
và mang li nhiu li ích to ln. Bn thân tôi hiện đang công tác tại Hc vin  
Cnh sát nhân dân, tôi có nhng hiu biết nhất đnh vcông tác gigìn trt tan  
toàn xã hi ca lực lượng cnh sát nhân dân. Tôi nhn thy, các hoạt động ca  
lực lượng cnh sát có liên quan nhiều đến việc lưu trữ hồ sơ dữ liu, tra cu,  
phân tích tng hp dliu... Tuy nhiên, công tác qun lý hồ sơ dữ liu này vn  
còn kém hiu qudo nhng hn chế nhất định. Do đó tôi đã mnh dn chọn đề  
tài tp trung nghiên cu vào vic trích lc thông tin trên tập văn bản pháp lut  
này.  
Trong nhiu thp kqua, các nhà khoa học quan tâm đến lĩnh vc xlý  
ngôn ngtự nhiên đã nghiên cứu và đề xuất được nhiều phương pháp, mô hình  
xlý ngôn ngvi hiu qucao. Ni bt trong số đó là phương pháp học máy  
bán giám sát da trên mô hình trường ngẫu nhiên có điều kin theo tiêu chun  
kvng tổng quát, phương pháp này đạt được kết qurt khquan trên tp dữ  
liu ngôn ngtiếng Anh và hiện chưa được áp dng cho tiếng Việt. Được sự  
giúp đỡ và đồng ý ca Thầy giáo hướng dn TS. Nguyn Lê Minh, tác giquyết  
định sdng mô hình này ng dng cho tập văn bản pháp lut.  
Bcc ca luận văn chia thành 4 chương như sau:  
Chương 1: Trình bày nhng kiến thức cơ bản vmô hình trường ngu  
nhiên có điều kiện và phương pháp học máy bán giám sát.  
Chương 2: Trình bày vtiêu chun kvng tng quát và áp dng tiêu  
chun kvng tng quát vào mô hình trường ngẫu nhiên có điều kin.  
Chương 3: Trình bày vbài toán trích chọn thưc thtrên tập văn bản pháp  
luật và đề xut mô hình gii quyết bài toán da trên mô hình CRFs theo  
tiêu chun kvng tng quát.  
Chương 4: Trình bày các thc nghim trên tp dliu sdng mt smô  
hình hc máy có giám sát CRFs, và mô hình hc máy bán giám sát  
CRFs theo chun hóa entropy và theo tiêu chun kvng tng quát; Từ  
đó đánh giá kết quả thu được.  
Trong phn kết lun, luận văn tóm tắt li nhng công việc đã thc hin và  
các kết quả đạt được. Đồng thi cũng đề cập đến những điểm còn hn chế ca  
9
- 10 -  
luận  
văn  
và  
hướng  
nghiên  
cứu  
trong  
tương  
lai.  
10  
- 11 -  
CHƯƠNG 1  
HC BÁN GIÁM SÁT THEO MÔ HÌNH  
TRƯNG NGẪU NHIÊN CÓ ĐIU KIN  
1.1. Phương pháp học máy Trường ngẫu nhiên có điều kin  
Mô hình trường ngẫu nhiên có điều kin (Conditional Random Fields, viết  
tt là CRFs) được Lafferty và cng s, 2001 [LCP01] gii thiu lần đầu tiên vào  
năm 2001. CRFs là mô hình da trên xác sut có điều kin, nó cho phép tích hp  
được các thuộc tính đa dạng ca chui dliu quan sát nhm htrcho quá  
trình phân lp. Tuy nhiên, khác vi các mô hình xác sut khác, CRFs là mô hình  
đồ thị vô hướng. Điều này cho phép CRFs có thể định nghĩa phân phi xác sut  
ca toàn bchui trng thái với điu kin biết chuỗi quan sát cho trước thay vì  
phân phi trên mi trng thái với điều kin biết trạng thái trước đó và quan sát  
hin tại như trong các mô hình đồ thị có hướng khác. Theo Lafferty và cng sự  
[LCP01], Hanna M. Wallach, 2002 và 2004 [Wal02, Wal04], bn cht “phân phi  
điều kin” và “phân phi toàn cục” của CRFs cho phép mô hình này khc phục  
được nhng nhược điểm của các mô hình trước đó trong việc gán nhãn và phân  
đoạn các dliu dạng chui mà tiêu biu là vấn đề ‘label bias’.  
Khi đề cập đến trường ngẫu nhiên có điều kin, chúng ta sdng mt số  
qui ước kí hiu:  
Chviết hoa X, Y, Z…kí hiu các biến ngu nhiên.  
Chữ thường đậm x, y, t, s,…kí hiệu các vector như vector biu din  
chui các dliu quan sát, vector biu din chui các nhãn …  
Chviết thường in đậm và có chỉ số là kí hiu của mt thành phn  
trong mt vector, ví dxi chỉ mt thành phn tại vị trí i trong vector x.  
Chviết thường không đậm như x, y,… là kí hiu các giá trị đơn như  
mt dliu quan sát hay mt trạng thái.  
S: Tp hu hạn các trạng thái của mt mô hình CRFs.  
1.1.1. Khái niệm trường ngẫu nhiên có điều kin  
Kí hiu X là biến ngu nhiên nhn giá trị là chui dliu cn phải gán nhãn  
Y là biến ngu nhiên nhn giá trị là chui nhãn tương ứng. Mi thành phn Yi  
của Y là mt biến ngu nhiên nhn giá trị trong tp hu hạn các trạng thái S.  
Trong bài toán gán nhãn tloi, X có thnhn giá trị là các câu trong ngôn ngữ  
11  
- 12 -  
tnhiên (gm các t), Y là mt chui ngu nhiên các nhãn tương ứng vi các từ  
to thành câu này và mi mt thành phn Yi của Y có min giá trị là tp tt cả các  
nhãn tloi có th(danh từ, động t, tính t,...).  
Cho một đồ thị vô hướng phi chu trình G = (V, E), ở đây V là tp các đỉnh  
của đồ thị và E là tp các cạnh vô hướng ni các đỉnh đồ thị. Các đỉnh V biu  
din các thành phn của biến ngu nhiên Y sao cho tn tại ánh xạ mt- mt gia  
một đỉnh và mt thành phn Yv của Y. Ta nói (Y|X) là mt trường ngu nhiên  
điều kin (Conditional Random Field) khi với điều kin X, các biến ngu nhiên  
Yv tuân theo tính chất Markov đối với đồ thG [LCP01]:  
P(Y | X,Y,v) P(Y | X,Y,N(v))  
(1.1)  
v
v
Ở đây, N(v) là tp tt cả các đỉnh kvi v. Như vậy, mt CRF là mt  
trường ngu nhiên phụ thuc toàn cục vào X. Trong các bài toán xử lý dliu  
dạng chui, G đơn giản chỉ là dng chui G = (V={1,2,…m}, E={(i,i+1)}).  
Kí hiu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mô hình đồ thị cho CRFs có  
dạng:  
Yn-1  
Hình 1. Đồ thvô hướng mô tả CRFs  
Gọi C là tp hp tt cả các đồ thị con đầy đủ của đồ thị G - đồ thị biu din  
cu trúc của mt CRFs. Áp dụng kết quả của J.Hammersley và P. Clifford, 1971  
[HC71] cho các trường ngu nhiên Markov, stha số hóa được p(y|x) - xác  
sut của chui nhãn với điều kin biết chui dliu quan sát - thành tích của  
các hàm tiềm năng như sau (theo [Wal04]):  
P(y | x)   
( A | x)  
(1.2)  
A
AC  
Vì trong các bài toán xử lý dliu dạng chui, đồ thị biu din cu trúc của  
mt CRF có dạng đường thẳng như trong hình 1 cho nên tp C phải là hp của E và  
V, trong đó E là tp các cạnh của đồ thị G V là tp các đỉnh của G, hay nói cách  
khác đồ thị con A hoc chỉ gm một đỉnh hoc chỉ gm mt cạnh của G.  
12  
- 13 -  
1.1.2. Hc máy CRFs  
1.1.2.1. Hàm tiềm năng của các mô hình CRFs  
Lafferty và cng s[LCP01] gii thiệu phương pháp c định các hàm  
tiềm năng cho các mô hình CRFs da trên nguyên lý cực đại hóa Entropy. Cc  
đại hóa Entropy là mt nguyên lý cho phép đánh giá các phân phi xác sut từ  
mt tp các dliu hun luyn. Bng cách áp dụng nguyên lý cực đại hóa  
Entropy, Lafferty xác định hàm tiềm năng ca mt CRF có dạng mt hàm .  
A | x exp f A | x  
(1.3)  
A
k
k
k
Ở đây fk là mt thuc tính của chui dliu quan sát và k là trọng số chỉ  
mức độ biểu đạt thông tin của thuc tính fk.  
Có hai loại thuc tính là thuc tính chuyn (kí hiu là t) và thuc tính trạng  
thái (kí hiu là s) tùy thuc vào A đồ thị con gm một đỉnh hay mt cạnh của  
G. Thay các hàm tiềm năng vào công thc (1.2) và thêm vào đó mt tha số  
chun hóa Z(x) để đảm bảo tng xác sut của tt cả các chui nhãn tương ứng  
vi mt chui dliu quan sát bng 1, ta được:  
1
P(y | x)   
exp  
t (y ,y ,x)   
s (y ,x)  
(1.4)  
  
  
k
k
i1  
i
k
k
i
Z(x)  
i
k
i
k
Ở đây, x, y là chui dliu quan sát và chui trạng thái tương ứng; tk là  
thuc tính của tòan bchui quan sát và các trạng thái tại ví trí i-1, i trong chui  
trạng thái; sk là thuc tính của toàn bchui quan sát và trạng thái tại ví trí i  
trong chui trạng thái.  
1 nếu xi=Bill và yi= B_PER  
si =  
0 nếu ngược lại  
1 nếu xi-1= “Bill”, xi=”Clinton” và yi-1=B_PER,yi=I_PER  
ti =  
0 nếu ngược lại  
=
Tha schun hóa Z(x) được tính như sau:  
Z(x) exp  
t (y ,y ,x)   
s (y ,x)  
(1.5)  
   
  
k
k
i1  
i
k
k
i
y
i
k
i
k
Đặt(1 ,2 ,...,1, 2 ..) là các vector các tham số của mô hình, được ước  
lượng giá trị nhờ các phương pháp ước lượng tham scho mô hình sẽ được đề  
cp trong phn sau.  
13  
- 14 -  
1.1.2.2. Thut toán gán nhãn cho dliu dạng chui.  
Tại mi vị trí i trong chui dliu quan sát, ta định nghĩa mt ma trn  
chuyn |S|×|S| như sau:  
M i (x)   
M i (y', y, x)  
(1.6)  
M (y', y,x) exp  
t (y', y,x) s (y,x)  
(1.7)  
  
i
k
k
k
k
k
k
Ở đây Mi(y’, y, x) là xác sut chuyn từ trạng thái y’ sang trạng thái y vi  
chui dliu quan sát là x. Chui trạng thái y* tả tt nht cho chui dliu  
quan sát x là nghim của phương trình:  
y* = argmax{p(y|x)}  
(1.8)  
Chui y* được xác định bng thut toán Viterbi cải tiến [Spr07] như mô tả  
trong hình 2. Định nghĩa i (y) là xác sut của “chui trạng thái độ dài i kết thúc  
bi trạng thái y và có xác sut ln nht” biết chui quan sát là x.  
Giả sbiết tt cả i (yk ) vi mọi yk thuc tp trạng thái S của mô hình, cn  
(y )  
c định  
. Từ hình 2, ta suy ra công thc truy hi  
i1  
j
i1(y j ) max i1 (yk )*Mi (yk , y j ,x) yk S  
(1.9)  
i1(yj )  
Pri (y1)  
i (y2 )  
?
Pr  
i (yN )  
Hình 2. Mt bước trong thut toán Viterbi cải tiến  
Pr ei (y) arg max
i1 (y')* M i (y', y, x)
  
Đặt  
. Giả schui dliu quan sát x  
độ dài n, sử dụng thut backtracking để tìm chui trạng thái y* tương ứng  
như sau:  
Bước 1: Vi mọi y thuc tp trạng thái tìm  
y *(n) argmax  
n (y)  
o
o i n  
14  
- 15 -  
Bước lp: chng nào i>0  
o i i-1  
o y Prei(y)  
o y*(i) = y  
Chui y* m được chính là chui có xác sut p(y*|x) ln nht, đó cũng  
chính là chui nhãn phù hp nht vi chui dliu quan sát cho trước.  
Như vậy, do bn cht phân phi toàn cc ca mình, CRFs có thể giải quyết  
được vn đề ‘label bias’, một nhược điểm tiêu biu ca mô hình MEM [MMI02,  
Wal04]. Ở phương diện lý thuyết mô hình, ta có thcoi mô hình CRFs như là  
mt máy trạng thái xác sut vi các trọng skhông chun hóa, mi trọng sgn  
lin vi mt bước chuyn trạng thái. Bản cht không chun hóa của các trọng số  
cho phép các bước chuyn trạng thái có thnhn các giá trị quan trọng khác  
nhau. Vì thế bt cmt trạng thái nào ng có thể làm tăng hoặc giảm xác sut  
được truyn cho các trạng thái sau nó mà vẫn đảm bảo xác sut cui cùng được  
gán cho toàn bchui trạng thái thỏa mãn định nghĩa về xác sut nhtha số  
chun hóa toàn cục.  
1.1.2.3. Ước lượng tham scho các mô hình CRFs  
thuật được sử dụng để đánh giá tham scho mt mô hình CRFs là làm  
cực đại hóa độ đo likelihood giữa phân phi mô hình và phân phi thc nghim.  
Nguyên lý cực đại likelihood được phát biểu như sau: Các tham số tt nht  
ca mô hình là các tham slàm cực đại hàm likelihood. Như vậy, về phương  
din toán học, bài toán ước lượng tham scho mt mô hình CRFs chính là bài  
toán tìm cực đại của hàm log-likelihood. Có nhiều phương pháp tìm cực đại của  
hàm log-likelihood như các phương pháp lặp (IIS, GIS), các phương pháp tối ưu  
số (phương pháp dựa trên vector gradient như phương pháp gradient liên hợp,  
quasi-Newton …) và L-BFGs có thể phục vụ cho ước lượng tham smô hình.  
Trong các phương pháp tìm cc trị hàm log-likelihood này, phương pháp L-  
BFGs được đánh giá là vượt tri và có tốc độ hi tnhanh nht [Mal02].  
1.2. Hc máy bán giám sát CRFs  
1.2.1. Hc máy bán giám sát  
Trong lý thuyết xác sut, mt dãy các biến ngẫu nhiên được gọi là có độc  
lp cùng phân phi nếu chúng có cùng mt phân phối và độc lp vi nhau. Các  
quan sát trong mt mẫu thường được githiết là độc lp cùng phân phi nhm  
làm đơn giản hoá tính toán toán học bên dưới ca nhiều phương pháp thng kê.  
Trong nhiu ng dụng, điều này thường không thc tế. Trưc khi nghiên cu về  
15  
- 16 -  
hc máy bán giám sát, tôi gii thiu sơ bộ về hai phương pháp học máy cơ bản  
là Hc không có giám sát và Hc có giám sát.  
1.2.1.1. Hc không có giám sát và Hc có giám sát  
Hc không có giám sát (unsupervised learning): Là phương pháp học máy  
nhm tìm ra mt mô hình phù hp vi các quan sát. Cho trước mt mu chgm  
các đối tượng (objects), cn tìm kiếm cu trúc quan tâm (interesting structures)  
ca dliệu, và nhóm các đối tượng ging nhau.  
Học không giám sát thường coi các đối tượng đầu vào là mt tp các biến  
ngu nhiên. Sau đó, một mô hình mật độ kết hp sẽ được xây dng cho tp dữ  
liệu đó. Biu din toán hc của phương pháp này như sau:  
Cho X=(x1 , x2 , …, xn ) là tp hp gm n mu (examples or points), xi  
X vi mi i[N]:= {1,2, ..., n}. Thông thường, ta githiết rng các mẫu được  
to ra một cách độc lp và ging nhau (i.i.d – independently and identically  
distributed) tmt phân phi chung trên Χ. Mục đích của hc không giám sát là  
tìm ra mt cu trúc thông minh trên tp dliệu đó.  
Hc không có giám sát có thể được dùng kết hp vi suy din Bayes  
(Bayesian inference) để cho ra xác suất có điều kin (nghĩa là hc có giám sát)  
cho bt kì biến ngu nhiên nào khi biết trước các biến khác.  
Hc không giám sát cũng hu ích cho vic nén dliu: về cơ bản, mi gii  
thut nén dliu hoc là da vào mt phân bxác sut trên mt tập đầu vào mt  
cách tường minh hay không tưng minh.  
Hc giám sát (supervised learning): Là phương pháp học máy xây dng  
mt hàm tdliu hun luyn. Cho trước mt mu bao gm các cặp đối tượng -  
nhãn (xi,yi), cn tìm ra mi quan hdự đoán giữa các đối tượng và các nhãn.  
Mục đích là học mt phép ánh xtx tới y, khi cho trước mt tp hun luyn  
16  
- 17 -  
gm các cp (xi,yi), trong đó yi Y gi là các nhãn hoặc đích của các mu Xi.  
Nếu nhãn là các s,  
biu din vector ct ca các nhãn. Như đã nêu,  
mt yêu cu chun là các cp (xi,yi) tuân theo githiết i.i.d tri khp trên X×Y.  
Nhim vụ được định rõ là, ta có thể tính toán được mt phép ánh xthông qua  
thc thi dự đoán của nó trên tp kim th. Nếu các nhãn lp là liên tc, nhim  
vphân lớp được gi là hi quy. Có hai hthut toán giám sát: generative  
model và discriminative model:  
Generative model: Phương pháp này sẽ to ra mt mô hình mật độ phụ  
thuc vào lp (class-conditional density) p(x|y) bng mt vài thtc hc không  
giám sát. Mt mật độ sinh có thể được suy lun bng cách sdng lý thuyết  
Bayes.  
Gi là mô hình sinh vì ta có thtto ra các mu dliu.  
Discriminative model: Phương pháp này sẽ thay vì đánh giá xi được to ra  
như thế nào mà tập trung đánh giá p(y|x) . Một vài phương pháp discriminative  
hn chế chúng để mô hình xem p(y|x) lớn hơn hoặc nhỏ hơn 0.5, ví dụ như  
SVM. Trong thc hành, phương pháp này thường được đánh giá là hiệu quả hơn  
phương pháp sinh (generative).  
Để có thgii quyết một bài toán nào đó của học có giám sát người ta phi  
xem xét nhiều bước khác nhau:  
1. Xác định loi ca các ví dhun luyện. Trước khi làm bt cứ điu gì,  
người kĩ sư nên quyết định loi dliu nào sẽ được sdng làm ví  
d. Chng hạn, đó có thể là mt kí tviết tay đơn lẻ, toàn bmt từ  
viết tay, hay toàn bmt dòng chviết tay.  
2. Thu thp tp hun luyn. Tp hun luyn cần đặc trưng cho thực tế sử  
dng ca hàm chức năng. Vì thế, mt tập các đối tượng đầu vào được  
thu thập và đầu ra tương ứng được thu thp, hoc tcác chuyên gia  
hoc tviệc đo đạc tính toán.  
3. Xác đnh vic biu diễn các đặc trưng đầu vào cho hàm chức năng cần  
tìm. Schính xác ca hàm chức năng phụ thuc lớn vào cách các đối  
17  
- 18 -  
tượng đầu vào được biu diễn. Thông thường, đối tượng đầu vào được  
chuyển đổi thành mt vec-tơ đặc trưng, chứa mt số các đặc trưng  
nhm mô tả cho đối tượng đó. Số lượng các đặc trưng không nên quá  
ln, do sbùng nthp; nhưng phải đủ lớn để dự đoán chính xác  
đầu ra.  
4. Xác định cu trúc ca hàm chức năng cần tìm và gii thut học tương  
ng. Ví dụ, người kĩ sư có thể la chn vic sdng mạng nơ-ron  
nhân to hay cây quyết định.  
5. Hoàn thin thiết kế. Người kĩ sư sẽ chy gii thut hc ttp hun  
luyn thu thập được. Các tham sca gii thut hc có thể được điều  
chnh bng cách tối ưu hóa hiệu năng trên một tp con (gi là tp  
kim chng -validation set) ca tp hun luyn, hay thông qua kim  
chng chéo (cross-validation). Sau khi học và điều chnh tham s,  
hiệu năng của gii thut có thể được đo đạc trên mt tp kiểm tra độc  
lp vi tp hun luyn.  
Trong “hc có giám sát”, các dliệu được gán nhãn nên vic gii quyết  
vấn đề thường thun lợi hơn rất nhiu. Tuy nhiên, vi mt số lượng dliu ln  
thì công vic gán nhãn cho dliệu đòi hi nlc của con người và tn nhiu  
thi gian. Còn “hc không có giám sát” là mô hình hóa mt tp dliệu, trong đó  
dliệu đầu vào chưa được gán nhãn mà nó da trên môt mô hình phù hp vi  
các quan sát, vì vy vi mt số lượng ln dliu thì schính xác ca kết quả  
thu được không cao. Thc tế cho thy rng, dliệu chưa được gán nhãn có thể  
thu thập được rt nhiu và mt cách ddàng. Tuy nhiên để xlý số lượng dữ  
liệu đó có kết qutt cũng gp nhiều khó khăn.  
1.2.1.2. Hc máy bán giám sát  
“Hc máy bán giám sát” là skết hp gia “hc có giám sát” và “hc  
không có giám sát”. Vi mt số lượng ln dliu, kcdliệu chưa gán nhãn  
và nhng dliệu đã được gán nhãn, sẽ được “máy hc” gii quyết bng mt  
cách tt nht bng các gii thut “hc bán giám sát.  
Từ đó, hc bán giám sát có thể được xem là:  
- Hc giám sát cng thêm dliệu chưa gán nhãn (Supervised learning  
+additional unlabeled data).  
- Hc không giám sát cng thêm dliu gán nhãn (Unsupervised  
learning + additional labeled data).  
Hc bán giám sát chính là cách hc sdng thông tin có cdliu gán  
nhãn (trong tp dliu hun luyn) ln dliệu chưa gán nhãn. Các thut toán  
18  
- 19 -  
hc bán giám sát có nhim vchính là mrng tp các dliu gán nhãn ban  
đầu. Hiu quca thut toán phthuc vào chất lượng ca các mu gán nhãn  
được thêm vào mi vòng lặp và được đánh giá dựa trên hai tiêu chí:  
- Các mẫu được thêm vào phải được gán nhãn mt cách chính xác.  
- Các mẫu được thêm vào phi mang li thông tin hu ích cho bphân  
lp (hoc dliu hun luyn).  
Các phương pháp học bán giám sát srt hu ích khi dliệu chưa gán nhãn  
nhiều hơn dữ liu gán nhãn. Việc thu được dliu gán nhãn là rẻ, nhưng để gán  
nhãn chúng thì tn rt nhiu thi gian, công sc và tin bc. Đó là tình trng ca  
rt nhiu các lĩnh vc ng dng trong học máy như:  
- Trong nhn dng li nói, ta sddàng ghi li một lượng ln các bài din  
thuyết, nhưng để gán nhãn chúng yêu cầu con người phi lng nghe rồi đánh  
máy sao chép li.  
- Sphong phú ca hàng tcác trang web sn sàng cho xlý tự động, nhưng  
để phân lp chúng mt cách tin cậy đòi hỏi con ngưi phải đc chúng.  
- ...  
Hc bán giám sát là vic hc trên cdliu đã và chưa được gán nhãn. Từ  
mt số lượng ln các dliệu chưa được gán nhãn, và mt tp vi slung nhỏ  
dliệu đã được gán nhãn ban đầu (thường gọi là seed set) để xây dng mt bộ  
phân lp thm chí là tốt hơn. Trong quá trình học như thế, phương pháp học sẽ  
tn dụng được nhng thông tin phong phú ca dliệu chưa gán nhãn, mà chỉ  
yêu cu mt số lượng rt nhcác dliệu đã gán nhãn.  
1.2.1.3. Mt sthut toán hc máy bán giám sát  
Theo Zhi-Hua Zhou và Ming Li, 2010 [ZL10], có rt nhiu các thut toán  
hc máy bán giám sát và có thchia thành bốn nhóm phương pháp như sau:  
phương pháp sinh [MU97, NCT00, SL94], S3VMs (Semi-Supervised Support  
Vector Machines – phương pháp máy vectơ hỗ trbán giám sát) [CZ05, GY05,  
Joa99, LJ05], phương pháp dựa trên đồ th[BN04, BNS05, BNS06, ZBL04,  
ZGL03] và phương pháp dựa trên mâu thun [ZL07, ZL05, ZZY07, ZC06,  
NG00, GZ00, BS06, BM98].  
- Trong phương pháp sinh, cả tp mu gán nhãn và chưa gán nhãn được giả  
thiết được sinh ra tmô hình cùng tham số. Do đó, những tham smô  
hình có liên kết trc tiếp nhng mẫu chưa gán nhãn vi mc tiêu hc.  
Nhng mô hình trong phương pháp này thường coi nhng nhãn ca dữ  
liệu chưa gán nhãn là nhng giá trthiếu ca tham smô hình và sdng  
thut toán cực đại hóa kvọng EM [DLR77] để tính toán ước lượng cc  
19  
- 20 -  
đại likelihood ca tham smô hình. Nhng thuật toán trong phương pháp  
này khác nhau mô hình sinh được sdụng để phù hp vi dliu, ví dụ  
phương pháp pha trộn Gaussian [SL94], phương pháp Naïve Bayes  
[NCT00]. Nhng mô hình sinh thực thi đơn giản, ddàng và có thhiu  
quả hơn mô hình discriminative khi hc vi mu gán nhãn nh. Tuy  
nhiên, nhóm thuật toán này có nhược điểm lớn đó là khi giả thiết mô hình  
sai hoc mô hình sdng tp dliệu chưa gán nhãn ln thì vic thc thi  
bkém hiu quả. Do đó, để mô hình này thc thi có hiu qutrong nhng  
ng dng thc, cn phi tạo được mô hình sinh chính xác da trên min  
tri thc, hoặc người ta có thkết hp nhng mt tích cc ca mô hình  
sinh và mô hình discriminative [AG05, FUS05]. Mt sthuật toán điển  
hình của phương pháp này được Xiaojin Zhu đề cập trong [Zhu08] như:  
Thut toán hc bán giám sát cực đại kvọng EM địa phương, Thuật toán  
Self-training...  
- Phương pháp S3VMs cố gng sdng dliệu chưa gán nhãn để điều  
chỉnh đường biên quyết định được hc ttp nhnhng mu dliu gán  
nhãn, nhờ đó có thể đi qua được những vùng dày đặc trong khi vn giữ  
được phân lp chính xác cho dliu gán nhãn. T. Joachims, 1999 [Joa99]  
đề xut mô hình TSVM (Transductive Support Vector Machine). Đầu  
tiên, thut toán này khi to mt SVM sdng nhng mu gán nhãn và  
gán nhng nhãn tiềm năng cho dữ liệu chưa gán nhãn. Sau đó, nó lặp li  
vic cực đại hóa biên ca cdliu gán nhãn và chưa gán nhãn vi nhng  
nhãn tiềm năng bằng cách đặt nhãn ca dliệu chưa gán nhãn trên các  
mt ca biên quyết định. Cách này có thể đạt được gii pháp tối ưu đó là  
biên quyết định không chphân lp chính xác dliu gán nhãn mà còn  
tránh đưc việc đi qua vùng mật độ cao. Tuy nhiên, độ không li ca hàm  
thit hi (loss function) trong TSVM sdẫn đến thc tế là có nhiều điểm  
tối ưu cục bộ. Do đó nhiều nghiên cứu được đề xuất để giảm tác động tiêu  
cc này.  
- Phương pháp học bán giám sát dựa trên đồ thị đầu tiên có ththc thi  
được đề xut bi Blum và Chawla, 2001 [BC01], hxây dng một đồ thị  
vi các nút là nhng mu hun luyn (cgán nhãn và chưa gán nhãn) và  
cnh gia các nút thhin mi quan hgia nhng mẫu tương ứng ví dụ  
như quan hệ đồng dng. Dựa trên đồ thnày, vấn đề hc bán giám sát có  
thể được gii quyết bng vic tìm đường ct nhnht của đồ thmà theo  
đó những nút trong mi phn có cùng nhãn. Sau đó, A. Blum và cộng s,  
2004 [BLR04] làm nhiễu đồ thbng mt số điểm ngu nhiên và to ra  
20  
- 21 -  
đường ct “mm” nhnht sdng phiếu bu tối đa. Cả [BC01] và  
[BLR04] đều sdng hàm dự đoán rời rc ví ddự đoán của nhng mu  
chưa gán nhãn có thlà mt trong các nhãn có th. X. Zhu và cng s,  
2003 [ZGL03] mrng hàm dự đoán rời rc thành hàm liên tc. D. Zhou  
và cng s, 2004 [ZBL04] định nghĩa độ thit hi bình phương của hàm  
dự đoán thông qua cả dliu gán nhãn và chưa gán nhãn và đồ thị  
Laplacian chun hóa. Hu hết nhng nghiên cứu trước đây về hc bán  
giám sát dựa trên đồ thị thường tp trung vào vic xây dng một đồ thị  
phản ánh được mi quan hthiết yếu ga nhng mẫu, đây là điều then  
chốt có tác động lớn đến thc thi vic hc. Sau này, nhiu nghiên cứu đã  
cgng ci thiện đồ thbng vic thêm vào những đặc trưng miền tri  
thc. X. Zhang và W. S. Lee, 2007 [ZL07b] chn di thông RBF tốt hơn  
để cc tiu hóa li dự đoán trên dữ liu gán nhãn sdụng đánh giá chéo.  
M. Hein và M. Maier, 2007 [HM07] cgng gim dliu nhiễu để đạt  
được đồ thtốt hơn... Mặc dù phương pháp học bán giám sát dựa trên đồ  
thị được ng dng khá rng rãi nhưng nó có nhược điểm ln vquy mô.  
- Phương pháp học bán giám sát da trên mâu thuẫn được đưa ra gần đây  
bi Z. H. Zhou, 2008 [Zho08] da trên nhng nghiên cu ca A. Blum và  
T. Mitchell, 1998 [BM98]. Trong phương pháp này, nhiều máy học được  
hun luyn cho cùng tác vvà mu thun gia các máy hc sny sinh  
trong quá trình hc. Ở đây, dữ liệu chưa gán nhãn được coi là “cơ sở” cho  
việc trao đổi thông tin. Nếu mt máy hc nào chc chắn hơn các máy học  
khác vmt mẫu chưa gán nhãn đang tranh luận thì máy học đó sẽ dy  
cho các máy hc khác vmẫu này, sau đó mẫu này có thể được chọn để  
truy vấn. Do đó, phương pháp này không có những nhược điểm như  
nhng mô hình khác như vi phạm githiết mô hình, hàm thit hi không  
lồi, hay nhược điểm vquy mô ca thut toán hc. Thuật toán điển hình  
của nhóm phương pháp này được Ziaojin Zhu đề cp trong [Zhu08] là  
Thut toán Co-training.  
Mỗi phương pháp học bán giám sát đều có những ưu và nhược điểm riêng.  
Do đó tùy thuộc vào ng dng và loi dliu mà la chọn phương pháp hc và  
thut toán cthcho phù hp.  
1.2.2. Sơ bộ vmô hình hc máy bán giám sát CRFs  
Như phân tích ở 1.2.1, có nhiều phương pháp học bán giám sát và mi  
phương pháp có những ưu và nhược điểm riêng. Luận văn của tác gitp trung  
21  
- 22 -  
nghiên cu mô hình hc bán giám sát CRFs, mô hình này thuộc nhóm phương  
pháp sinh.  
Mô hình hc bán giám sát CRFs là mô hình kết hợp được cdliu chui  
đã gán nhãn và chưa gán nhãn; mô hình đã khc phục được nhng yếu điểm ca  
các mô hình khác và được ng dng trong nhiu nghiên cu vxlý ngôn ng.  
Feng Jiao và cng s, 2006 [JWL06] đã đề xut thut toán tn dng dliệu chưa  
gán nhãn qua chun hóa entropy (entropy regularization) – thuật toán được mở  
rng ttiếp cận được đề xut trong [GB04] cho mô hình CRFs có cu trúc. Mt  
tiếp cn khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory Druck và  
cng s[DMC08] đề xuất phương pháp học bán giám sát CRFs sdng tiêu  
chun kvng tổng quát GE, phương pháp này sẽ gii thiu trong mc 2.2.  
Trong phương pháp này, thay vì sdng các mu gán nhãn máy hc struy cp  
các đặc trưng gán nhãn. Những đặc trưng này có thể được gán nhãn vi chi phí  
thấp hơn nhiều so vi gán nhãn toàn bmu dliu vì vic gán nhãn đặc trưng  
có thchcn gán nhãn cho nhng phn nhca cu trúc chui hoc cây.  
Bên cạnh đó, việc sdng tiêu chun kvng tng quát xác lp các tham  
strong hun luyn hàm mc tiêu cho phép tạo được kvng mô hình gn vi  
phân phi mc tiêu. Luận văn sẽ tiến hành thc thi mô hình này trên tp dliu  
tiếng Vit và so sánh vi mt số phương pháp khác. Kết quthc nghim sthể  
hin ở Chương 4.  
1.3. Kết luận chương 1  
Chương này gii thiu vmô hình trường ngẫu nhiên có điều kin – mt  
mô hình khá phbiến và hiu qutrong các ng dng vxlý ngôn ngtự  
nhiên - và gii thiu về các phương pháp học máy bán giám sát – một phương  
pháp được coi là tn dụng được các ưu điểm của hai phương pháp học máy có  
giám sát và hc không có giám sát. Từ đó, sơ lược vmt smô hình hc máy  
bán giám sát áp dng vào mô hình trường ngẫu nhiên có điều kin, ni bt là mô  
hình hc máy bán giám sát CRFs sdng tiêu chun kvng tng quát; mô  
hình này sẽ được gii thiệu và phân tích trong chương tiếp theo ca luận văn.  
22  
- 23 -  
CHƯƠNG 2  
HC MÁY BÁN GIÁM SÁT CRFs THEO  
TIÊU CHUN KVNG TNG QUÁT  
2.1. Tiêu chun kvng tng quát  
2.1.1. Gii thiệu sơ bộ  
Những phương pháp học có giám sát đòi hi tập các trường hp gán nhãn  
ln và nó hn chế khả năng hc nhng min tri thc mi. Những phương pháp  
hc bán giám sát vi mục tiêu tăng cường sdng tập các trường hợp chưa gán  
nhãn là gii pháp lý tưởng nhm gim các nlc gán nhãn dliu. Tuy nhiên,  
phương pháp này thường phc tp vtính toán và phải tính đến độ tin cy trong  
các trường hp siêu tham snhy cm ca những phương pháp học bán giám  
sát. Trong khi đó, chúng ta cần một phương pháp đơn giản nhưng hiệu qucho  
phép thc hin nhng mô hình hun luyn trên nhng min tri thc mới và đòi  
hi ti thiu vic gán nhãn. Một phương pháp bán giám sát mới kết hp tri thc  
tin nhim gia những đặc trưng và lớp vào vic hun luyn sdng tiêu chun  
kvng tng quát (GEC), được Andrew McCallum và cng s, 2007 [CMD07]  
gii thiu, đã và đang gây được nhiu chú ý và đưa vào nhiều ng dng.  
Tiêu chun kvng tng quát (GEC) [CMD07] là những điều kin (term)  
trong hàm mc tiêu hun luyn cho phép gán giá trcho kvng mô hình. GEC  
có điểm ging với phương pháp mô-men, nhưng cho phép biểu din nhng tham  
chiếu vô hướng tùy ý trên các kvng ca nhng hàm tùy biến mà không yêu  
cu scân bng mô-men mu và mô-men mô hình. Đồng thi, GEC cũng có 3  
điểm khác căn bản vi nhng hàm mc tiêu hun luyn truyn thng; Đó là,  
không cn ánh xmt-mt gia những điều kin GEC và nhng tham smô  
hình, nhng kvng mô hình cho những điều kin GEC khác nhau có thể được  
hun luyn trên nhng tp dliu khác nhau, kvng tham chiếu (hàm score)  
có thể xác định tnguồn khác như những tác vkhác, nhng tri thc tin  
nghim.  
Phương pháp được sdng trong luận văn này là sử dng kết hp nhng  
đặc trưng và lớp biết trước. Kvng ca mô hình được ước lượng tnhng  
phân phi lớp được hun luyn tnhững đặc trưng lựa chn và hàm tslà  
phân kKL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959,  
[Kul59]) – là độ đo không đối xng gia 2 phân bxác sut – phân phi xác  
23  
- 24 -  
sut thc và phân phi xác sut mc tiêu - tnhng phân phi tham chiếu được  
ước lượng tnhng nguồn đã có. Kết hp những điều kin GEC vi tham số đã  
biết cho phép sdng nhng mẫu đồng xut hin trong dliệu chưa gán nhãn  
để hc nhng tham scho những đặc trưng mà chưa có trong thông tin tiền  
nghim.  
Phương pháp áp dng trong luận văn để thc hin tác vNhn dng tên  
thc thể (NER) như tên người, tên địa điểm, tchc và nhng thc thkhác.  
2.1.2. Tiêu chun kvng tng quát  
Nhng mô hình học bán giám sát trước đây đã khc phc mt shn chế là  
sdng dliệu được gán nhãn đầy đủ vi dliệu không được gán nhãn hoc  
vi các ràng buc (ví dnhững đặc trưng được đánh dấu vi nhãn chính ca nó).  
GEC có thsdng nhiều thông tin hơn những mô hình trước nó. Trong GEC  
có thtn dng thun li ca phân bxác suất điều kin ca nhng nhãn cho  
trưc một đặc trưng (p(y|fk(x) = 1)). Thông tin này cung cp ràng buc phong  
phú hơn cho mô hình trong khi vn gili tính ddịch. Con người thường có  
trc giác tt vkhả năng dự đoán quan hệ ca những đặc trưng khác nhau. Ví  
d, rõ ràng là xác sut ca nhãn PERSON gán cho từ đặc trưng JOHN là cao, có  
thể đến 0.95 trong khi cho tBROWN thì tlthấp hơn có thể là 0.4. Nhng  
phân bcần được ước lượng với độ chính xác cao và vic tdo biu din mc  
độ phân btốt hơn nhiều so vi vic sdng tín hiu giám sát nhphân. Thun  
li khác ca vic sdng nhng phân bxác suất điều kin - ràng buc xác sut  
là chúng có thdễ dàng ước lượng tdliệu. Đối với đặc trưng bắt đầu bng  
chhoa INITIAL-CAPITAL, tôi xác định tt cthvới đặc trưng đó và đếm số  
nhãn xut hin cùng.  
GEC cgng khp nhng phân bxác suất điều kin này bng kvng mô  
hình trên dliệu chưa gán nhãn, ví dkhuyến khích mô hình dự đoán rằng tlệ  
nhãn PERSON gán cho tJohn có thlà 0.95 trên tt cả điều kiện chưa gán  
nhãn.  
Cho X là tp các biến kí hiu là x X. Cho θ là nhng tham sca mt số  
mô hình, cho phép xác định phân bxác sut trên tp X, pθ(X). Kvng ca các  
hàm f(X) theo mô hình là  
(2.1)  
Trong đó, f(x) là một hàm bt kca biến x cho giá trị vô hướng hoc  
vecto. Hàm này có thchphthuc vào tp con ca tp biến x.  
24  
- 25 -  
Và nhng kvng cũng có thể được xác định trên nhng phép gán giá trị  
biến, ví d, khi thc hin hun luyn xác suất điều kin ca mt smô hình.  
Trong trường hp này, nhng biến được chia thành biến đầu vào X và biến đầu  
ra Y. Mt tp các phép gán cho biến đầu vào (nhng trường hp dliu hun  
luyn)  
= {x1, x2,...} có thể cho trước và kvọng điều kin là  
(2.2)  
Mt GEC được định nghĩa là mt hàm G, sdng tham slà kvng ca  
mô hình f(X) và trvmt giá trị vô hướng, giá trị này được bổ sung vào như là  
một điều kin trong hàm mục tiêu ước lượng tham s:  
(2.3)  
Trong mt số trường hp, G có thể được định nghĩa da trên khong cách  
đến giá trị đích cho Eθ[f(X)]. Cho là giá trị đích và cho ∆(·, ·) là hàm khong  
cách. Trong trưng hp này, G có thể định nghĩa là:  
(2.4)  
Như đã mô tả ở trên, GEC là mt dng tổng quát, nó coi các phương pháp  
ước lượng tham struyn thống khác là trường hợp đặc bit. Có thphân chia  
GEC theo mức độ linh hoạt như sau:  
1. Mt GEC được xác định một cách độc lp theo tham shóa. Trong các  
phương pháp ước lượng tham struyn thng - phương pháp đồ th, có  
sự tương ứng mt-mt gia các tp con ca các biến sdng trong mi  
phn tham shóa ca mô hình và tp con ca các biến trong đó các kỳ  
vọng được xac định cho hàm mc tiêu. Trong GEC, mi tp con này có  
thể được la chọn độc lp.  
2. Nhng GEC điều kin khác nhau không cn tt cả các điều kin cho  
những trường hp ging nhau, chúng có thể tác động đến nhng tp dữ  
liu khác nhau hoc nhng skết hp khác nhau ca nhng tp dliu.  
3. “Du hiu hun luyn” có giám sát bt kể ở kvọng đích hay tổng  
quát, trng thái ca hàm ts, G, có thể xác định tdliu hun luyn  
gán nhãn hoc bt kngun nào, bao gm cnhng tác vkhác hoc  
tri thc tin nghim.  
Do đó, một GEC có thể được xác định một cách đc lp vi tham shóa và  
độc lp vi nhng la chn ca bt ktp dliệu điều kin nào. Và mt GEC có  
25  
- 26 -  
thhoạt đng trên mt stp con bt kca các biến trong x. Thêm vào đó, hàm  
f có thể được định nghĩa theo kvng sinh ra mô-men ca phân bpθ(X) hoc  
bt kkvng nào khác. Hàm tsG và hàm khong cách có thda trên  
nguyên lý thông tin hoc nhng hàm bt k.  
Nhng giá trGEC có thể được sdụng như là những thành phn duy nht  
ca hàm mục tiêu ước lượng tham shoc chúng có thể được sdng kết hp  
vi nhng giá trkhác. Ví d, GEC có thể được áp dng trong nhiều sơ đồ hc  
khác nhau trong đó sử dng nhng hàm mc tiêu, bao gm hc kết hp/sinh,  
hc không giám sát, học điều kin/phân bit, hc có giám sát, hc vi nhng  
biến n, hc có cu trúc…  
2.2. Mô hình hc máy bán giám sát CRFs theo tiêu chun kvng tng  
quát  
Nhìn chung, GEC biu din mt tham chiếu trên giá trca kvng mô  
hình [CMD07]. Mt kiu tham chiếu có thể được biu din bng hàm khong  
cách , kvng mc tiêu , dliu D, hàm f và phân bmô hình , hàm mc  
tiêu GEC là  
. Trong [MC10], Gideon S. Mann và Andrew McCallum  
, phân kỳ  
đặt nhng hàm là phân bxác suất điều kiện và đặt  
KL là độ đo không đối xng gia 2 phân bxác sut p và q. Đối vi hun luyn  
bán giám sát ca CRFs, các tác gibsung hàm mc tiêu với điều kin chun  
hóa.  
(2.5)  
Trong đó là phân bmc tiêu và  
(2.6)  
Vi tiềm năng không chính thức  
(2.7)  
Trong đó fm(x,j) là một đặc trưng phụ thuc chvào chui quan sát x và j*  
được định nghĩa là {j:fm(x,j)=1} và Um là tp các chui mà fm(x,j) có mt cho  
mt sj.  
Tính toán Gradient (Độ chênh lch)  
26  
- 27 -  
Để tính độ chênh lch ca GEC, D(  
, đầu tiên gim những điều  
kin ràng buộc có tính đến dn xut thành phn và các tác giả thu được đchênh  
lệch như sau:  
(2.8)  
Trong đó y-j = <y1..(j-1) (j+1..n)>. Bước cuối cùng như sau từ định nghĩa ca  
y
xác sut biên P(yi|x). Bây gi, nhận được dng quen thuc lấy ra độ chênh lch  
ca chui nhãn cth, tiếp tc:  
(2.9)  
Sau khi kết hp các shng và sp xếp li, sẽ thu được dng cui cùng ca  
độ chênh lch như sau:  
(2.10)  
Ở đây, số hng th2 dễ dàng được thu thp tthut toán tiến/lùi, nhưng đạt  
được shng thnht thì ít nhiu phc tạp hơn. Tính toán shng này mt cách  
cht phác sẽ đòi hi thc thi nhiu tiến/lùi bràng buc. Ở đây, các tác gitrình  
27  
- 28 -  
bày một phương pháp hiệu quả hơn và chỉ đòi hi mt thc thi ca tiến/lùi. Đầu  
tiên, chia xác sut thành 2 phn:  
.
(2.11)  
Vy làm thế nào để tính nhng shng này mt cách hiu qu? Tương tự  
như thut toán tiến/lùi, xây dng mt giàn kết qutrung gian:  
(2.12)  
Để hiu qu,  
được lưu ở mi giai  
đoạn trong giàn.  
có thể được tính theo cách  
tương tự. Để tính giàn cn thi gian O(ns2) và mt giàn phải được tính cho mi  
nhãn, do đó thời gian là O(ns3).  
2.3. Kết luận chương 2  
Chương 2 tp trung nghiên cứu định nghĩa tiêu chun kvng tng quát,  
phân tích cách xây dng công thc, cách phân chia tiêu chun kvng tng  
quát. Từ đó áp dụng vào mô hình hc máy bán giám sát CRFs, thiết lp các  
thông scho mô hình theo tiêu chun kvng tổng quát như bsung hàm mc  
tiêu với điều kin chun hóa, tính toán Gradient.  
Chương tiếp theo, luận văn đề nghmt mô hình hc máy bán giám sát  
CRFs theo tiêu chun kvng tng quát áp dng cho bài toán trích chn thông  
tin từ văn bản pháp lut tiếng Vit.  
28  
- 29 -  
CHƯƠNG 3  
MT MÔ HÌNH HC MÁY BÁN GIÁM SÁT  
CRFs TRÍCH CHN THÔNG TIN PHÁP LUT  
TING VIT  
3.1. Trích chn thông tin từ văn bản pháp lut tiếng Vit  
3.1.1. Mt số đặc trưng về min dliệu văn bản pháp lut tiếng Vit  
Trong công tác điều tra các ván và quản lý đối tượng, bên cnh vic tiến  
hành các bin pháp nghip vụ các điều tra viên đồng thi phi lp các loi biên  
bản như biên bản ly lời khai người bhi, biên bn ly lời khai người làm  
chng, biên bn khám nghim hiện trường, biên bn vvic thu thp chng  
c… tt cả được lưu vào hồ sơ. Như vậy, hồ sơ đối tượng, hồ sơ vụ án sẽ lưu  
gitt cnhng thông tin về đối tượng tham gia ván, vcác tình tiết ván, mô  
tchi tiết phương thức, thủ đon, công csdng, thời gian, địa điểm xy ra vụ  
án… Đây chính là những bng chứng để xét xvụ án, đồng thi việc lưu giữ  
nhng thông tin này có ý nghĩa quan trng trong vic thng kê, phân tích xu  
hướng, dbáo tình hình, cũng như cung cấp thông tin cho nhng ván liên  
quan về cùng đối tượng, cùng thời gian, địa điểm, cùng phương thức thủ đon…  
giúp cho việc phá án được nhanh chóng hơn.  
Luận văn tập trung nghiên cu trên tp các hồ sơ điều tra ván vi ngôn  
ngtiếng Vit. Tiếng Vit cũng như bất kmt ngôn ngnào cũng có nhng  
đặc trưng riêng và việc nghiên cu những đặc trưng này là cơ sở cho vic phân  
tích, la chọn và trích rút thông tin trên văn bản tiếng Vit. Tiếng Vit thuc  
ngôn ngữ đơn lập, tc là mi mt tiếng (âm tiết) được phát âm tách ri nhau và  
được thhin bng mt chviết. Đặc điểm này thhin rõ rt tt ccác mt  
ngâm, tvng và ngpháp.  
Đặc điểm ngâm  
o Trong tiếng Vit có mt loại đơn vị đặc bit gi là tiếng. Vmt  
ngâm, mi tiếng là mt âm tiết.  
Đặc điểm tvng  
o Mi tiếng, nói chung, là mt yếu tcó nghĩa. Tiếng là đơn vị cơ sở  
ca hthống các đơn vị có nghĩa ca tiếng Vit. Ttiếng, người ta  
29  
- 30 -  
tạo ra các đơn vị tvựng khác để định danh svt, hiện tượng,…  
chyếu nhờ phương thức ghép và phương thức láy.  
o Vic tạo ra các đơn vị tvng ở phương thức ghép luôn chu schi  
phi ca quy lut kết hp ngnghĩa, ví d: đất nước, máy bay, nhà  
lầu xe hơi, nhà tan cửa nát,… Hiện nay, đây là phương thức chủ  
yếu để sản sinh ra các đơn vị tvựng. Theo phương thức này, tiếng  
Vit triệt để sdng các yếu tcu to tthun Việt hay vay mượn  
tcác ngôn ngữ khác để to ra các t, ngmi, ví d: tiếp th,  
karaoke, thư điện t(e-mail), thư thoại (voice mail), phiên bn  
(version), xa lthông tin, siêu liên kết văn bản, truy cp ngu  
nhiên, v.v…  
o Vic tạo ra các đơn vị tvng ở phương thức láy thì quy lut phi  
hp ngâm chi phi chyếu vic tạo ra các đơn vị tvng, chng  
hn: chôm cha, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn, lúng lá  
lúng liếng, v.v…  
o Vn tvng ti thiu ca tiếng Vit phn ln là các từ đơn tiết (mt  
âm tiết, mt tiếng). Slinh hot trong sdng, vic to ra các từ  
ngmi mt cách dễ dàng đã tạo điều kin thun li cho sphát  
trin vn t, va phong phú vsố lượng, vừa đa dạng trong hot  
động. Cùng mt svt, hiện tượng, mt hoạt động hay một đặc  
trưng, có thể có nhiu tngkhác nhau biu th. Tiềm năng của  
vn tngtiếng Việt được phát huy cao độ trong các phong cách  
chức năng ngôn ngữ, đặc bit là trong phong cách ngôn ngnghệ  
thut. Hin nay, do sphát trin vượt bc ca khoa hc-kĩ thut,  
đặc bit là công nghthông tin, thì tiềm năng đó còn được phát huy  
mnh mẽ hơn.  
Đặc điểm ngpháp  
o Tca tiếng Vit không biến đổi hình thái. Đặc điểm này schi  
phối các đặc điểm ngpháp khác. Khi tkết hp tthành các kết  
cấu như ngữ, câu, tiếng Vit rt coi trọng phương thức trt ttvà  
hư từ.  
o Vic sp xếp các ttheo mt trt tnhất định là cách chyếu để  
biu thcác quan hcú pháp. Trong tiếng Vit khi nói “Anh ta li  
đến” là khác vi “Lại đến anh ta“. Khi các tcùng loi kết hp vi  
nhau theo quan hchính phthì từ đứng trước givai trò chính, từ  
đứng sau givai trò ph. Nhtrt tkết hp ca tmà “cci”  
khác vi “ci c“, “tình cm” khác vi “cm tình“. Trt tchngữ  
30  

Tải về để xem bản đầy đủ

pdf 51 trang yennguyen 24/06/2025 260
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình crfs theo tiêu chuẩn kỳ vọng tổng quát", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_trich_chon_thong_tin_tren_tap_van_ban_phap_luat_dun.pdf