Khóa luận Trích chọn thực thể tên người trong tiếng Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Lê Thu Thùy  
TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG  
TIẾNG VIỆT  
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY  
Ngành: Công nghệ thông tin  
HÀ NỘI – 2009  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Lê Thu Thùy  
TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG  
TIẾNG VIỆT  
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY  
Ngành: Công nghệ thông tin  
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành  
HÀ NỘI – 2009  
Lời cảm ơn  
Trước tiên, em mun gi li cảm ơn sâu sắc nht đến thy giáo, TS. Nguyễn Trí  
Thành, nhng người đã tn tình hướng dn em trong sut quá trình thực hiện khóa  
lun này.  
Em xin bày tỏ li cảm ơn sâu sắc đến nhng thy cô giáo đã giảng dạy em trong  
bốn năm học qua, đã cho em những kiến thc quý báu để em có thvng bước trên  
con đường đi của mình.  
Tôi xin gửi lời cảm ơn sâu sắc tới các bạn trong lớp K50 CA đã ủng hộ và  
khuyến khích tôi trong suốt quá trình học tập tại trường.  
Và lời cui cùng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ và  
em trai tôi, nhng người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt  
qua nhng khó khăn trong học tập cũng như trong cuc sng.  
Xin chân thành cảm ơn!  
Sinh Viên  
Lê Thu Thùy  
i
Tó m tắt  
Trích chọn các loại thc thnói chung, cũng như trích chọn tên người nói riêng  
là mt bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngtnhiên.  
được ng dụng nhiu trong dịch tự động, tóm tắt văn bản, hiu ngôn ngtnhiên,  
nhn biết tên thc thtrong sinh/y học và đặc bit ng dụng trong vic tích hp tự  
động các đối tượng, thc thtmôi trường Web vào các ontology ngữ nghĩa và các cơ  
stri thc.  
Trong khóa lun này, em trình bày mt giải pháp trích chọn thực thể tên người  
cho các văn bản tiếng Vit trên môi trường Web. Sau khi xem xét các hướng tiếp cn  
khác nhau, em đã lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối  
ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đề  
xuất. Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các  
ngữ cảnh (occurrences) xung quanh các thực thể để trích chọn quan hệ mẫu, từ đó đưa  
ra được danh sách các thực thể cần nhận biết.  
ii  
Mục lục  
Lời cảm ơn ...................................................................................................................i  
Tóm tt........................................................................................................................ii  
Mục lục ..................................................................................................................... iii  
Bảng từ viết tắt ............................................................................................................v  
Danh sách hình v.......................................................................................................vi  
Mở đầu ........................................................................................................................1  
Chương 1. Bài toán trích chọn .....................................................................................3  
thực thể tên ngưi........................................................................................................3  
1.1. Trích chọn thông tin..........................................................................................3  
1.2. Tổng quan về bài toán trích chọn thực thể tên ...................................................4  
1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường  
web..........................................................................................................................5  
1.4. Ý nghĩa của bài toán trích chọn thực thể tên người............................................7  
Chương 2. Các hướng tiếp cận trong trích chọn thông tin ............................................9  
2.1. Phương pháp dựa trên học máy.........................................................................9  
2.1.1. Mô hình Markov ẩn (HMM).......................................................................9  
2.1.1.1. Tổng quan về HMM............................................................................9  
2.1.1.2. Hạn chế của mô hình HMM...............................................................11  
2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) ......................................11  
2.1.2.1. Tổng quan về mô hình MEMM .........................................................11  
2.1.2.2. Vấn đề Label Bias .............................................................................12  
2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) ............................................13  
2.1.3.1. Tổng quan về mô hình CRF...............................................................13  
2.1.3.2. Hàm tiềm năng của mô hình CRF......................................................14  
2.2. Phương pháp tiếp cận dựa trên hệ luật.............................................................16  
2.2.1 Tổng quan về tiếp cận dựa trên hệ luật ......................................................16  
2.2.2 Giải thuật DIPRE ......................................................................................16  
2.2.1.1. Tổng quan về học bán giám sát..........................................................16  
2.2.1.2. Giải thuật DIPRE...............................................................................18  
2.3 Tổng kết chương..............................................................................................21  
Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường  
Web...........................................................................................................................22  
3.1 Hướng giải quyết bài toán................................................................................22  
3.2 Thực nghiệm....................................................................................................27  
3.2.1. Môi trường thực hiện................................................................................27  
3.2.2 Thu thập dữ liệu ........................................................................................27  
3.3. Khảo sát và xây dựng thủ công các tập dữ liệu từ điển ban đầu .......................27  
3.3.1. Tập dữ liệu từ điển ban đầu và tập mẫu ....................................................27  
3.3.2. Giới hạn vòng lp.....................................................................................29  
3.4 Đánh giá hệ thống nhận dạng thực thể.............................................................29  
3.4.1. Kết quả.....................................................................................................30  
3.4.2. Đánh giá...................................................................................................31  
iii  
Kết lun.....................................................................................................................32  
Tài liệu tham khảo .....................................................................................................34  
iv  
Bảng từ viết tắt  
Từ hoặc cụm từ  
Viết tắt  
Condition Random Field  
CRF  
Dual Interative Pattern Relation Expansion  
Hidden Markov Model  
DIPRE  
HMM  
MEMM  
NER  
Maximum Entropy Markov Model  
Name Entity Recognition  
v
Danh sá ch hì nh vẽ  
vi  
Mở đầu  
Trích chọn thực thể tên (Name Entity Extraction), đặc biệt là trích chọn tên người  
ngày càng trở nên quan trọng hơn đối với sự phát triển ngày càng cao các ứng dụng  
của xử lý ngôn ngữ tự nhiên. Tuy nhiên, việc trích chọn tên người cũng như sử dụng  
chúng một cách triệt để vẫn là một vấn đề không hề đơn giản.  
Thừa nhận rằng, một trong những cách tt nhất để xác định tên người là sử dụng  
thông tin ngữ cảnh xuất hiện xung quanh tên người. Do đó, vấn đề chính sẽ là làm thế  
nào để tìm ra các ngữ cảnh mà tại đó, tên người xuất hiện. Các phương pháp có thể là  
thủ công, sử dụng hệ luật (rule-based) hay tự động…  
Hiện nay, hầu hết các hệ thống nhận dạng tên thực thể đều dựa vào một tập nhỏ  
các loại thực thể tên thông thường. Mặc dù đã có một vài đề xuất được đưa ra nhằm  
mở rộng các cấp của các loại thực thể tên nhưng nó vẫn cố định một số lượng nhất  
định các loại thực thể tên. Vấn đề áp dụng bài toán trích chọn các loại thực thể cho các  
miền dữ liệu có tính chất đặc trưng riêng khác với những dữ liệu bình thường, điều này  
rất đáng được quan tâm. Trong khi đó, với những ứng dụng quan trọng trong web ngữ  
nghĩa, hay trong hệ thống hỏi đáp tự động, …thì các miền dữ liệu tên người cũng là  
một trong những miền dữ liệu được nhắc tới nhiều nhất.  
Ý thức được những lợi ích mà các bài toán trích chọn thực thể nói chung và trích  
chọn tên người nói riêng, em đã chọn hướng nghiên cứu nhằm giải quyết bài toán trích  
chọn thực thể tên người trong văn bản tiếng Việt trên môi trường Web làm đề tài luận  
văn của mình.  
Luận văn được tổ chức thành các chương như sau:  
Chương 1 giới thiệu tổng quan về bài toán trích chọn thông tin, bài toán trích  
chọn thực thể tên người cho văn bản tiếng Việt trên môi trường Web cùng những ứng  
dụng thực tế của nó.  
Chương 2 trình bày một số hướng tiếp cận nhằm giải quyết bài toán trích chọn  
thực thể như phương pháp dựa trên hệ luật, phương pháp học máy như HMM,  
MEMM, CRF. Đối với phương pháo dựa trên hệ luật, khóa luận sẽ giới thiệu về một  
số hệ thống liên quan tới trích chọn thực thể. Cụ thể đó chính là giải thuật DIPRE [17],  
một giải thuật được đề xuất bởi Brin, sử dụng tập dữ liệu ban đầu (seed) để tìm ra các  
1
mẫu (patterns). Phương pháp này đều đã có những kết quả thực nghiệm hết sức khả  
quan.  
Chương 3 trình bày hệ thống trích chọn thực thể tên người trong văn bản tiếng  
Việt trên môi trường Web dựa trên giải thuật DIPRE (Dual Interative Pattern Relation  
Expansion)[17] mà Brin (1998) đã đề xuất kết hợp với một số luật mang những đặc  
điểm cơ bản của tên người trong tiếng Việt và đưa ra một số kết quả thực nghiệm.  
2
Chương 1. Bài toán trích chọn  
thực thể tên người  
Chủ đề chính của khóa luận là áp dụng phương pháp dựa trên hệ luật (rule-based)  
kết hợp với giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] do Brin  
đề xuất. Chương này sẽ giới thiệu tổng quan về trích chọn thông tin, về bài toán trích  
chọn thực thể nói chung, chi tiết về bài toán trích chọn thực thể tên người nói riêng  
cũng như ứng dụng, ý nghĩa của bài toán trích chọn thực thể tên người.  
1.1. Trí ch chọn thông tin  
Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu văn bản,  
thực hiện việc trích rút các thông tin có cấu trúc từ các văn bản không có cấu trúc. Cụ  
thể hơn, một hệ thống trích chọn thông tin sẽ trích ra những thông tin đã được định  
nghĩa trước về các thực thể và mối quan hệ giữa chúng từ một văn bản dưới dạng ngôn  
ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ liệu có cấu trúc hoặc  
một dạng mẫu (template) được định nghĩa trước đó. Ví dụ như việc trích chọn vị trí  
của một cuộc hẹn từ một bức thư điện tử hay trích chọn tên của một công ty từ một bài  
báo… Các thuật được sử dụng trong trích chọn thông tin gm có: hướng tiếp cận  
dựa trên luật và dựa trên các phương pháp học máy.  
Có thể sử dụng trích chọn thông tin từ văn bản với nhiều mức độ khác nhau như  
nhận dạng các loại thực thể tên (Name Entity Recognition – NER), điền thông tin các  
mẫu kịch bản (Scenario Template), hay xác định quan hệ giữa các thực thể (Relation  
Extraction hay còn gọi là trích chọn quan hệ), ví dụ như liên kết các bản ghi (record  
association) trong cơ sở dữ liệu, hay để chuẩn hóa (nomalization) và tránh trùng lặp  
(deduplication) dữ liệu … Khóa luận này tập trung chủ yếu vào việc nhận dạng thực  
thể tên và trích chọn quan hệ giữa chúng để giải quyết bài toán trích chọn tên người  
trong văn bản tiếng Việt trên môi trường Web.  
Có rất nhiều mức độ cũng như nội dung công việc trích chọn thông tin khác  
nhau. Công việc nghiên cứu trích chọn ở đây là trích lại những thông tin từ văn bản. Ví  
dụ, tại hội thảo MUC-7 (Seventh Message Understanding Conmference), thông tin  
trích chọn mà người ta quan tâm đến là nhận diện những sự kiện liên quan đến việc  
3
phóng tên lửa trong 100 bài báo của NewYork Times. Công việc này được thực hiện  
bằng cách làm sao trả lời được những câu hỏi như:  
Tên lửa được phóng ra từ đâu?  
Ai là chủ nhân điều khiển tên lửa đó?  
Khối lượng chất nổ trong tên lửa?  
Chất nổ sử dụng là gì?  
Hình 1 dưới đây mô tả một hệ thống trích chọn thông tin.  
October 14,2002, 4:00 a.m. PT  
For year, Microsoft Corporation CEO  
Bill Gates railed against the economic  
philosophy of open-source software  
with Orwellian fevor, denouncing its  
communal licensing as a “cancer” that  
stifled technological innovation.  
Today, Microsoft clains to “love” the  
NAME  
TITLE  
CEO  
ORGANIZATION  
open-source concept, by which  
software code is made public to  
encourage improvement and  
development by outside programmers.  
Gates himself says Microsoft will gladly  
disclose its crown jewels-the coveted  
code behind the Windows opertating  
system-to select customers.  
Bill Gates  
Microsoft Corporation  
IE  
Bill Veghte  
VP  
Microsoft  
Richard Stallman  
founder  
Free Software Foundation  
We can be open source. We love the  
concept of shared source,” said Bill  
Veghte, a Microsoft VP. “That’s a  
super-important shift for us in terms of  
code access”.  
Richard Stallman, founder of the Free  
Software Foundation, countered  
saying…  
Hình 1: Mô hình trích chọn thực thể  
Hình 1 biểu diễn việc trích chọn các thực thể “NAME”, “TITLE” và thực thể  
“ORGANIZATION” từ một đoạn văn bản. Kết quả đưa ra là danh sách tên người  
(NAME) tương ứng với chức vụ (TITLE) và tổ chức (ORGANIZATION) của họ xuất  
hiện trong văn bản nêu trên.  
Như vậy, có thể hiểu đơn giản rằng công việc trích chọn thông tin ở đây đơn giản  
là đi tìm những quan hệ giữa các đối tượng có tên được chỉ định trước.  
1.2. Tổng quan về bài toá n trí ch chọn thực thể tên  
Việc trích chọn các thực thể tên (còn được gọi là phân lớp tên riêng) là một công  
việc của xử lý ngôn ngữ tự nhiên trên máy tính. Nhiệm vụ chính của nó là tìm kiếm và  
phân lớp các từ vào các nhóm đối tượng như: tên người (person), địa danh (location),  
4
tổ chức (organization), ngày tháng (date), thời gian (time), tỷ lệ (percentage), tiền tệ  
(moneytary) và cả những loại thực thể không thuộc những dạng kể trên.  
Bài toán trích chọn thực thể là bài toán đơn giản nhất trong số các bài toán trích  
chọn thông tin. Các nhà nghiên cứu đã chỉ ra rằng, để thực hiện được việc trích chọn  
các thông tin phức tạp, hệ thống phải có khả năng thực hiện một số công việc đơn giản  
hơn. Và trích chọn thực thể chính là một trong những yêu cầu đầu tiên của hầu hết các  
hệ thống đó, vì rõ ràng trước khi có thể xác định được các mối quan hệ gia các thực  
thể, ta phải xác định được đâu là các thực thể tham gia vào mối quan hệ đó. Do đó, bài  
toán trích chọn thực thể là một trong những bước cơ bản nhất trước khi tính đến việc  
giải quyết các bài toán phức tạp hơn trong lĩnh vực này.  
Có rất nhiều phương pháp đã được sử dụng để giải quyết các bài toán trích chọn  
thực thể, từ các phương pháp dựa trên hệ luật (rule-based) đến các phương pháp học  
máy (machine learning). Một số phương pháp học máy như: Mô hình Markov ẩn  
(Hidden Markov Model - HMM), mô hình cực đại hóa Entropy (Maximum Entropy  
Markov Model - MEMM), mô hình trường ngẫu nhiên điều kiện (Conditional  
Ramdom Field - CRF), phương pháp máy vector hỗ trợ (Support Vector Machine -  
SVM)….Các phương pháp ngày sẽ được giới thiệu chi tiết ở chương 2.  
1.3. Bài toá n trí ch chọn thực thể tên người trong văn bản tiếng Việt  
trên môi trường web  
Các thực thể đóng vai trò quan trọng rất nhiều trong ứng dụng xử lý ngôn ngữ tự  
nhiên. Hiện nay, hầu hết các hệ thống nhận dạng thực thể tên đều dựa vào một tập nhỏ  
các loại thực thể tên thông thường. Mặc dù đã có một vài đề xuất được đưa ra nhằm  
mở rộng các cấp của các loại thực thể tên nhưng nó vẫn cố định ở một số lượng nhất  
định các loại thực thể tên. Trong các ứng dụng thực tế: hệ thống hỏi đáp hay hệ thống  
tìm kiếm ngữ nghĩa, người dùng có thể sẽ hứng thú hơn với riêng từng loại thực thể.  
Khi đó, vấn đề đặt ra sẽ là áp dụng bài toán trích chọn các loại thực thể cho các miền  
dữ liệu có tính chất đặc trưng riêng biệt, khác với những dữ liệu thông thường. Đây là  
điều rất đáng được quan tâm. Và miền dữ liệu tên người cũng là một trong những miền  
dliệu được nhắc tới nhiều nhất. Chính vì vậy, nội dung chính của khóa luận nhằm  
đưa ra một phương pháp trích chọn thực thể tên người từ văn bản tiếng Việt trên môi  
trường Web.  
Thực thể tên người luôn song hành, gắn bó với cuộc sống của mỗi con người  
từng giờ, từng phút, đóng một vai trò quan trọng đối với mỗi cá nhân. Nó không chỉ có  
5
chức năng phân biệt người này với người khác mà còn có chức năng thẩm mỹ nên đối  
với người Việt Nam, tên người cũng thường được chọn lựa khá kỹ về mặt ngữ âm và  
ngữ nghĩa. Do đó, việc khai thác tối ưu vấn đề này để áp dụng cho nhiều bài toán cụ  
thể khác cũng là một đề tài quan trọng.  
Tuy nhiên, đối với hệ thống tên người trên thế giới nói chung hay của Việt Nam  
nói riêng đều không có một nguyên tắc chung nào trong việc đặt tên. Cũng như sự  
phong phú về ngôn ngữ dẫn tới thực thể tên người sẽ có cấu trúc phức tạp hơn, do đó,  
không tránh khỏi sự nhập nhằng. điều này khiến cho việc trích chọn tên người cũng  
như trích chọn quan hệ giữa chúng trở nên khó khăn hơn so với các văn bản tiếng Anh.  
Cụ thể như sau:  
. Các văn bản tiếng Việt không có dữ liệu huấn luyện có sẵn, và các nguồn  
tài nguyên có thể tra cứu trên WordNet trong tiếng Anh.  
. Thiếu các thông tin ngữ pháp (POS) và các thông tin về cụm từ như: cụm  
danh từ, cụm động từ,…cho tiếng Việt trong khi các thông tin này giữ vai  
trò quan trọng trong việc trích chọn thực thể.  
. Một số trường hợp dễ dàng xuất hiện đối với tên người trong tiếng Việt  
như sau:  
“HChí Minh là một vị lãnh tụ vĩ đại của dân tộc Việt Nam.”  
(1)  
“Hồ Chí Minh là một trong những thành phố lớn nhất ở Việt Nam.” (2)  
“Tổng thống Mỹ có chuyến viếng thăm Trung Quốc.”  
(3)  
(4)  
“Tổng thống Mỹ Obama có chuyến viếng thăm Trung Quốc.”  
“Tổng thống Obama có chuyến viếng thăm đất nước Trung Quốc.” (5)  
Xét trường hợp (1) và (2), dễ dàng nhận thấy sự nhập nhằng, điều này sẽ phát  
sinh những vấn đề như:  
“Hồ Chí Minh” nào là tên người?  
Chữ “Hồ” đầu câu viết hoa, do đó, thông tin viết hoa đầu câu thường  
không mang nhiều ý nghĩa.  
Xét tới trường hợp (3), (4), và (5), có thể thấy cùng một nội dung nhưng có nhiều  
cách để diễn đạt, nhưng không phải cách diễn đạt nào cũng khiến người lập trình có  
thể dễ dàng lấy ra được tên người.  
6
Trường hợp (3) hoàn toàn không có tên người, nhưng đây cũng là trường  
hợp dễ nhầm lẫn khi thực hiện trích chọn.  
Trường hợp (5) tồn tại hai loại thực thể,  
“Mỹ” chỉ địa danh.  
“Obama” chỉ tên người  
Rất có thể kết quả trích chọn sẽ đưa ra kết quả là “Mỹ Obama” → đó là  
một kết quhoàn toàn không chính xác.  
Như vậy, bài toán đưa ra nhằm đánh giá các chiến lược khai phá dữ liệu tên  
người, đặc biệt tập trung vào hai bài toán con: trích chọn thực thể và trích chọn quan  
hệ. Bởi vì, trước khi xác định được quan hệ giữa các thực thể để thực hiện trích rút thì  
ta phải nhận biết được thực thể cần trích chọn. Việc trích chọn thực thể tên người đòi  
hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của dữ liệu tên người, ví  
dụ như các chức danh luôn đi kèm với tên người trong văn bản: ông, bà, học sinh, anh,  
chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …dựa vào sự xuất hiện của các thực  
thể, thuật toán đưa ra sẽ giữ lại các ngữ cảnh xung quanh thực thể tên để từ đó trích  
chọn ra quan hệ các mẫu, cuối cùng, dựa vào các mẫu đã trích chọn được để tiếp tục  
đưa ra các thực thể tên người cần trích chọn. Đây chính là phương pháp mà khóa luận  
đề cp tới để áp dng cho bài toán này dựa trên cơ sở gii thut DIPRE (Dual  
Interative Pattern Relation Expansion)[17] ca Brin. Với phương pháp này ta skhc  
phục được nhng vấn đề đặt ra đối vi thc thể tên người trong tiếng Vit cũng như  
vic tìm kiếm để sinh ra các mu khác nhau. Cụ thể về cách giải quyết bài toán sẽ  
được trình bày chi tiết ở chương 3.  
1.4. Ý nghĩa của bài toá n trí ch chọn thực thể tên người  
Trích chọn thông tin luôn là bước đi đầu tiên của nhiều ứng dụng thực tế và việc  
trích chọn, nhận biết tên người cũng tương tự như vậy. Tên người là một thành phần  
chủ chốt để xử lý câu đầu vào. Do đó, trích chọn tên người được sử dụng một cách  
rộng rãi trong nhiều lĩnh vực khác nhau như xử lý ngôn ngữ tự nhiên, thu thập thông  
tin, dịch tự động…Cụ thể như sau:  
. Hỗ trợ Web ngữ nghĩa. Web ngữ nghĩa là các trang Web có thể biểu diễn  
dữ liệu “thông minh”, ở đây “thông minh” chỉ khả năng kết hợp, phân lớp  
và khả năng suy diễn trên dữ liệu đó. Sự thành công của các Web ngữ  
nghĩa phụ thuc vào các ontology, cũng như sự phát trin của các trang  
7
Web được chú giải bi các siêu dliu tuân theo các ontology này. Mc  
dù các li ích mà các ontology đem lại là rt lớn nhưng việc xây dng  
chúng mt cách tự động lại hết sc khó khăn. Vì lý do này, các công cụ  
trích chọn thông tin tự động từ các trang Web để “làm đy “ các ontology  
như hệ thng nhn biết thc thể là hết sc cn thiết.  
. Xây dng các máy tìm kiếm hướng thc thể theo các đặc trưng riêng biệt.  
Người dùng có thể lấy ra được danh sách chỉ có riêng thực thể tên người  
mà họ cần tìm thay vì một loạt danh sách bao gồm cả các thực thể khác.  
. Như đã được đề cập trên đây, mt hthng nhn biết thc thể tên người  
có thể đóng vai trò là mt thành phần cơ bản cho các bài toán trích chọn  
thông tin phc tạp hơn, phụ thuộc vào mục đích sử dụng của con người.  
. Trước khi đọc mt tài liu, người dùng có thể đọc lướt qua các tên người  
mà họ quan tâm.  
Hthng trích chọn thc thể tên người cho tiếng Vit cũng sẽ làm tin đề cho  
vic giải quyết các bài toán về trích chọn thông tin từ các tài liu tiếng Vit cũng như  
htrcho vic xử lý ngôn ngtiếng Vit. Áp dụng hthng để xây dng mt  
ontology về các thc thtrong tiếng Vit sẽ đặt nn móng cho mt thế hWeb mi - “  
Web ngữ nghĩa tiếng Vit”.  
8
Chương 2. Các hướng tiếp cận trong trích  
chọn thông tin  
Có rất nhiều phương pháp đã được dùng để giải quyết bài toán trích chọn thực  
thể, từ phương pháp dựa trên hệ luật tới phương pháp học máy. Một số phương pháp  
học máy như: Mô hình Markov ẩn (Hidden Markov Model - HMM), mô hình Markov  
cực đại hóa Entropy (Maximum Entropy Markov Model - MEMM), mô hình trường  
ngẫu nhiên điều kiện (Conditional Random Field - CRF), phương pháp máy vector hỗ  
trợ (Support Vector Machine - SVM)…. Chương này sẽ giới thiệu một số hướng tiếp  
cận cùng với ưu và nhược điểm của chúng, từ đó lý giải tại sao phương pháp mà khóa  
luận sử dụng lại dựa trên giải thuật DIPRE để xây dựng hệ thống trích chọn tên riêng  
cho tiếng Việt.  
2.1. Phương pháp dựa trên học máy  
2.1.1. Mô hì nh Markov ẩn (HMM)  
2.1.1.1. Tổng quan về HMM  
HMM là mô hình máy hữu hạn trạng thái (finite state machine) trong đó hệ thống  
được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước  
và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa  
nhận này. Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các  
phân tích kế tiếp ví dụ cho các ứng dụng nhận dạng mẫu.  
Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi một  
người quan sát, vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất. Mô  
hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu  
hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM  
không trực tiếp chỉ ra các dãy trạng thái.  
Các trạng thái trong mô hình HMM được xem là bị ẩn đi bên dưới dữ liệu quan  
sát sinh ra do mô hình. Quá trình sinh ra chuỗi dữ liệu quan sát trong HMM thông qua  
một loạt các bước chuyển trạng thái xuất phát từ một trong các trạng thái bắt đầu,  
chuyển tiếp tới một trạng thái mới, quan sát một dữ liệu được lựa chọn bởi trạng thái  
đó, quá trình chuyển tiếp lại làm tương tự, quan sát một dữ liệu khác và cứ tiếp tục như  
9
vậy cho tới một trạng thái đích cuối cùng được đưa ra. Kết hợp các dữ liệu thu được  
thành một tập dữ liệu của các trạng thái:  
S {S ,S ,...,S }  
- chuỗi các trạng thái ẩn  
1
2
n
và xác suất phân bố trên các biểu hiện đầu ra có thể trong các từ vựng quan sát:  
O {O ,O ,...,O }  
- chuỗi các dữ liệu quan sát  
1
2
n
Từ đây ta có thể tìm ra chuỗi các trạng thái mô tả tốt nhất cho chuỗi dữ liệu quan  
sát bằng cách tính:  
P (S ,O )  
P (O )  
P (S | O )  
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau:  
S1  
S2  
S3  
Sn-1  
Sn  
O1  
O2  
O3  
On-1  
On  
Hình 2: Ví dụ về mô hình Markov  
Ở đây, Si là trạng thái tại thời điểm t=i trong chui trạng thái S, Oi là dliu quan  
t được tại thời điểm t=i trong chui O. Sử dụng tính cht Markov thnht (trạng  
thái hin tại chỉ phụ thuc vào trạng thái ngay trước đó) và giả thiết dữ liu quan sát  
được tại thời điểm t chỉ phụ thuộc trạng thái tại t, ta có thể tính xác suất P(S,O) như  
sau:  
n
P(S,O) P(S1)P(O | S1) P(St |St1)*P(O | St )  
1
t
t2  
10  
Quá trình tìm ra chui trạng thái tối ưu mô tả tt nht chui dliu quan sát cho  
trước có thể được thc hin bi mt thut lp trình quy hoạch động sử dụng thut  
toán Viterbi [6].  
2.1.1.2. Hạn chế của mô hì nh HMM  
Chúng ta phải cần nhiều chuỗi dữ liệu quan sát hơn để tính P(S,O). Tuy nhiên, S  
là chuỗi các trạng thái ẩn, số lượng có hạn thì có thể liệt kê được nhưng chuỗi dữ liệu  
quan sát được O thì rất đa dạng, ta không thể nào có thể liệt kê ra hết được.  
Khi áp dụng vào các bài toán phân lớp dữ liệu dạng chuỗi, các mô hình thường  
sử dụng xác suất đồng thời để mô hình hóa các bài toán có tính điều kiện.Với các bài  
toán này sẽ thích hợp hơn nếu ta dùng một mô hình điều kiện có thể tính toán P (S|O)  
trực tiếp thay vì P (S, O) ban đầu.  
2.1.2. Mô hì nh Markov cực đại hóa Entropy (MEMM)  
2.1.2.1. Tổng quan về mô hì nh MEMM  
Một mô hình khác được đưa ra nhằm khắc phục những hạn chế mà mô hình  
HMM đã gặp phải, đó là mô hình MEMM. Mô hình MEMM sử dụng một hàm xác  
suất duy nhất P(Si | Si1,O ) để thay thế cho xác suất chuyển trạng thái và xác suất quan  
i
sát trong HMM. Đối với MEMM, các dữ liệu quan sát được cho trước nên ta chỉ cần  
quan tâm tới xác suất chuyển trạng thái.  
S1  
S2  
S3  
Sn-1  
Sn  
O1  
O2  
O3  
On-1  
On  
Hình 3: Đồ thị có hướng mô tả một mô hình MEMM  
Xác suất P(S|O) được tính theo công thức:  
1
P(s |s ,o)P (s |o)  
exp f (o,s )  
k k  
t
t1  
t
s
t
t
t
t
t1  
Z(o,s )  
k
t
t1  
11  
Với:  
k là các tham số cần được huấn luyện (ước lượng)  
Z (Ot, St-1) là thừa số chẩn hóa để tổng xác suất chuyển từ trạng thái St-1  
sang tất cả các trạng thái St kề đều bằng 1  
fk (Ot, St) là hàm thuộc tính tại vị trí thi trong chui dliu quan sát và  
trong chui trạng thái. Mỗi hàm thuộc tính fk (Ot,St) nhận hai tham số, một là dữ  
liu quan sát hiện tại Oi và một là trạng thái hiện tại St.  
k = <k’,St> với: k’ là thuộc tính nhị phân chỉ phụ thuộc vào dliu quan  
sát hiện tại.  
St là trạng thái hiện tại.  
Khi đó:  
1 nếu b (Ot) =1 và St=St-1  
Fk (Ot,St)=  
0 nếu ngược lại  
2.1.2.2. Vấn đề Label Bias  
Trong mt strường hợp đặc bit, các mô hình MEMM và các mô hình định  
nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn đề “label bias”.  
Ta lấy một ví dụ với 2 chuỗi “rib” và “rob” tương ứng với chuỗi trạng thái “0123” và  
“0453”  
i_  
b:rib  
r_  
r_  
1
4
2
5
3
0
o:_  
b: rob  
Hình 4: Vấn đề Label Bias  
Có thể thấy cả 2 xâu đầu ra đều có xác suất giống nhau:  
P(0123|rib) = Pr(1|0,r)/Z1 * Pr(2|1,o)/Z2 * Pr(3|2,b)/Z3  
= 0.5 * 1 * 1 = 1  
12  
P(0453|rob) = Pr(4|0,r)/Z1’ * Pr(5|4,i)/Z2’ * Pr(3|5,b)/Z3’  
= 0.5 * 1 *1 = 1  
Khi đó, giả sử như trong tập huấn luyên, từ “rob” xuất hiện nhiều hơn từ “rib” thì  
khi đó, xác suất P(4|0,r) sẽ lớn hơn xác suất P(1|0,r), hay xác suất của P(0123|rib) sẽ  
nhỏ hơn xác suất của P(0453|rob), hay chuỗi trạng thái “0453” sẽ được chọn cho dù  
chuỗi quan sát là “rib” hay “rob”.  
2.1.3. Mô hì nh trường điều kiện ngẫu nhiên (CRF)  
2.1.3.1. Tổng quan về mô hì nh CRF  
CRF là mô hình dựa trên xác suất có điều kiện dựa trên việc gán nhãn và phân  
đoạn dữ liệu liên tục. CRF là mô hình đồ thị vô hướng để từ đó có thể định nghĩa một  
phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện đã biết chuỗi quan sát  
cho trước. Ưu điểm cơ bản của CRF so với mô hình Markov ẩn đó chính là tính có  
điều kiện của chúng, làm giảm nhẹ các giả định không phụ thuộc được yêu cầu bởi  
HMM để bảo đảm kết quả dễ xử lý. Thêm vào nữa, CRF cũng tránh được vấn đề label  
bias gặp phải trong mô hình Markov cực đại hóa Entropy cũng như đồ thị có hướng  
trong mô hình Markov điển hình.  
CRF được thể hiện bằng mô hình đồ thị vô hướng, hoặc bằng trường Markov  
ngẫu nhiên, bao toàn bộ điều kiện lên X, biến ngẫu nhiên biểu hiện qua các chuỗi quan  
sát.  
Cho một đồ thị vô hướng không có chu trình G=(E,V) với:  
+ V là tp các đỉnh của đồ thị.  
+ E là tp các cạnh vô hướng ni các đỉnh đồ thị.  
+ Các đỉnh V biu din các thành phn của biến ngu nhiên Y sao cho tn  
tại ánh xạ mt-mt gia một đnh và mt thành phn của Yv của Y.  
+ Một node v V tương ứng với mỗi biến ngẫu nhiên biểu diễn một thành  
phần Yv của Y. Nếu mỗi biến ngẫu nhiên của Yv tuân theo đặc tính của Markov  
đối với G thì (Y,X) là một CRF.  
13  
X
Y1  
Y2  
Y3  
Yn-1  
Yn  
Hình 5: Đồ thị vô hướng mô tả CRF  
Trong đó:  
X=(X1, X2,…, Xn), Y=(Y1,Y2, ...,Yn).  
X: là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn  
Y: là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng.  
Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận giá trị trong tập  
hữu hạn trạng thái S.  
2.1.3.2. Hàm tiềm năng của mô hì nh CRF  
Cấu trúc đồ thị của CRF có thể được sử dụng để tìm thừa số của việc phân phối  
các mối ghép nối ở các thành phần Yv của Y vào trong các tích chuẩn hóa của giá trị  
dương, của hàm tiềm năng mang giá trị thực xuất phát từ khái niệm độc lập điều kiện.  
Mỗi hàm tiềm năng đều hoạt động dựa trên một tập con của các biến ngẫu nhiên được  
biểu diễn bởi các đỉnh của đồ thị G. Theo định nghĩa của độc lập điều kiện đối với mô  
hình đồ thị vô hướng, việc thiếu một cạnh bất kỳ giữa hai đỉnh của G sẽ khiến cho các  
biến ngẫu nhiên được biểu diễn bởi các đỉnh này trở thành độc lập điều kiện đồng thời  
nó cũng kéo theo các biến ngẫu nhiên khác vào trong mô hình. Tức là các hàm tiềm  
năng cũng phải chắc chắn việc các biến ngẫu nhiên cũng sẽ không xuất hiện cùng  
trong một hàm tiềm năng. Đối với trường cấp cấu trúc dây chuyền của CRF, mỗi hàm  
chức năng sẽ hoạt động theo các cặp có các biến được gán nhãn liền kề nhau Yi và  
Yi+1  
14  
Theo định nghĩa về xác suất của một nhãn đặc trưng của chuỗi y được quan sát  
bởi chuỗi x trở thành một tích chuẩn hóa của các hàm tiềm năng, hàm tiềm năng biểu  
diễn dưới dạng hàm số mũ:  
exp( t (y , y , x,i) s (y , x,i))  
j j  
i1  
i
k
k
i
j
k
t (y , y , x,i)  
Khi  
là một hàm tiềm năng chuyển tiếp của toàn bộ chuỗi quan sát  
j
i1  
i
và các nhãn ở vị trí i và i-1 trong chuỗi gán nhãn.  
s (y , x,i)  
: là một hàm tiềm năng trạng thái của nhãn ở vị trí i và chuỗi quan sát.  
k
i
j k : là các tham số để ước lượng từ tập dữ liệu huấn luyện.  
Tập các giá trị thực tiềm năng b(x,i) của chuỗi quan sát nhằm biểu diễn một vài  
ký tự của việc phân bố có kinh nghiệm các tập huấn luyện cần được giữ lại trong việc  
phân phối mô hình. Một ví dụ:  
1 nếu ví trí quan sát ở i là từ “September”  
b(x,i)=  
0 nếu ngược lại  
Mỗi hàm tiềm năng đều đưa ra giá trị tiềm năng quan sát b(x,i) nếu trạng thái  
hiện tại (trong trường hợp là hàm trạng thái ) hoặc trạng thái trước và trạng thái hiện  
hiện tại (trong trường hợp là hàm chuyển tiếp) đưa ra giá trị riêng. Bởi vậy mà tất các  
các hàm tiềm năng đều có giá trị thực.  
Viết đơn giản các biểu thức:  
s (yi , x,i) s (yi1, yi , x,i)  
và  
n
F ( y, x )   
t ( yi 1 , yi , x, i)  
j
j
j
15  
Tại mỗi  
cũng là một hàm trạng thái như  
hay hàm  
s (yi1, yi , x,i)  
fj (yi1, yi , x,i)  
chuyển tiếp  
. Điều này cho phép xác suất của một chuỗi nhãn y được đưa  
t (yi1, yi , x,i)  
ra mọt chuỗi quan sát x theo công thức dưới đây:  
1
p ( y | x, )   
exp(  
F ( y, x))  
j
j
Z ( x)  
j
Với Z(x) là một thừa số chuẩn hóa, Z(x) được tính theo công thức:  
Z (x)   
F ( y, x)  
j
y
2.2. Phương pháp tiếp cận dựa trên hệ luật  
2.2.1 Tổng quan về tiếp cận dựa trên hệ luật  
Một hệ thống dựa trên hệ luật bao gồm các tập luật cơ bản (Nếu - Thì), tập các sự  
vật, bộ thông dịch (interpreter) sử dụng tập luật để sinh ra các sự vật.  
Hệ thống áp dụng phương pháp dựa trên luật sẽ khảo sát dữ liệu và tạo ra một tập  
luật ban đầu dựa theo phương pháp thủ công, sau đó áp dụng vào mô hình và mở rộng  
tập luật này. Các luật chủ yếu được xây dựng dựa trên ngữ cảnh chứa thực thể đang  
xét. Chương 3 sẽ đề cập chi tiết về cách áp dụng phương pháp này và mô hình giải  
quyết bài toán.  
Một trong những phương pháp dựa trên hệ luật dùng để trích chọn thực thể tên  
đem lại kết quả khả quan là phương pháp sử dụng giải thuật DIPRE (Dual Interative  
Pattern Relation Expansion)[17] do Brin đề xuất. Phương pháp này sử dụng học bán  
giám sát (semi-supervised) để xử lý dữ liệu ban đầu.  
2.2.2 Giải thuật DIPRE  
2.2.1.1. Tổng quan về học bán giám sát  
Có thể thấy hiện nay, nhu cầu về một lượng lớn các dữ liệu học và những khó  
khăn để thu được các dữ liệu đó đặt ra một câu hỏi quan trọng: Liệu có thể sử dụng  
được nguồn thông tin nào khác trong phân lớp văn bản mà có thể làm giảm sự cần  
thiết của dữ liệu gán nhãn? Đây chính là nguồn động lực thúc đẩy sự phát triển của các  
phương pháp học bán giám sát.  
16  
Nhìn vào sự tồn tại của dữ liệu ta thấy, trong thực tế dữ liệu thường tồn tại ở  
dạng trung gian: Không phải tất cả dữ liệu đều được gán nhãn cũng như không phải tất  
cả chúng đều chưa được gán nhãn. Bán giám sát là một phương pháp học sử dụng  
thông tin tchai nguồn dữ liệu này.  
Trong khoa học máy tính, phương pháp học bán giám sát là một phần của học  
máy mà trong đó, nó có thể sử dụng cả dữ liệu đã được gán nhãn và dữ liệu không n  
nhãn làm tập huấn luyện – một lượng nhỏ các dữ liệu gán nhãn với một lượng lớn dữ  
liệu chưa được gán nhãn.  
Học có giám sát là phương pháp sử dụng tập dữ liệu đã được gán nhãn, việc gán  
nhãn thủ công này rõ ràng là tốn thời gian, công sức và khó khăn, không đảm bảo  
được độ chính xác.  
Ngược lại, học không giám sát là phương pháp sử dụng tập dữ liệu chưa gán  
nhãn. Trong khi lượng dữ liệu chưa gán nhãn là rất nhiều, dễ thu thập nhưng cũng  
khiến cho học không giám sát đôi khi không đảm bảo được kết quả khả quan.  
Từ đó, học bán giám sát đã ra đời dưới sự kết hợp ưu điểm và hạn chế của học có  
giám sát và không giám sát. Mục đích chính của học bán giám sát là mở rộng tập dữ  
liệu không gán nhãn ban đầu. Từ đó, mô hình học bán giám sát được thể hiện như sau:  
Dữ liệu chưa  
Học giám sát  
gán nhãn  
Học bán giám sát  
Học không  
Dữ liệu gán  
giám sát  
nhãn  
Hình 5: Mô hình học bán giám sát  
17  
Phạm vi sử dụng của học bán giám sát  
Các phương pháp học bán giám sát sẽ rất hữu ích khi dữ liệu chưa gán nhãn  
nhiều hơn dữ liệu gán nhãn. Việc thu được dữ liệu gán nhãn là rẻ, nhưng để gán  
nhãn chúng thì tốn rất nhiều thời gian, công sức và tiền bạc. Đó là tình trạng của rất  
nhiều các lĩnh vực ứng dụng trong học máy như:  
. Trong nhận dạng lời nói, ta sẽ dễ dàng ghi lại một lượng lớn các bài  
diễn thuyết, nhưng để gán nhãn chúng yêu cầu con người phải lắng  
nghe rồi đánh máy sao chép lại.  
. Sự phong phú của hàng tỉ các trang web sẵn sàng cho xử lý tự động,  
nhưng để phân lớp chúng một cách tin cậy đòi hỏi con người phải  
đọc chúng....  
Học bán giám sát là việc học trên cdữ liệu đã và chưa được gán nhãn. Tmột  
số lượng lớn các dữ liệu chưa được gán nhãn, và một luợng nhỏ dữ liệu đã được gán  
nhãn ban đầu (thường gọi là seed set) để xây dựng một bộ phân lớp thậm chí là tốt  
hơn. Trong quá trình học như thế phương pháp stận dụng được những thông tin  
phong phú của dữ liệu chưa gán nhãn (unlabeled data), mà chỉ yêu cầu một số lượng  
rất nhỏ các dữ liệu đã gán nhãn (labeled data).  
Ý tưởng chung là vẫn thu được performance tốt như đối với việc học trên tập một  
tập dữ liệu lớn đã được gán nhãn.  
Có một câu hỏi là: Liệu các phương pháp học bán giám sát có ích hay không?  
Chính xác hơn là, so sánh với học giám sát chỉ sử dụng dữ liệu gán nhãn, ta có thể hy  
vọng vào sự chính xác của dự đoán khi xét thêm các điểm không gán nhãn. Câu trả lời  
là “có” dưới những giả thiết phù hợp (certain assumptions) của từng mô hình.  
Trong khóa luận này, đối với học bán giám sát, ta chỉ quan tâm xem nó dùng để  
làm gì chứ không đi sâu vào các bước xử lý đối với văn bản như thế nào. Học bán  
giám sát đã được Brin áp dụng đối với phương pháp DIPRE trong trích chọn quan hệ  
mẫu trong văn bản.  
2.2.1.2. Giải thuật DIPRE  
Web là một nguồn tài nguyên tồn tại một số lượng lớn khổng lồ các dữ liệu văn  
bản như thư điện tử, cơ sở dữ liệu tổng hợp, thư viện só, các bản ghi tình trạng bệnh  
nhân, …Các dữ liệu đều bị phân tán, và tồn tại ở nhiều định dạng khác nhau. Do đó,  
vấn đề trích chọn thông tin từng đoạn dữ liệu riêng biệt trong văn bản trên WWW một  
18  
cách tự động, ít có sự can thiệp của con người là một vấn đề mà từ trước tới giờ luôn  
thu hút nhiều sự quan tâm của nhiều nhà khoa học.  
Brin đã đưa ra phương pháp DIPRE cho việc mở rộng mối quan hệ mẫu trong  
văn bản trên môi trường Web để trích chọn thực thể. Phương pháp này dựa vào các  
mẫu (pattern) và các tập nhỏ ban đầu (seed) để trích ra các quan hệ mẫu phù hợp với  
ngữ cảnh của các văn bản.  
Ban đầu ta có một tập mồi chứa các bộ, các bộ này là những xâu sẽ xuất hiện  
trong tập các văn bản trên Web. bản của phương pháp DIPRE mà Brin muốn  
hướng tới đó là từ các bộ sẽ trích chọn ra được các mẫu và ngược lại, từ các mẫu sẽ  
sinh ra các bộ mới.  
Mẫu ở đây sẽ chứa các thành phần trong bộ mà ta cần trích chọn và thêm các ngữ  
cảnh liên quan. Phương pháp này chính là việc trích chọn quan hệ giữa mẫu để đưa ra  
kết quả thu được là danh sách các thực thể tên mà ta cần trích ra.  
Thuật toán mà DIPRE như sau:  
Ban đầu có một tập nhỏ D các cặp (tác giả, tên sách)  
1. Sử dụng tập nhỏ chứa các ví dụ liên quan tới thực thể cần trích chọn để gán  
nhãn các dữ liệu.  
2. Tạo ra các mẫu từ các dữ liệu đã được gán nhãn.  
3. Đưa các mẫu từ dữ liệu chưa được gán nhãn tới tập các cặp (tác giả, tên sách)  
mới và thêm chúng vào trong tập nhỏ các cặp D ban đầu.  
4. Quay trở lại bước 1 và lp lại cho tới khi mẫu mới, quan hệ mới không được  
sinh ra thì giải thuật sẽ dừng.  
Hệ thống sẽ thực hiện trích chọn thực thể như mô tả một ví dụ dưới đây.Cụ thể  
với tập nhỏ ban đầu (seed) của cặp (tác giả, tên sách).  
. Giả sử ban đầu trong tập seed có cặp: (Arthur Conan Doyle, The Advanture  
of Sherlock Holmes). Hệ thống sẽ thực hiện tìm kiếm tất cả các tài liệu văn  
bản trên môi trường Web chứa cặp đó. Trong quá trình tìm kiếm, giả sử tìm  
thấy một câu có chứa cặp thực thể trên như sau:  
“Read The Adventures of Sherlock Holmes by Arthur Conan Doyle online or in you  
email”.  
19  
. Sau đó, thực hiện trích chọn bộ. Để xác định ngữ cảnh xung quanh cặp thực  
thể <tác giả, sách>, thiết lập một bộ gồm 6 thành phần: [order, tác gi, tên  
sách, prefix, suffix, middle]  
Trong đó:  
order có kiểu boolean. order = 1 nếu xâu tên tác giả xuất hiện trước xâu tên sách  
order= 1 thì ngược lại, xâu tên sách xuất hiện trước xâu tên tác giả.  
prefix suffix là các xâu có khoảng 10 kí tự xuất hiện tương ứng bên trái và bên  
phải của đoạn thực thể được phát hiện.  
middle là xâu xuất hiện giữa tác gitên sách.  
Tương ứng với câu tìm được ở trên, ta có b:  
[0,Arthur Conan Doyle, The Adventures of Sherlock Holmes, Read, online or, by]  
Tương tự như vậy, giả sử hệ thống lại tìm thấy một đoạn phù hợp với cặp trong  
tập seed bao đầu như sau:  
“When Sir Arthur Conan Doyle wrote the advantures of Sherlock Holmes in 1892 he  
was high”  
Tương tự như trên, bộ trích rút ra sẽ là:  
[1, Arthur Conan Doyle, The Adventures of Sherlock Holmes, When Sir, in 1982,  
wrote]  
Khi đó, hệ thống sẽ có danh sách các bộ:  
[0,Arthur Conan Doyle, The Adventures of Sherlock Holmes, Read, online or, by]  
[1, Arthur Conan Doyle, The Adventures of Sherlock Holmes, When Sir, in 1982,  
wrote]  
. Nhóm các bộ dựa vào order middle, sau đó, tạo ra các mẫu (patterns)  
Mẫu tương ứng với 2 bộ tìm được ở trên là:  
[Sir, Arthur Conan Doyle, wrote, The Advantages of Sherlock Holmes, in 1982]  
. Mẫu sinh ra sẽ được viết dưới dạng biểu thức chính quy:  
[*prefix, author, middle, title, suffix*]  
Tương ứng với mẫu tìm được của cặp (tác giả, tên sách):  
[Sir, .*?, wrote, .*?, in 1982]  
20  
. Với mẫu tìm được ở dạng biểu thức chính quy như trên, hệ thống sẽ tìm trên  
nhiều tài liệu khác. Giả sử như:  
Sir Arthur Conan Doyle wrote Speckled Band in 1982, that is around 672  
years apart which would make the stories”  
. Trích chọn quan hệ mới:  
(Arthur Conan Doyle, Speckled Band)  
. Quan hệ mới này được lưu vào trong tập seed ban đầu và tiếp tục lặp lại thuật  
toán này với quan hệ mới vừa tìm được.  
Đó là một ví dụ cụ thể mà Brin đã sử dụng giải thuật DIPRE để thực hiện trích  
chọn thực thể (tác giả, tên sách).  
Vấn đề khó khăn của DIPRE  
Vấn đề về hiệu suất chính là vấn đề mà DIPRE gặp phải. Việc sử dụng tập mồi  
nhỏ để từ đó trích chọn ra các mẫu rồi lại trích ra qua hệ mới, tốc độ của DIPRE sẽ rất  
chậm, và đặc biệt trong trường hợp tập seed chứa dữ liệu có sự xuất hiện ít, trong khi  
tập dữ liệu sẽ phải thực hiên tìm kiếm là lớn. Khi đó, yêu cầu đặt ra sẽ phải quét hết  
một số lượng lớn các mẫu và các bộ trong một kho dữ liệu vô cùng lớn. Và liu rằng  
DIPRE có lưu giữ được dữ liệu khi đã bị phân tách từ kết quả khi chung mở rộng quan  
hệ giữa các mẫu. Điều này không chỉ kéo theo tốc độ giảm mà kết quả cũng thấp.  
2.3 Tổng kết chương  
Chương này giới thiệu các hướng tiếp cận nhằm giải quyết bào toán trích chọn  
thông tin nói chung cũng như trích chọn thực thể nói riêng: hướng tiếp cận dựa trên hệ  
luật (giải thuật DIPRE), các hướng tiếp cận học máy (HMM, MEMM, CRF). Có thể  
thy, mỗi hướng tiếp cận đều có những ưu và nhược điểm khác nhau như giải thuật  
DIPRE có hiệu suất không cao, tốc độ xử lý chậm, HMM không thể tích hp các thuc  
tính phong phú của chui dliu quan sát vào quá trình phân lp, và MEMM gp phải  
vn đề “label bias”. Sau đó lại tiếp tục nâng lên mô hình cao hơn khi sử dụng CRF để  
khắc phục những nhược điểm mà HMM và MEMM gặp phải. CRF có khả năng xử lý  
dliu dạng này mạnh hơn so với các mô hình học máy khác như HMM hay MEMM.  
Tuy nhiên, nhược điểm của mô hình CRF là thời gian tính toán của nó tương đối chậm  
trong trường hợp dữ liệu huấn luyện tương đối lớn. Thêm nữa là dữ liệu đầu vào của  
các mô hình này đều phải sử dụng các công cụ để xử lý dữ liệu như phân tách, gán  
nhãn trong khi nếu dựa theo giải thuật DIPRE của Brin thì những công việc tiền xử lý  
dữ liệu như vậy hoàn toàn không phải thực hiện. Chi tiết về phương pháp sử dụng cho  
hệ thống trích chọn tên người dựa trên giải thuật DIPRE sẽ được đề cập ở chương 3.  
21  
Chương 3. Hệ thống trích chọn tên người trong  
văn bản tiếng Việt trên môi trường Web  
Từ chương 2, ta có thể thấy rằng, việc sử dụng các mô hình HMM, MEMM, CRF  
cũng đều có những ưu nhược điểm nhất định. Một trong những nhược điểm đó là vấn  
đề tiền xử lý dữ liệu. Cả 3 mô hình đều phải sử dụng các công cụ để thực hiện phân  
lớp dữ liệu trước khi đưa chúng vào xử lý, việc đó khiến cho hệ thống cũng một phần  
trở nên cồng kềnh, tốn nhiều công sức, thời gian hơn. Do đó, khóa luận này hướng tới  
phương pháp trích chọn thực thể tên người mà không sử dụng bất cứ công cụ nào đối  
với việc tiền xử lý dữ liệu. Đặc biệt, toàn bộ hệ thống sẽ xử lý trên dữ liệu thô. Để có  
thể làm được việc đó, hướng tiếp cận mà khóa luận này muốn hướng tới là dựa theo  
giải thuật DIPRE [17] mà Brin đã đề ra để thực hiện mở rộng quan hệ mẫu, từ đó trích  
chọn ra thực thể tên người trong tiếng Việt. Các phần tiếp theo của chương này sẽ đề  
cập tới hướng giải quyết này.  
3.1 Hướng giải quyết bài toá n  
Như đã nói ở chương 1, việc trích chọn thực thể tên người đòi hỏi phải nhận biết  
được các thành phần cơ bản và đặc trưng của dữ liệu tên người. Đối với người Việt  
Nam, tên người có một số đặc trưng cơ bản nhất như là các chức danh luôn đi kèm với  
tên người trong văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng  
giám đốc, …Dựa theo giải thuật DIPRE, để trích chọn được tên người, ta phải dựa vào  
sự xuất hiện của các thực thể tên trong tập nhỏ ban đầu (tập seed), thuật toán đưa ra sẽ  
giữ lại các ngữ cảnh xung quanh thực thể tên đó để từ đó trích chọn ra quan hệ các  
mẫu, cuối cùng, dựa vào các mẫu đã trích chọn được để tiếp tục đưa ra các thực thể tên  
người cần trích chọn.  
Bài toán được xây dựng dựa trên cơ sở giải thuật DIPRE. Tuy nhiên, như đã đề  
cập tới giải thuật này ở chương 2, Brin ban đầu chỉ sử dụng từ tập nhỏ các dữ liệu (tập  
seed) ban đầu để từ đó trích ra các mẫu, và đưa ra quan hệ mới giữa các thực thể.  
Chính điều này đã khiến cho giải thuật này gặp vấn đề về hiệu suất, tốc độ chậm. Do  
đó, khóa luận chỉ dựa trên tư tưởng của Brin đó là từ tập mẫu trích ra tên thực thể và  
ngược lại từ thực thể trích ra mẫu. Do đó, hướng giải quyết cho bài toán trích chọn tên  
người trong tiếng Việt sẽ được minh họa trên hình 7 và được trình bày chi tiết dưới  
đây.  
22  

Tải về để xem bản đầy đủ

pdf 43 trang yennguyen 03/05/2025 110
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Trích chọn thực thể tên người trong tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_trich_chon_thuc_the_ten_nguoi_trong_tieng_viet.pdf