Luận văn Đối sánh tự động lược đồ XML

BGIÁO DC VÀ ĐÀO TO  
TRƯỜNG ĐẠI HC BÁCH KHOA HÀ NI  
--------------------------  
LUN VĂN THC SKHOA HC  
®èi s¸nh tù ®éng lîc ®å XML  
NGÀNH: CÔNG NGHTHÔNG TIN  
MS: ……………………….  
VÕ SNAM  
NGƯỜI HƯỚNG DN KHOA HC:  
TS. HUNH QUYT THNG  
HÀ NI - 2006  
Mc lc  
Danh mc tviết tt, thut ng.............................. Error! Bookmark not defined.  
Danh mc bng biu ................................................ Error! Bookmark not defined.  
Danh mc hình v..................................................... Error! Bookmark not defined.  
Mở đầu ...................................................................... Error! Bookmark not defined.  
1. Gii thiu chung......................................................... Error! Bookmark not defined.  
2. Ni dung lun văn...................................................... Error! Bookmark not defined.  
Chương 1 Đối sánh lược đ..................................... Error! Bookmark not defined.  
1.1 Tng quan về đối sánh lược đ............................... Error! Bookmark not defined.  
1.1.1 Các khái nim cơ bn về đối sánh lược đ......... Error! Bookmark not defined.  
1.1.2 Các lĩnh vc ng dng đối sánh lược đ............ Error! Bookmark not defined.  
1.2 Các tiếp cn đối sánh lược đồ ................................. Error! Bookmark not defined.  
1.2.1 Phân loi các tiếp cn đối sánh lược đồ............. Error! Bookmark not defined.  
1.2.2 Các tiếp cn đối sánh lược đồ ............................ Error! Bookmark not defined.  
1.2.3 Các phương pháp đối sánh lược đồ.................... Error! Bookmark not defined.  
1.3 Các hthng đối sánh lược đồ XML...................... Error! Bookmark not defined.  
1.3.1 Cupid (trung tâm nghiên cu Microsoft)............ Error! Bookmark not defined.  
1.3.2 Similarity Flooding (Đại hc Stanford đại hc Leipzig) ... Error! Bookmark  
not defined.  
1.3.3 LSD (Đại hc Washington)................................. Error! Bookmark not defined.  
1.3.4 Clio (IBM Almaden và đại hc Toronto)............ Error! Bookmark not defined.  
1.3.5 Mt shthng đối sánh lược đồ khác .............. Error! Bookmark not defined.  
1.4 Kết chương ............................................................... Error! Bookmark not defined.  
Chương 2 Các định nghĩa hình thc ...................... Error! Bookmark not defined.  
2.1 Vn đề đối sánh lược đồ XML................................ Error! Bookmark not defined.  
2.1.1 Đối sánh ngnghĩa và đối sánh cú pháp ........... Error! Bookmark not defined.  
2.1.2 Thông tin đầu vào ca tiến trình đối sánh.......... Error! Bookmark not defined.  
2.1.3 Thông tin đầu ra ca tiến trình đối sánh ............ Error! Bookmark not defined.  
2.1.4 Các định nghĩa hình thc.................................... Error! Bookmark not defined.  
2.2 Mô hình hóa lược đồ XML...................................... Error! Bookmark not defined.  
2.2.1 Các nút đồ thlược đồ ........................................ Error! Bookmark not defined.  
2.2.2 Các cnh đồ thlược đồ...................................... Error! Bookmark not defined.  
2.2.3 Các ràng buc đồ thlược đồ ............................. Error! Bookmark not defined.  
2.2.4 Các định nghĩa hình thc.................................... Error! Bookmark not defined.  
2.3 Ánh xngun–đích .................................................. Error! Bookmark not defined.  
2.4 Kết chương ............................................................... Error! Bookmark not defined.  
Chương 3 Đối sánh tự động lược đồ XML ............ Error! Bookmark not defined.  
3.1 Tng quan về đối sánh tự động lược đồ XML....... Error! Bookmark not defined.  
3.2 Đo độ tương đồng ngôn ng.................................... Error! Bookmark not defined.  
3.2.1 WordNet và quan hngnghĩa gia các t....... Error! Bookmark not defined.  
3.2.2 Thut toán ca Hirst và St-Onge........................ Error! Bookmark not defined.  
3.2.3 Gii pháp ca hthng Cupid............................ Error! Bookmark not defined.  
3.3 Xét tính tương thích kiu dliu lược đồ XML và phân tích phân cp kiu  
người thiết kế.................................................................. Error! Bookmark not defined.  
3.3.1 Xét tính tương thích kiu dliu lược đồ XML .. Error! Bookmark not defined.  
3.3.2 Phân tích phân cp kiu người thiết kế .............. Error! Bookmark not defined.  
3.4 Đo độ tương đồng cu trúc...................................... Error! Bookmark not defined.  
3.4.1 Định nghĩa ngcnh nút .................................... Error! Bookmark not defined.  
3.4.2 Đo độ tương tự đường dn.................................. Error! Bookmark not defined.  
3.4.3 Đo độ tương đồng ngcnh nút......................... Error! Bookmark not defined.  
3.5 Đo độ tương đồng nút và to ánh xgia các phn t........Error! Bookmark not  
defined.  
3.5.1 Đo độ tương đồng nút......................................... Error! Bookmark not defined.  
3.5.2 To ánh xgia các nút và cnh đối sánh ......... Error! Bookmark not defined.  
3.6 Đánh giá tiến trình đối sánh lược đồ XML............ Error! Bookmark not defined.  
3.6.1 Các phương pháp đánh giá................................. Error! Bookmark not defined.  
3.6.2 Đánh giá gii pháp ............................................. Error! Bookmark not defined.  
3.7 Áp dng đối sánh lược đồ trong bài toán chuyn đổi tài liu có cu trúc ...Error!  
Bookmark not defined.  
3.7.1 Tng quan vtài liu có cu trúc ....................... Error! Bookmark not defined.  
3.7.2 Chuyn đổi tự động tài liu có cu trúc.............. Error! Bookmark not defined.  
3.7.3 Mô hình cho hthng chuyn đổi tự động tài liu XML ...Error! Bookmark not  
defined.  
3.8 Kết chương ............................................................... Error! Bookmark not defined.  
Kết lun và hướng phát trin.................................. Error! Bookmark not defined.  
1. Đóng góp chính ca lun văn.................................... Error! Bookmark not defined.  
2. Hướng phát trin........................................................ Error! Bookmark not defined.  
Danh mc tài liu tham kho.................................. Error! Bookmark not defined.  
Phlc....................................................................... Error! Bookmark not defined.  
Phlc A: Ngôn ngữ đánh du mrng - XML ........ Error! Bookmark not defined.  
Phlc B: Lược đồ XML.............................................. Error! Bookmark not defined.  
Phlc C: Thut toán ca Hirst và St-Onge .............. Error! Bookmark not defined.  
BGIÁO DC VÀ ĐÀO TO  
TRƯỜNG ĐẠI HC BÁCH KHOA HÀ NI  
--------------------------  
LUN VĂN THC SKHOA HC  
®èi s¸nh tù ®éng lîc ®å XML  
NGÀNH: CÔNG NGHTHÔNG TIN  
MS: ……………………….  
VÕ SNAM  
NGƯỜI HƯỚNG DN KHOA HC:  
TS. HUNH QUYT THNG  
HÀ NI - 2006  
Đối sánh tự động lược đồ XML  
i
Li cm ơn  
Lun văn này đánh du kết thúc hai năm cao hc ti trường đại hc Bách  
Khoa Hà Ni. Trong quãng thi gian tuy chưa dài nhưng cũng không phi là ngn  
đó, tôi đã trưởng thành rt nhiu vkiến thc cũng như khnăng nghiên cu.  
Tôi xin bày tlòng biết ơn sâu sc ti thy giáo – TS. Hunh Quyết Thng,  
người đã hướng dn, giúp đỡ tôi hết sc tn tình trong quá trình thc hin lun văn  
tt nghip. Thy là người đã cung cp ý tưởng, tài liu ban đầu về đề tài, các hướng  
dn quan trng trong sut quá trình thc hin lun văn, dành thi gian đọc và sa  
cha báo cáo cũng như có nhng góp ý rt quan trng cho tôi trong sut quá trình  
hoàn thin lun văn này.  
Tôi xin cám ơn thư vin trường EPFL, Thy Sỹ đã cung cp cho tôi mt stài  
liu tham kho bích, xin cm ơn các nhóm sinh viên K48 khoa Công nghthông  
tin, trường đại hc Bách Khoa Hà Ni đã tn tình làm vic cùng tôi và góp nhiu  
công sc trong quá trình cài đặt thnghim chương trình.  
Tôi xin gi li cám ơn sâu sc ti các thy giáo, cô giáo ca trường đại hc  
Bách Khoa Hà Ni, khoa Công nghthông tin đã tn tình ging dy, trang bkiến  
thc cho chúng tôi, xin gi li cám ơn bmôn Kthut hthng, khoa Công nghệ  
thông tin, trường đại hc Xây dng Hà Ni đã hết sc to điu kin vthi gian cho  
tôi hoàn thành lun văn này.  
Tôi cũng xin gi li cám ơn ti các bn ca tôi, nhng người đã chia svi tôi  
nhit huyết và nim say mê hc tp & nghiên cu khoa hc, chia svi tôi kiến thc  
và phương pháp tìm hiu vn đề, cung cp cho tôi các tài liu thiết thc cũng như  
nhng ý tưởng bsung cho lun văn, góp phn giúp tôi thc hin lun văn này  
trong scgng và nlc cao nht.  
Cui cùng nhưng cũng là điu quan trng nht, cho tôi gi li cm ơn sâu sc  
ti b, m, em trai và nhng người thân ca tôi, nhng người đã giúp đỡ tôi rt  
nhiu cvvt cht ln tinh thn trong sut quá trình hc tp và công tác, động  
viên tôi trong nhng lúc khó khăn cũng như chia snim vui vi tôi nhng lúc  
thành công. Mt ln na tôi xin chân thành cám ơn tt c./.  
Hà Ni, tháng 11 năm 2006  
Võ SNam  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Đối sánh tự động lược đồ XML  
ii  
Mc lc  
Danh mc tviết tt, thut ng........................................................................... iv  
Danh mc bng biu .............................................................................................. v  
Danh mc hình v................................................................................................... v  
Mở đầu .................................................................................................................... 1  
1. Gii thiu chung...........................................................................................................1  
2. Ni dung lun văn........................................................................................................3  
Chương 1 Đối sánh lược đ................................................................................... 6  
1.1 Tng quan về đối sánh lược đ.................................................................................7  
1.1.1 Các khái nim cơ bn về đối sánh lược đ...........................................................7  
1.1.2 Các lĩnh vc ng dng đối sánh lược đ..............................................................8  
1.2 Các tiếp cn đối sánh lược đồ .................................................................................14  
1.2.1 Phân loi các tiếp cn đối sánh lược đồ.............................................................14  
1.2.2 Các tiếp cn đối sánh lược đồ ............................................................................15  
1.2.3 Các phương pháp đối sánh lược đồ....................................................................17  
1.3 Các hthng đối sánh lược đồ XML......................................................................20  
1.3.1 Cupid (trung tâm nghiên cu Microsoft)............................................................21  
1.3.2 Similarity Flooding (đại hc Stanford đại hc Leipzig) ...............................23  
1.3.3 LSD (đại hc Washington)..................................................................................24  
1.3.4 Clio (IBM Almaden và đại hc Toronto)............................................................25  
1.3.5 Mt shthng đối sánh lược đồ khác ..............................................................26  
1.4 Kết chương ...............................................................................................................28  
Chương 2 Các định nghĩa hình thc .................................................................. 29  
2.1 Vn đề đối sánh lược đồ XML................................................................................30  
2.1.1 Đối sánh ngnghĩa và đối sánh cú pháp ...........................................................30  
2.1.2 Thông tin đầu vào ca tiến trình đối sánh..........................................................32  
2.1.3 Thông tin đầu ra ca tiến trình đối sánh ............................................................34  
2.1.4 Các định nghĩa hình thc....................................................................................35  
2.2 Mô hình hóa lược đồ XML......................................................................................36  
2.2.1 Các nút đồ thlược đồ ........................................................................................37  
2.2.2 Các cnh đồ thlược đồ......................................................................................37  
2.2.3 Các ràng buc đồ thlược đồ .............................................................................38  
2.2.4 Các định nghĩa hình thc....................................................................................40  
2.3 Ánh xngun–đích ..................................................................................................43  
2.4 Kết chương ...............................................................................................................46  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Đối sánh tự động lược đồ XML  
iii  
Chương 3 Đối sánh tự động lược đồ XML ........................................................ 47  
3.1 Tng quan về đối sánh tự động lược đồ XML.......................................................48  
3.2 Đo độ tương đồng ngôn ng....................................................................................49  
3.2.1 WordNet và quan hngnghĩa gia các t.......................................................49  
3.2.2 Thut toán ca Hirst và St-Onge........................................................................50  
3.2.3 Gii pháp ca hthng Cupid............................................................................52  
3.3 Xét tính tương thích kiu dliu lược đồ XML và phân tích phân cp kiu  
người thiết kế..................................................................................................................53  
3.3.1 Xét tính tương thích kiu dliu lược đồ XML ..................................................53  
3.3.2 Phân tích phân cp kiu người thiết kế ..............................................................55  
3.4 Đo độ tương đồng cu trúc......................................................................................56  
3.4.1 Định nghĩa ngcnh nút ....................................................................................56  
3.4.2 Đo độ tương tự đường dn..................................................................................58  
3.4.3 Đo độ tương đồng ngcnh nút.........................................................................63  
3.5 Đo độ tương đồng nút và to ánh xgia các phn t.........................................66  
3.5.1 Đo độ tương đồng nút.........................................................................................66  
3.5.2 To ánh xgia các nút và cnh đối sánh .........................................................67  
3.6 Đánh giá tiến trình đối sánh lược đồ XML............................................................68  
3.6.1 Các phương pháp đánh giá.................................................................................68  
3.6.2 Đánh giá gii pháp .............................................................................................70  
3.7 Áp dng đối sánh lược đồ trong bài toán chuyn đổi tài liu có cu trúc ..........72  
3.7.1 Tng quan vtài liu có cu trúc .......................................................................73  
3.7.2 Chuyn đổi tự động tài liu có cu trúc..............................................................76  
3.7.3 Mô hình cho hthng chuyn đổi tự động tài liu XML ....................................78  
3.8 Kết chương ...............................................................................................................80  
Kết lun và hướng phát trin.............................................................................. 81  
1. Đóng góp chính ca lun văn....................................................................................81  
2. Hướng phát trin........................................................................................................84  
Danh mc tài liu tham kho.............................................................................. 86  
Phlc................................................................................................................... 88  
Phlc A: Ngôn ngữ đánh du mrng - XML ........................................................89  
Phlc B: Lược đồ XML..............................................................................................97  
Phlc C: Thut toán ca Hirst và St-Onge ............................................................100  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Đối sánh tự động lược đồ XML  
iv  
Danh mc tviết tt, thut ngữ  
Tviết tt/ thut ngGii nghĩa  
Ghi chú  
CSDL  
TTNT  
XML  
DTD  
Cơ sdliu  
Trí tunhân to  
eXtended Markup Language  
Document Type Definition  
XML Schema Definition  
Standard Generalized Markup Language  
Longest Common Subsequence  
XSD  
SGML  
LCS  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Đối sánh tự động lược đồ XML  
v
Danh mc bng biu  
Bng 3. 1 Đặc đim các lược đồ thnghim...................................................... 70  
Bng 3. 2 Kết quả đo cht lượng đối sánh ......................................................... 71  
Danh mc hình vẽ  
Hình 2. 1 Ví dvề đồ thlược đồ ........................................................................ 36  
Hình 3. 1 Tiến trình tính toán độ tương đồng phn t..................................... 49  
Hình 3. 2 Ngcnh ca mt phn tlược đồ.................................................... 57  
Hình 3. 3 So sánh các đối sánh thc vi các đối sánh suy din được.............. 70  
Hình 3. 4 Biu đồ so sánh kết quthc thi ........................................................ 72  
Hình 3. 5 Mô hình cho hthng chuyn đổi tự động tài liu XML................. 79  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Mở đầu  
1
Mở đầu  
1. Gii thiu chung  
Mt vn đề rt quan trng trong các hthng xlý thông tin là trao đổi  
và sdng li dliu gia các hthng có dliu không đồng nht. Tính  
không đồng nht ca dliu là do các tchc hoc ng dng thường to ra  
dliu cho chính mình da trên các yêu cu riêng bit. Các yêu cu này hu  
hết thường được đặc ttrong các mô hình dliu tru tượng, còn gi là các  
lược đồ (chng hn như lược đồ quan h, lược đồ hướng đối tượng và gn đây  
là lược đồ XML). Trong nhng năm gn đây, sphát trin mnh mca các  
ngun dliu Web vi rt nhiu mô hình thông tin và cú pháp mã hóa khác  
nhau đã dn đến nhu cu ngày càng cp thiết ca vic phát trin các phương  
pháp và công chtrcho vic trao đổi và sdng li dliu, do vy đã có  
rt nhiu nghiên cu quan tâm đến vn đề này. Như ta biết, đối sánh lược đồ  
là vn đề trung tâm trong hu hết các nghiên cu đó. Bài toán đối sánh lược  
đồ có thể được định nghĩa mt cách phi hình thc như sau: [6], [11] “Cho hai  
lược đồ S1 và S2 trên mô hình dliu bt k, có thcó thêm thông tin phtrợ  
và mt ánh xkhi đầu, hãy tìm ánh xgia các phn tlược đồ tha mãn  
yêu cu người dùng”. Nói cách khác, đây là vn đề tìm kiếm stương đồng  
gia các phn tca S1 S2 (hay là vic xác định các thành phn tương  
đương nhau gia hai lược đồ ngun và đích đã cho) bng cách khai thác các  
thông tin tn ti trong lược đồ, dliu và các ngun thông tin phtr.  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Mở đầu  
2
Thc tế cho thy, các thách thc gp phi khi tìm kiếm gii pháp cho bài  
toán đối sánh lược đồ là rt ln. Thnht, quá trình này cn đến sphân tích  
ngnghĩa trong các lược đồ đó, hay nói cách khác ta cn suy din được nhn  
thc vlược đồ ca người to ra nó. Tuy vy, các lược đồ thường được thiết  
kế bi nhng con người khác nhau vi nhng nhn thc khác nhau vthế gii  
thc cho các mc đích khác nhau. Thhai, vic khai thác thông tin cho bài  
toán đối sánh lược đồ gp rt nhiu khó khăn vì ta phi khai thác mt lượng  
ln thông tin hn tp và không chc chn, ví dnhư tài liu đặc tlược đồ,  
các ngun dliu ca lược đồ… Tcác phân tích trên, có ththy rng vic  
đối sánh lược đồ bng tay thường khá tn kém và dgây li. Điu đó cho thy  
vic phát trin các kthut nhm tự động hóa mt cách ti đa tiến trình đối  
sánh lược đồ là rt quan trng.  
Hin nay, XML (eXtended Markup Language - ngôn ngữ đánh du mở  
rng) [24] đã trthành chun ngôn nghiu quvà thích hp cho vic biu  
din dliu trên Web. Nhu cu sdng XML như là chun biu din và trao  
đổi dliu ngày càng tăng ca cng đồng Web đã to nên mt lượng dliu  
XML ngày càng ln. Gn lin vi sgia tăng đó, mt lượng ln các lược đồ  
XML [25], [26], [27] đã được phát trin vi rt nhiu đặc tkhác nhau, dn  
đến mt lượng ln dliu XML không đồng nht. Thêm vào đó, hin ti li  
có khá nhiu ngôn nglược đồ khác nhau được đưa ra, dn đến skhông  
đồng nht vmt cú pháp các ngôn nglược đồ. Vi sphát trin nhanh  
chóng và stăng trưởng mnh mvmt quy mô ca các ng dng Web, đặc  
bit là sphdng ca Internet và công nghXML, đã có rt nhiu nghiên  
cu quan tâm đến vn đề trao đổi và sdng li dliu XML. Vn đề đối  
sánh lược đồ XML do vy ngày càng trnên quan trng. Nhm góp phn tìm  
hiu và gii quyết vn đề đó mt cách hiu quhơn, lun văn này stng hp  
li cũng như đưa ra các đóng góp thêm cho bài toán đối sánh lược đồ XML.  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Mở đầu  
3
2. Ni dung lun văn  
Lun văn này nghiên cu vn đề đối sánh tự động lược đồ XML. Lun  
văn bao gm ba chương. Chương 1 mô ttng quan vvn đề đối sánh lược  
đồ. Chương 2 đưa ra các định nghĩa hình thc cho vn đề đối sánh lược đồ  
XML. Chương 3 mô tgii pháp đối sánh tự động lược đồ XML. Cũng trong  
chương 3, chúng tôi sxem xét vn đề chuyn đổi tự động tài liu XML. Cui  
cùng, phn kết lun nêu lên nhng đóng góp chính và các hướng phát trin.  
Sau đây là nhng ni dung chính ca lun văn:  
Chương 1: Đối sánh lược đồ. Chương này bao gm ba ni dung chính:  
- Trình bày các khái nim, định nghĩa cơ bn vvn đề đối sánh lược đồ  
và các lĩnh vc ng dng chính ca đối sánh lược đồ như tích hp lược đồ,  
tích hp dliu, kho dliu, chuyn đổi (hay dch, trao đổi) dliu, qun lý  
dliu ngang hàng, thương mi đin t, đối sánh và tích hp ontology, Web  
ngnghĩa, xlý truy vn ngnghĩa, v.v..  
- Trình bày các tiếp cn đối sánh lược đồ đin hình. Phn này chúng tôi  
sxem xét các tiếp cn đin hình như tiếp cn da trên hc máy, da trên  
lut, da trên siêu dliu cũng như mt stiếp cn khác. Tiếp theo chúng tôi  
sxem xét các phương pháp đối sánh đin hình như đối sánh ngôn ng, đối  
sánh da trên ràng buc, đối sánh cu trúc và mt sphương pháp khác.  
Chúng tôi cũng sphân tích nhng đim mnh cũng như nhng hn chế ca  
các gii pháp này, từ đó la chn gii pháp cho tiếp cn ca chúng tôi.  
- Mô tmt shthng đối sánh lược đồ cũng như phân tích các đặc  
đim cơ bn nht ca các hthng đó. Thông qua các hthng này, đặc bit  
là hai hthng Cupid [11] và Similarity Flooding [12], chúng tôi sphân tích  
các gii hn ca các thut toán đối sánh lược đồ hin ti, từ đó la chn các  
thut toán đối sánh ssdng trong tiếp cn ca chúng tôi.  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Mở đầu  
4
Chương 2: Các định nghĩa hình thc. Chương này bao gm ba ni dung  
chính:  
- Trình bày các định nghĩa hình thc cho vn đề đối sánh lược đồ, tp  
trung vào lược đồ XML. Các gii pháp hin hành nhìn chung không quan tâm  
nhiu đến vic đưa ra các định nghĩa hình thc đầy đủ cho vn đề. Trong  
chương này, chúng tôi cũng smô tcác githiết cơ bn cho vn đề đối sánh  
lược đồ XML.  
- Trình bày gii pháp mô hình hóa lược đồ XML da trên đồ thgán nhãn  
có hướng vi các ràng buc. Các nút ca đồ thbiu din các phn tvà các  
thuc tính ca lược đồ XML trong khi các cnh ca đồ thbiu din các quan  
hkhác nhau gia các phn t.  
- Mô tả đại sánh xngun–đích áp dng cho vn đề chuyn đổi dliu.  
Đại sánh xngun–đích là mt mrng ca đại squan hchun. Trong  
lun văn này chúng tôi sxem xét tp các phép toán bao gm hp, chn,  
nhp, tách, ni, áp dng đổi tên.  
Chương 3: Đối sánh tự động lược đồ XML.  
Chương này mô tgii pháp đối sánh tự động lược đồ XML, đánh giá  
gii pháp và mô tmt ng dng đin hình cho đối sánh lược đồ, vn đề  
chuyn đổi tự động tài liu XML. Chương này bao gm các ni dung chính  
sau:  
- Mô ttiến trình tính toán độ tương đồng phn ttheo ba pha:  
+ Đo độ tương đồng ngôn ng: sdng thut toán ca Hirst và St-  
Onge để tính toán khong cách ngnghĩa da trên WordNet [7]. Thut toán  
này được thay đổi để đưa ra hstương đồng cũng như các quan hngữ  
nghĩa (tương đương, rng hơn, hp hơn, v.v..).  
+ Xét tính tương thích kiu dliu: da trên vic phân tích các kiu dữ  
liu lược đồ XML để suy ra hstương thích kiu dliu. Vi nút nguyên tố  
(tc nút lá) chúng tôi sdng phân cp kiu lược đồ XML [27], còn vi nút  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Mở đầu  
5
trung gian chúng tôi sdng các tính năng như tha kế kiu, nhóm thay thế  
và kiu tru tượng để tìm kiếm các ánh xphc hp.  
+ Đo độ tương đồng cu trúc: khác vi các thut toán đối sánh cu trúc  
hin hành, chúng tôi nhn mnh vào khái nim ngcnh ca phn t. Ngữ  
cnh ca mt phn tlà skết hp ngcnh ttiên, ngcnh con và ngữ  
cnh lá ca nó. Để so sánh các ngcnh này, chúng tôi so sánh các đường  
dn da trên các ý tưởng vtrli truy vn đường dn.  
- Đưa ra các ánh xtrc tiếp cũng như phc hp gia các phn tlược  
đồ (vi các phép toán chuyn đổi và điu kin chuyn đổi tương ng) từ độ  
tương đồng phn tử đã tính toán.  
- Đánh giá gii pháp đối sánh lược đồ XML đã đưa ra sdng các phép  
đo cht lượng được đã được định nghĩa trong [5].  
Cũng trong chương này, chúng tôi sxem xét mt trong nhng ng dng  
đin hình ca đối sánh lược đồ, vn đề chuyn đổi tài liu có cu trúc. Đầu  
tiên chúng tôi mô ttng quan vtài liu có cu trúc, tiếp theo chúng tôi trình  
bày vn đề chuyn đổi tự động tài liu có cu trúc và cui cùng chúng tôi đưa  
ra mt mô hình cho hthng chuyn đổi tự động tài liu XML. Trong tương  
lai chúng tôi có ý định áp dng gii pháp đối sánh lược đồ nêu trên vào mô  
hình này.  
Kết lun và các hướng phát trin.  
Trong phn này, chúng tôi snêu lên các đóng góp chính ca lun văn và  
đưa ra mt số định hướng phát trin trong tương lai cho đề tài.  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
6
Chương 1  
Đối sánh lược đồ  
Trong chương này chúng tôi tng hp li các kết qunghiên cu đin  
hình vvn đề đối sánh lược đồ. Trước hết chúng tôi trình bày các khái nim  
cơ bn cũng như các lĩnh vc ng dng đin hình ca đối sánh lược đồ. Như  
ta sthy, các lĩnh vc này là rt phong phú, cho thy tm quan trng ca  
bài toán đối sánh lược đồ. Tiếp theo chúng tôi mô tcác tiếp cn đối sánh cơ  
bn và các phương pháp đối sánh thông dng hin nay. Da trên các kho  
sát về đối sánh lược đồ cũng như mt snghiên cu gn đây, chúng tôi tiến  
hành phân tích và so sánh các tiếp cn này. Như ta sthy, các gii pháp đối  
sánh thường kết hp nhiu phương pháp khác nhau để tăng tính hiu qucho  
tiến trình đối sánh.  
Trong chương này chúng tôi cũng mô tmt shthng đối sánh lược  
đồ đin hình đã được thc hin, đánh giá và so sánh các thut toán được sử  
dng trong các hthng này. Tcác đánh giá đó chúng tôi nêu ra các hn  
chế cơ bn ca các thut toán này, đặc bit là trong vn đề chuyn đổi dữ  
liu. Cui cùng, trên cơ scác phân tích trên, chúng tôi schng trng các  
thut toán đối sánh lược đồ hin ti cn được phát trin và hoàn thin thêm  
nhm gii quyết vn đề tự động hóa tiến trình đối sánh lược đồ mt cách có  
hiu qunht.  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
7
1.1 Tng quan về đối sánh lược đồ  
1.1.1 Các khái nim cơ bn về đối sánh lược đồ  
Đối sánh lược đồ là quá trình thao tác trên các lược đồ vi đầu vào là hai  
lược đồ không đồng nht và có thcó thêm thông tin ph, trvmt tp các  
ánh xcho biết sliên quan ngnghĩa gia các phn tlược đồ [17]. Trong  
thc tế, đối sánh lược đồ thường được thc hin bng tay vi shtrca  
các công cụ đồ ha. Quá trình này thường tn thi gian và dgây li, bi vy  
đã có nhiu nghiên cu được tiến hành nhm tự động hóa tiến trình đối sánh  
lược đồ. Tuy nhiên đây là mt vn đề khó và phc tp do mt slý do cơ bn  
sau: [21]  
- Các phn tlược đồ được đối sánh trên cơ sngnghĩa ca chúng.  
Ngnghĩa có thể được thhin tmt sngun thông tin như người thiết kế,  
tài liu, lược đồ và thhin dliu. Thc tế cho thy người thiết kế rt khó để  
nhớ được tt cchi tiết lược đồ và tài liu hin có thì thường không chính xác,  
không được cp nht và không thtruy cp. Do đó tiến trình đối sánh lược đồ  
thường da hoàn toàn trên các du hiu trong lược đồ và thhin dliu.  
- Các lược đồ đã phát trin cho các ng dng khác nhau thì thường  
không đồng nht, tc là mc dù dliu chúng mô tlà tương đồng vngữ  
nghĩa nhưng cu trúc và cú pháp sdng li có thkhác nhau đáng k.  
- Để gii quyết các xung đột ngnghĩa và lược đồ, đối sánh lược đồ  
thường da trên tên phn t, kiu dliu phn t, các định nghĩa cu trúc, các  
ràng buc toàn vn và các giá trdliu. Tuy vy, các du hiu này thường  
không chc chn và không đầy đủ. Ví dcác nhãn ging nhau có thể được sử  
dng cho các phn tlược đồ có ý nghĩa hoàn toàn khác nhau. Ngược li, hai  
phn tvi các nhãn khác nhau có ththam chiếu ti cùng mt thc ththc  
tế. Kiu dliu cũng thường không chính xác (ví dsdng kiu "string"  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
8
thay vì "date") và các ràng buc thường là không đầy đủ. Trong điu kin  
này, vn đề chính skhông chlà vic phi xác định được các quan hệ đang  
tn ti gia các phn tlược đồ mà còn phi chc chn rng tiến trình đối  
sánh skhông đưa ra các ánh xkhông chính xác.  
- Ánh xạ đơn gin nht là ánh xmt-mt, ni kết mt phn tlược đồ  
ngun trc tiếp ti mt phn tlược đồ đích. Tuy vy trong thc tế, mt phn  
ttrong lược đồ này có thtương ng vi nhiu phn ttrong lược đồ khác  
bng cách áp dng mt hoc mt vài phép toán (ví dphn tử đích “Name”  
tương ng vi ghép ni ca hai phn tngun “firstName” và “lastName”) và  
thm chí nhiu phn ttrong lược đồ này cũng có thtương ng vi nhiu  
phn ttrong mt lược đồ khác. Loi ánh xnày được gi là phc hp hay  
gián tiếp và thường không thsuy ra được ngay tlược đồ và các thhin mà  
thường đòi hi scan thip ca người dùng. Vic khám phá ánh xphc hp  
là mt vn đề khó và phc tp bi vì quá trình đối sánh không chcn tìm  
kiếm các ánh xnày mà còn phi nhn biết các phép toán cn đến chng hn  
như ghép ni hai phn t, hp nht hoc phân chia các giá trdliu, v.v..  
- Hin nhiên quá trình đối sánh lược đồ không ththc hin tự động  
được hoàn toàn, do vy nó đòi hi phi có scan thip ca người dùng. Từ đó  
có ththy mt điu quan trng là quá trình đối sánh không chcn tự động  
đến mc có thmà còn phi nhn biết được khi nào đầu vào người dùng là  
cn thiết và đầu vào đó phi được khai thác mt cách hiu qunht.  
1.1.2 Các lĩnh vc ng dng đối sánh lược đồ  
Đối sánh lược đồ là bước then cht trong nhng ng dng mà dliu  
chúng xđược cu trúc hóa dưới các mô hình đã chra (chng hn như  
lược đồ quan h, lược đồ hướng đối tượng, DTD, lược đồ XML, v.v..) hoc  
nhng ng dng mà các lược đồ chúng khai thác là không đồng nht. Đối  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
9
sánh lược đồ cho phép thao tác trên các lược đồ, dch dliu và trli truy  
vn qua các lược đồ không đồng nht. Nhiu ng dng khác nhau da trên đối  
sánh lược đồ đã xut hin và đã được nghiên cu rng rãi trong các lĩnh vc  
cơ sdliu (CSDL) và trí tunhân to (TTNT) [17], chng hn như tích  
hp lược đồ, tích hp dliu, kho dliu, chuyn đổi (hay dch, trao đổi) dữ  
liu, qun lý dliu ngang hàng, thương mi đin t, đối sánh và tích hp  
ontology, Web ngnghĩa, xlý truy vn ngnghĩa, v.v.. Sau đây chúng tôi sẽ  
xem xét tng quan các vn đề chính trong các lĩnh vc này.  
1.1.2.1 Tích hp lược đồ  
Hu hết các nghiên cu về đối sánh lược đồ ban đầu là nhm gii quyết  
vn đề tích hp lược đồ, là vn đề hp nht các lược đồ ttrvà không đồng  
nht thành mt lược đồ tng th, gi là lược đồ trung gian. Vn đề tích hp  
lược đồ là mt mi quan tâm chính trong hai thp kqua trong lĩnh vc  
CSDL [17]. Do các lược đồ là ttrđược phát trin độc lp, chúng thường  
biu din không đồng nht các ngôn ngvà cu trúc khác nhau. Quá trình tích  
hp đòi hi nhn dng được các phthuc liên lược đồ. Đây là mt quá trình  
đối sánh lược đồ. Mt khi chúng đã được nhn dng, các phn tử đối sánh  
được hp nht dưới mt lược đồ trung gian ckết.  
1.1.2.2 Tích hp dliu  
Các hthng tích hp dliu có mc đích cung cp cho người dùng mt  
giao din truy vn đồng bcho rt nhiu ngun dliu. Hai thành phn chính  
to thành kiến trúc ca mt hthng tích hp dliu: trình bao bc trình  
môi gii. Trình bao bc bc mt ngun thông tin và mô hình hóa ngun thông  
tin đó sdng mt lược đồ ngun. Trình môi gii duy trì mt lược đồ tng thể  
và các ánh xgia lược đồ tng thvà các lược đồ ngun. Mi khi người  
dùng đưa ra mt truy vn trên lược đồ tng th, trình môi gii sdng các  
ánh xnày để công thc hóa li mt truy vn tng ththành mt tp các truy  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
10  
vn con mà có ththi hành trong các lược đồ ngun và như vy trình môi gii  
có thtp hp các trli được trli tcác ngun và kết hp chúng thành trả  
li cho truy vn [21].  
Như vy mt vn đề then cht trong vic xây dng hthng tích hp dữ  
liu là vic cung cp chính xác các ánh xgia các lược đồ tng thvà ngun.  
Hin nay, có hai gii pháp chính cho vic cung cp các ánh xnày: khung  
nhìn tng thkhung nhìn cc b. Trong tiếp cn đầu, lược đồ trung gian  
được định nghĩa dưới dng các lược đồ ca các ngun. Còn trong tiếp cn  
sau, các mô tca ngun được cho theo hướng ngược li. Thun li chính ca  
tiếp cn đầu là vic công thc hóa li truy vn là đơn gin. Tuy vy, vic thêm  
các ngun vào lược đồ trung gian li không phi là vic tm thường. Ngược  
li, trong tiếp cn sau, vic công thc hóa li truy vn khó hơn nhưng vic  
thêm vào các ngun mi thì khá đơn gin. Từ đó mt snghiên cu đã đề  
xut gii pháp kết hp hai tiếp cn trên để tích hp các ngun dliu không  
đồng nht [20].  
1.1.2.3 Kho dliu  
Mt biến thca vn đề tích hp dliu là tp hp các ngun dliu  
tích hp vào mt kho tp trung, gi là kho dliu. Quá trình này đòi hi phi  
chuyn đổi dliu từ định dng ngun thành định dng kho dliu, do đó có  
thsdng đối sánh lược đồ để thc hin các chuyn đổi này. Vi mt ngun  
dliu đã cho, mt phương pháp thích hp để to các chuyn đổi là tìm kiếm  
các phn tca ngun mà có mt trong kho dliu. Thun li chính ca kho  
dliu là hiu qucao trong trli truy vn (bi vì các truy vn được áp dng  
trc tiếp ti dliu trong kho). Tuy vy, nó đòi hi kho phi được cp nht  
khi dliu thay đổi, điu này không thích hp khi điu qun mt slượng ln  
ngun hoc khi ngun thường xuyên thay đổi. Hin nay mt khung làm vic  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
11  
htrcho các khung nhìn tích hp mà kết hp các tiếp cn kho dliu và  
kho o đã được đề xut [17].  
1.1.2.4 Chuyn đổi dliu  
Trong vài năm gn đây, sphát trin nhanh chóng ca thông tin trc  
tuyến trong các ngun không đồng nht phân bit lưu trdưới các định dng  
khác nhau đã dn đến mt ng dng khác đòi hi vic đối sánh lược đồ: trao  
đổi dliu. Trao đổi dliu mà thường được gi là dch hay chuyn đổi dữ  
liu là vn đề dch ni dung ca ngun dliu thành thhin ca mt lược đồ  
đích mà phn ánh dliu ngun chính xác đến mc có th.  
Tuy vn đề trao đổi dliu có mt số đim tương đồng vi vn đề tích  
hp dliu, vn có mt skhác bit quan trng gia hai vn đề này. Trong  
kch bn chuyn đổi dliu, lược đồ đích nhìn chung được to ra độc lp và  
có các ràng buc ca bn thân nó. Còn trong tích hp dliu lược đồ tng thể  
là mt lược đồ ảo và có tính hòa hp, không có các ràng buc định nghĩa  
trước. Mt khác bit quan trng na là trong trao đổi dliu ta phi to ra  
mt thhin đích mà phn ánh tt nht thhin ngun đã cho. Trong tích hp  
dliu không có strao đổi nào vdliu được yêu cu. Vic tự động hóa  
quá trình dch dliu đòi hi sdng đối sánh lược đồ để phát hin stương  
đồng gia lược đồ ngun và đích, đây là mt bước then cht để đưa ra mt  
chương trình dch thích hp [17].  
1.1.2.5 Thương mi đin tử  
Vi sphbiến ca Internet hin nay, các công ty kinh doanh ngày càng  
phi qun lý nhiu giao dch trc tuyến như trao đổi thông tin, đặt hàng, xác  
nhn và thanh toán... Các giao dch này là quá trình trao đổi các tài liu hay  
thông đip gia các công ty. Tuy vy các công ty thường phát trin ng dng  
vi các định dng thông đip khác nhau như EDI (Electronic Data Exchange),  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
12  
XML (Extended Markup Language) hoc mt số định dng khác. Để trao đổi  
các thông đip đó, các ng dng cn phi chuyn đổi được các thông đip từ  
định dng này sang định dng khác. Như đã nói trên, đây chính là vn đề  
chuyn đổi dliu [17].  
1.1.2.6 Qun lý dliu ngang hàng  
Mt ng dng quan trng ca đối sánh lược đồ là qun lý dliu ngang  
hàng, là mt mrng tnhiên ca tích hp dliu. Ngược li vi môi trường  
tích hp dliu, mt qun lý dliu ngang hàng không da trên khái nim  
lược đồ trung gian mà cho phép mt stùy ý các đim truy vn và ly dliu  
trc tiếp tmi đim khác. Vic xlý thông tin và ly ni dung gia vô số  
các đim ttrị đòi hi các kthut đối sánh thích hp để xác định các ánh xạ  
gia các khái nim ca các đim khác nhau mà có liên quan vngnghĩa  
[17].  
1.1.2.7 Đối sánh và tích hp ontology  
Ontology được định nghĩa như là vic khái nim hóa mt lĩnh vc dưới  
dng các khái nim và quan h. Hin nay ontology được tha nhn là mt  
công ccơ bn cho phép chia stri thc gia các ng dng phân tán và không  
đồng nht. Nhiu nghiên cu xoay quanh ontology đã được thc hin, tthiết  
kế đến phát trin và sdng li. Đối sánh ontology là mt trong nhng bước  
cơ bn ca hu hết các ng dng da trên ontology, trong đó có vn đề tích  
hp ontology. [6].  
1.1.2.8 Web ngnghĩa  
Mt trong nhng vn đề đang được quan tâm nhiu hin nay là Web ngữ  
nghĩa, tc là vn đề sdng mt sontology lĩnh vc nhm mô tý nghĩa ca  
dliu trên Web. Sphát trin nhanh chóng ca Internet vi lượng thông tin  
khng lkhiến ta rt khó khai thác và sdng hiu qucác ngun thông tin  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
13  
đó, bi vì các thông tin trên Web hin nay được thiết kế chyếu cho con  
người sdng chkhông phi máy tính. Mc đích ca Web ngnghĩa là làm  
giàu các tài liu Web hin nay bng các mô tngnghĩa nhm làm cho máy  
tính có thhiu được. Phương pháp làm giàu các tài liu Web hin nay là sử  
dng ontology. Tuy vy các Website khác nhau li thường sdng ontology  
khác nhau, bi vy để làm cho Web có khnăng liên tác được, ta cn các kỹ  
thut đối sánh thích hp gia các ontology ttrị để xác định các ánh xngữ  
nghĩa gia các khái nim ontology khác nhau mà có liên quan vngnghĩa  
[6].  
1.1.2.9 Xlý truy vn ngnghĩa  
Tích hp dliu, kho dliu, và chuyn đổi dliu nhìn chung là các  
vn đề tương tnhau bi vì chúng đều phi phân tích các lược đồ để đưa ra  
các ánh x(và có thmt lược đồ tích hp) – ta gi đây là vic phân tích ti  
thi đim thiết kế. Mt vn đề khác hơn đôi chút là xlý truy vn ngnghĩa -  
mt vn đề ti thi đim thc thi ở đó người dùng schđầu ra ca mt  
truy vn và hthng stính toán xem làm thế nào để đưa ra đầu ra đó. Đặc tả  
ca người dùng được phát biu dưới dng các khái nim quen thuc vi họ  
mà có thkhông ging như tên các phn tử được chra trong lược đồ CSDL.  
Bi vy, trong pha đầu tiên ca vic xlý truy vn, hthng phi ánh xcác  
khái nim người dùng yêu cu trong đầu ra truy vn ti các phn tlược đồ.  
Đây cũng là mt ng dng tnhiên ca phép toán đối sánh.  
Sau khi ánh xạ đầu ra truy vn ti các phn tlược đồ, hthng phi  
nhn được mt phát biu cho biết ngnghĩa ca ánh x. Đã có nhiu kthut  
được phát trin trong nhiu thp kqua nhm thu nhn các phát biu này.  
Mt trong nhng hướng nghiên cu hin nay là tng quát hóa các kthut  
này để chra ngnghĩa ca mt ánh xạ đưa ra bi phép toán đối sánh tìm  
được [17].  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
14  
1.2 Các tiếp cn đối sánh lược đồ  
1.2.1 Phân loi các tiếp cn đối sánh lược đồ  
Đối sánh lược đồ là mt vn đề mi mvà thường được nghiên cu riêng  
ltrên nhiu lĩnh vc khác nhau, do vy đã có nhiu kho sát được đưa ra  
nhm phân loi các tiếp cn này. Đáng chú ý hơn clà kho sát ca Rahm &  
Bernstein [17], trong đó các tác giphân bit các phương pháp đối sánh da  
trên phương pháp tiếp cn mà chúng sdng như sau:  
* Tiếp cn da trên lược đồ >< Tiếp cn da trên thhin: Tiếp cn da  
trên lược đồ chsdng các thông tin cha trong lược đồ như tên, kiu... Còn  
tiếp cn da trên dliu chsdng ni dung dliu.  
* Tiếp cn da trên phn t>< Tiếp cn da trên cu trúc: quá trình đối  
sánh có ththc hin cho tng phn t(như các thuc tính) hoc kết hp các  
phn tvi nhau trong 1 cu trúc.  
* Tiếp cn da trên ngôn ng>< Tiếp cn da trên ràng buc: đối sánh  
có thsdng cách tiếp cn da trên ngôn ngnhư so sánh tên các phn t,  
các thông tin mô tphn thoc sdng cách tiếp cn da trên ràng buc  
như ràng buc như kiu dliu, ràng buc đơn nht, khóa, v.v..  
* Tiếp cn lai >< Tiếp cn kết hp: Để có mt kết quả đối sánh tt hơn  
ta thường kết hp các tiếp cn độc lp vi nhau. Các cách tiếp cn này có thể  
được thc hin trong mt bộ đối sánh lai hoc kết hp các kết quả đối sánh  
ca các tiếp cn độc lp khác nhau.  
* Syếu tố đối sánh: kết quả đối sánh có thlà mt hay nhiu phn tử  
ca lược đồ ngun đối sánh vi mt hay nhiu phn tca lược đồ đích. Có  
bn trường hp cơ bn, bao gm đối sánh 1:1, 1:n, n:1 và n:m. Ngoài ra mt  
phn tca lược đồ này cũng có thliên quan đến nhiu phn tca lược đồ  
kia, khi đó có thcn đến các phép toán hp nht hoc phân tách.  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
15  
* Thông tin trgiúp: các tiếp cn đối sánh thường sdng nhiu ngun  
thông tin trgiúp khác nhau như từ đin, lược đồ tng th, các kết quả đối  
sánh sn có ttrước hay đầu vào người dùng.  
1.2.2 Các tiếp cn đối sánh lược đồ  
Các tiếp cn đối sánh lược đồ đã được phát trin chyếu trong các  
nghiên cu vCSDL và TTNT. Trong mc này chúng tôi stng kết li, mô  
tvà so sánh các tính năng đặc trưng ca các tiếp cn này.  
1.2.2.1 Tiếp cn da trên hc máy  
Hc máy là khnăng khai thác các kết qunhn được trước đó ca mt  
máy để ci thin hiu năng ca nó, đặc bit là để tự động hóa các quá trình đắt  
tin và tn thi gian. Nhiu nghiên cu gn đây trong các lĩnh vc CSDL và  
TTNT đã tn dng các kthut hc máy để thc hin đối sánh lược đồ [21],  
[6]. Các công cụ đối sánh lược đồ da trên hc máy thông thường bao gm  
mt scác môđun, gi là người hc bao gm mt môđun riêng và siêu người  
hc để kết hp chúng. Mi người hc khai thác mt loi thông tin khác nhau  
có trong các định nghĩa cu trúc và/hoc trong các ngun dliu. Mt khi  
người hc đã được đào to, công cụ đối sánh có thtìm kiếm các ánh xcho  
mt ngun dliu mi bng cách áp dng các người hc và sau đó kết hp  
các kết quca chúng bng cách sdng mt siêu người hc. Ví dhthng  
LSD [6] áp dng mt chiến lược siêu hc để to nên mt số đối sánh cơ smà  
có xem xét đến các thhin dliu hoc thông tin lược đồ. Ngoài ra còn mt  
shthng khác như được nêu trong mc 1.3.  
1.2.2.2 Tiếp cn da trên lut  
Phn ln các công cụ đối sánh lược đồ hin ti đều sdng lut để đối  
sánh các lược đồ không đồng nht. Đã có nhiu nghiên cu vvn đề này cả  
trong lĩnh vc CSDL và TTNT [6], [17], [21]. Các tiếp cn da trên lut khai  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
16  
thác nhiu loi thông tin lược đồ như tên phn t, kiu dliu, các ràng buc  
phn tvà phân cp cu trúc. Hthng Cupid [11] và Similarity Flooding  
[12] sdng các lut tính toán độ tương đồng gia hai lược đồ như là tng có  
trng sca các độ tương đồng tên phn t, kiu dliu và vtrí cu trúc.  
1.2.2.3 Tiếp cn da trên siêu dliu  
Mt tiếp cn khác cho vn đề đối sánh lược đồ là tiếp cn da trên siêu  
dliu. Các tiếp cn da trên siêu dliu khai thác thêm thông tin ngnghĩa  
được cung cp chung bi các chuyên gia lĩnh vc, ví dnhư siêu dliu RDF  
hoc các ontology lĩnh vc. Nhìn chung tiếp cn này cgng ánh xtự động  
tt ccác trường ca mi ngun dliu (hoc lược đồ) để định nghĩa trước  
ontology lĩnh vc và sau đó thc hin đối sánh lược đồ ở mc ontology. Như  
vy tiếp cn này thc cht là gii pháp chuyn vn đề ánh xcác ngun dữ  
liu và các lược đồ thành vic ánh xcác ontology.  
1.2.2.4 Mt stiếp cn khác  
Ngoài vic sdng kthut hc máy, mt stiếp cn còn sdng mng  
nơ-ron để đối sánh lược đồ [21]. Tiếp cn sdng mng nơ-ron khai thác các  
ưu đim ca mng nơ-ron trong vic phát hin stương đồng gia các ngun  
dliu. Li ích chính ca mng nơ-ron là thut toán sdng trong pha đào  
to không cn hun luyn. Mt stiếp cn khác cũng đã được đề xut cho vn  
đề đối sánh lược đồ, chng hn tiếp cn hướng đối tượng [21]. Tiếp cn  
hướng đối tượng da trên biu din các lược đồ theo mô hình hướng đối  
tượng, sau đó dch các đặc tlược đồ thành các biu din hướng đối tượng  
này. Tiếp cn này thường được sdng trong các hthng tích hp dliu.  
1.2.2.5 So sánh các tiếp cn  
Các tiếp cn trên cơ slut nhìn chung có giá thành không ln và hiu  
năng cao do chúng không đòi hi phi có pha đào to và thường chhot động  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
17  
trên các lược đồ mà bqua các thhin dliu. Tiếp cn trên cơ slut thích  
hp trong vic thu thp ddàng tri thc người dùng vlĩnh vc. Tuy vy các  
tiếp cn trên cơ slut không thkhai thác thông tin vcác thhin mt cách  
hiu quvà gp phi mt svn đề vi các phn tlược đồ mà không tìm  
thy các lut hiu qu; khi đó ta cn cung cp các du hiu cn thiết.  
Các tiếp cn trên cơ shc yêu cu nhiu dliu đào to và các ví dụ  
đào to đúng. Hơn na các tiếp cn trên cơ shc không thlàm vic chính  
xác nếu không cung cp mt đối sánh ban đầu (mà thông thường được người  
dùng cung cp) và mt tp tiêu biu các ngun dliu, điu này gii hn đáng  
kvic ng dng ca các phương pháp này. Do các tiếp cn trên cơ shc  
da cơ bn trên các ngun dliu và trên các ánh xgia các nút lá ca hai  
cây, chúng không khai thác được các cu trúc phân cp thc s, là vn đề căn  
bn ca dliu có cu trúc. Cui cùng, nhiu tiếp cn trên cơ shc chsử  
dng mt người hc đơn, và do đó mc chính xác và khnăng ng dng bị  
hn chế [6], [21].  
1.2.3 Các phương pháp đối sánh lược đồ  
Dù sdng các tiếp cn trên cơ slut hay trên cơ shc, tt ccác  
công cụ đối sánh đều khai thác tên phn t, kiu dliu, các ràng buc và  
định nghĩa cu trúc. Trên cơ sxem xét các dán đã thc hin và các kho  
sát vvn đề đối sánh lược đồ [17] ta có thphân chia các phương pháp đối  
sánh lược đồ thành ba loi: đối sánh ngôn ng, đối sánh trên cơ sràng buc  
đối sánh cu trúc. Các công cụ đối sánh lược đồ thường kết hp các  
phương pháp này để thc hin quá trình đối sánh.  
1.2.3.1 Đối sánh ngôn ngữ  
Đối sánh ngôn ngvcơ bn da trên tên các thành phn lược đồ để tìm  
kiếm đối sánh gia các lược đồ. Để làm vic, đối sánh ngôn ngthường yêu  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
18  
cu sdng tên mô t. Stương đồng ca tên được đo theo nhiu cách khác  
nhau như đo sbng nhau ca tên, sbng nhau ca biu din tên hp quy  
tc sau khi phân lung và các xlý khác, stương đồng ca tên da trên các  
dãy con chung, khong cách son tho…, hay còn gi là so sánh cú pháp. Đối  
sánh tên da trên cú pháp chtính toán độ tương đồng da trên các xâu biu  
din tên. Nhiu thut toán so sánh xâu đã được phát trin trong các lĩnh vc  
khác nhau như sa li chính t, thu thp văn bn, v.v.. Đối vi vn đề đối  
sánh lược đồ, đã có nhiu thut toán dng này được áp dng, chng hn như  
EditDistance, N-Gram, SoundEx, v.v.. EditDistance là phương pháp tính độ  
tương đồng ca hai xâu tsln thc hin các thao tác xóa, thêm, thay thế ký  
tcn thiết để chuyn mt xâu này thành xâu kia. N-Gram là phương pháp so  
sánh xâu theo tp n-gram ca nó, ví dxâu doc document tương tnhau  
theo tp tri-gram vì tp {doc} và tp {doc,ocu,cum,ume,men,ent} chia sẻ  
phn tdoc”. Còn SoundEx là phương pháp tính độ tương đồng âm thanh  
gia các tên tương ng vi mã SoundEx. Phương pháp này tra khá hiu quả  
cho các từ được viết khác nhau nhưng có khnăng ging nhau, ví dụ  
document documentation. Stương đồng ca tên cũng có thể được tính  
toán da trên các quan hệ đồng nghĩa, trái nghĩa, tng quát, bphn… gia  
các t, hay còn gi là so sánh ngnghĩa. Các quan hnày thu được bng cách  
sdng từ đin nói chung và các từ đin chuyên ngành nói riêng.  
Vic sdng phương pháp đối sánh ngôn ngcó thể đưa đến nhng đối  
sánh không chính xác vmt ngnghĩa. Ví dhai phn tcùng tên có thể  
biu din các khái nim hoàn toàn khác nhau hoc ngược li, hai phn tcó  
tên không ging nhau song li có thbiu din ngnghĩa tương đồng. Hơn  
na đối sánh ngôn ngcòn phi đối phó vi các trường hp đặc bit như sử  
dng chviết tt, chrút gn (là tgm nhng chcái đầu ca các t), tên  
có gii thay mo t, v.v.. Tuy còn tn ti các vn đề trên, đối sánh ngôn ngữ  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
19  
li khá dthc hin và có thcho mt ánh xban đầu, sau đó ta có thxác  
nhn hoc hy bbng các phương pháp đối sánh khác.  
1.2.3.2 Đối sánh da trên ràng buc  
Các ràng buc lược đồ (nếu chúng là các tp thích đáng) có thcho mt  
du hiu đáng quan tâm vcách đối sánh các phn tlược đồ và do đó gim  
nhslượng các ng viên đối sánh (thu được tphương pháp đối sánh ngôn  
ng). Các ràng buc lược đồ bao gm kiu dliu, phm vi giá tr, các ràng  
buc đơn nht và toàn vn, v.v.. Như ta biết, các khuyến nghlược đồ thường  
cung cp mt tp các kiu dliu nguyên gc, do vy vic phân tích các kiu  
dliu này có thcung cp cho ta các ng viên đối sánh. Mt ví dvhệ  
thng sdng tính tương thích kiu dliu là Cupid [11]. Vic so sánh phm  
vi giá trsvà/hoc mu ký tcũng có thcó ích trong vic suy ra các ng  
viên đối sánh này, ví dchúng có thcho phép nhn biết số đin thoi, mã  
bưu đin và địa ch. Vn đề ny sinh trong vic sdng kiu dliu là khi  
chúng không đủ rõ ràng (ví dmt trường đã được khai báo như mt số  
nguyên li được khai báo như mt xâu).  
1.2.3.3 Đối sánh cu trúc  
Thông tin cu trúc (đặc bit là các cu trúc phân cp) là rt có ích trong  
vic xem xét tính tương đồng vngnghĩa ca các phn tlược đồ. Độ tương  
đồng cu trúc là mt phép đo độ tương đồng ca ngcnh mà trong đó các  
phn txut hin. Trong khi rt nhiu tài liu, công trình nghiên cu đề cp  
đến đối sánh ngôn ngđối sánh da trên ràng buc và hu hết đều áp dng  
được cho DTD và lược đồ XML, cho đến nay rt ít nghiên cu quan tâm đến  
cu trúc ca XML trong các phương pháp đối sánh lược đồ ca chúng. Lí do  
cơ bn là hu hết các hthng đối sánh lược đồ được phát trin trong lĩnh vc  
CSDL và do đó vcơ bn chỉ đối phó vi các lược đồ quan h. Ngược li vi  
dliu XML, CSDL quan hcó rt ít dliu cu trúc. Hu hết công vic  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
20  
trong đối sánh cu trúc lược đồ quan hệ được thc hin theo các khóa ngoi  
để tìm kiếm quan hgia các dliu.  
Mt sdán gn đây bt đầu quan tâm đến cách khai thác cu trúc XML  
trong quá trình đối sánh. Hthng Xyleme [4] tính toán độ tương đồng cu  
trúc gia hai phiên bn ca cùng mt tài liu XML trên cơ scác quan htổ  
tiên và con cháu gia các nút. Xyleme là mt công cphát hin các thay đổi  
phiên bn gia các tài liu XML, điu này nghĩa là các tài liu ngun và đích  
độ tương đồng cao, là mt githiết không có giá trlm trong đối sánh  
lược đồ.  
1.3 Các hthng đối sánh lược đồ XML  
Gn đây đã có nhiu tiếp cn khác nhau vvn đề đối sánh lược đồ được  
đưa ra trong các lĩnh vc ng dng khác nhau, chng hn như chuyn đổi tự  
động tài liu có cu trúc. Các tác gitrong [9] đề xut mt tiếp cn trc tiếp  
cú pháp cho vic tự động hóa các chuyn đổi cu trúc gia hai văn phm trên  
cơ scác bchuyn đổi phi trng thái hu hn. Ý tưởng ở đây là to mt  
chuyn đổi bán tự động nếu người dùng định nghĩa mt đối sánh gia các  
phn tcha văn bn tài liu (tc là các lá). Tiếp cn này gp phi mt shn  
chế: đầu tiên nó chlàm vic nếu hai văn phm có phn chung, làm hn chế  
phm vi ca các chuyn đổi trong các chuyn đổi cc b. Hơn na, tiếp cn  
này không có khnăng gii quyết tt cskhông đồng nht có thxy ra  
gia các tài liu có cu trúc, chng hn mt kiu phn tcu trúc trong tài  
liu ngun sẽ được chuyn đổi thành cùng kiu phn ttrong tài liu đích. Ví  
d, mt danh sách các nút thay thế trong tài liu ngun chcó thể được  
chuyn đổi thành mt danh sách bao gm cùng slượng các phn tlp li.  
Bên cnh các nghiên cu trong lĩnh vc tài liu, các nghiên cu trong  
lĩnh vc CSDL và TTNT đã xem xét mt cách rng hơn vn đề đối sánh lược  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  
Chương 1: Đối sánh lược đồ  
21  
đồ trong nhiu lĩnh vc ng dng khác nhau. Vi sphát trin ca XML,  
nhiu thut toán đối sánh đã xem xét cu trúc phân cp ca XML. Sau đây  
chúng tôi sxem xét mt sgii thut và hthng đối sánh lược đồ đin hình.  
1.3.1 Cupid (trung tâm nghiên cu Microsoft)  
Cupid là mt bộ đối sánh lai kết hp mt vài phương pháp đối sánh [11].  
Đây là mt bộ đối sánh được phát trin vi mc đích áp dng cho các mô  
hình dliu tng quát và đã được áp dng cho các ngun dliu XML và  
quan h. Tiến trình đối sánh có ba pha:  
* Pha đầu tiên là đối sánh ngôn ng. Trước hết tên phn tử được phân  
tích thành các token da trên các du phân tách và được mrng để nhn  
dng các chviết tt (abbreviation) hoc chrút gn (acronym) sdng mt  
từ đin đồng nghĩa cho cngôn ngchung và các tham kho riêng lĩnh vc.  
Sau đó Cupid sphân cm các phn tlược đồ thành các danh mc da trên  
kiu dliu và ni dung ngôn ngữ để gim bt slượng phép so sánh mt-  
mt gia các phn tlược đồ (chcác phn tthuc vcác danh mc ging  
nhau trong hai lược đồ mi được xem xét). Tiếp theo Cupid tính toán mt hệ  
stương đồng ngôn nggia các cp tương thích vkiu dliu và ni dung  
ngôn ngda trên vic đối sánh xâu con và mt từ đin đồng nghĩa có các  
quan hệ đồng nghĩa (synonymy) và bao nghĩa (hypernymy). Kết quca pha  
này là mt bng các hstương đồng ngôn ngtrong phm vi [0, 1] gia các  
phn ttrong hai lược đồ.  
* Pha thhai chuyn đổi các lược đồ nguyên thy thành cây và sau đó  
thc hin đối sánh cu trúc tdưới lên. Githiết cơ bn trong pha đối sánh  
cu trúc ca Cupid là nhiu ni dung thông tin được biu din trong các lá và  
các lá đó có ít sthay đổi gia các lược đồ và tiếp đó là cu trúc trong. Các  
phn ttrong hai cây đang được so sánh được duyt theo thttrước. Độ  
tương đồng gia các nút là da trên độ tương đồng ngôn ngđộ tương  
Võ SNam. Lun văn cao hc – ngành công nghthông tin  

Tải về để xem bản đầy đủ

pdf 114 trang yennguyen 10/04/2025 160
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Đối sánh tự động lược đồ XML", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_doi_sanh_tu_dong_luoc_do_xml.pdf