Luận văn Nhận dạng chữ viết và phân tích trang tài liệu

Luận văn  
Nhn dng chviết và phân  
tích trang tài liu  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Mục lục  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
i
GVHD: PGS. TS. Ngô Quc To  
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
ii  
GVHD: PGS. TS. Ngô Quc To  
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
iii  
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Danh mục các hình ảnh  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
iv  
GVHD: PGS. TS. Ngô Quc To  
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
(c) Các hình chnht ti thiu to nên nhóm láng ging gn nht từ đó xác định  
đƣợc dòng văn bản. ...............................................................................................31  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
v
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
MỞ ĐẦU  
I. Đặt vấn đề  
Ngày nay việc sử dụng máy tính để lƣu trữ tài liệu không còn là vấn đề mới  
mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên việc sử dụng  
giấy để lƣu trữ tài liệu trong một số mục đích vẫn không thể thay thế đƣợc (nhƣ  
báo, sách, công văn,…). Hơn nữa lƣợng tài liệu đƣợc tạo ra từ nhiều năm trƣớc vẫn  
còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan trọng của chúng.  
Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng  
chỉ trong một ổ cứng kích thƣớc bằng một cuốn sách nhỏ, tìm kiếm thông tin mà chỉ  
cần tốn vài giây với một cái gõ phím Enter. Giải pháp là gì?  
Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng,  
hàng năm mới có thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay chúng  
ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu  
việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét  
toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động?  
Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí  
lại là cực tiểu. Vấn đề là khi quét vào máy tính chúng ta không thu đƣợc ngay các  
dòng văn bản từ các trang tài liệu kia, để có thể soạn thảo, sửa chữa và tìm kiếm  
nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh của các trang văn  
bản, máy tính lại đối xử công bằng nhƣ nhau với mọi điểm ảnh, máy tính không có  
“mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tƣợng  
đồ họa.  
Một giải pháp đƣợc nghĩ đến ngay đó là đó là xây dựng các hệ thống nhận  
dạng chữ, trong tấm ảnh chứa cả chữ và đối tƣợng đồ họa cần tách và chuyển thành  
dạng trang văn bản, từ đó có thể mở và soạn thảo đƣợc trên các trình soạn thảo văn  
bản.  
Một cách tổng quát thì cách thức làm việc của một hệ thống nhận dạng chữ  
nhƣ sau[5]:  
1. Chụp ảnh các trang tài liệu trên giấy và lƣu lại trong máy tính dƣới dạng hình  
ảnh.  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
1
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
2. Sử dụng một chƣơng trình xử lý ảnh để phân tích hình ảnh sau khi quét, đọc  
đƣợc ký tự trên hình ảnh đó và ghi lại vào máy tính theo cách mà máy tính  
quản lý đƣợc thông tin dữ liệu đó.  
a. Bƣớc 1 là phân tích cấu trúc của ảnh tài liệu, từ đó xác định đâu là  
phần chứa chữ, đâu là phần chứa cả ảnh lẫn ký tự và đâu chỉ chứa  
hình ảnh. Bƣớc này thực sự quan trọng cho bƣớc nhận dạng. Bởi nó  
định vị chính xác cho việc áp dụng các thuật toán nhận dạng lên vùng  
đã xác định tính chất, nếu bƣớc này chính xác trƣớc tiên nó hạn chế  
thời gian cho việc nhận dạng, sau là tăng ngữ nghĩa bổ sung cho việc  
nhận dạng.  
b. Bƣớc 2 nhận dạng ký tự dựa vào các tính chất của ký tự, ví dụ nhƣ sắp  
xếp theo dòng, khoảng cách giữa 2 từ lớn hơn khoảng cách giữa 2 ký  
tự, dùng trí tuệ nhân tạo để dự đoán các ký tự kề nhau phải nhƣ thế  
nào, các từ trong câu phải nhƣ thế nào để câu có nghĩa. Từ đó có nội  
dung đúng để lƣu trữ, quản lý….  
Trong thực tế không phải quá trình nhận dạng nào cũng chỉ trải qua hai bƣớc  
nhƣ trên, bởi vì có rất nhiều tham số ảnh hƣởng đến kết quả của các chƣơng trình  
nhận dạng, nhƣ nhiễu, Font chữ, kích thƣớc chữ, kiểu chữ nghiêng, đậm, gạch dƣới.  
Ngoài ra các dòng chữ cũng có thể trộn lẫn với các đối tƣợng đồ họa, vì thế trƣớc  
khi nhận dạng chữ, một số thao tác tiền xử lý sẽ đƣợc tác động lên ảnh nhƣ, lọc  
nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng là phân tích trang tài liệu để xác  
định cấu trúc của trang văn bản đồng thời tách biệt hai thành phần là chữ và các đối  
tƣợng đồ họa (phi chữ).  
II. Nội dung nghiên cứu  
1. Mục tiêu nghiên cứu chính của đề tài  
Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)?  
Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân  
đoạn,…)  
Cài đặt thử nghiệm một giải pháp phân tích có hiệu quả cao so với các  
phƣơng pháp truyền thống nhƣ top-down hay bottom-up trên ảnh vào là  
ảnh đa cấp xám có cấu trúc phức tạp.  
Từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đẩy đủ cho bƣớc  
nghiên cứu tiếp theo là nhận dạng ký tự quang.  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
2
GVHD: PGS. TS. Ngô Quc To  
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
2. Ý nghĩa khoa học của đề tài  
Giải quyết đƣợc vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp về  
mặt lý thuyết để làm rõ về các phƣơng pháp phân tích trang tài liệu.  
Đáp ứng đƣợc yêu cầu của thực tiễn: từ các lý thuyết đã đƣợc nghiên cứu,  
từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào các lĩnh vực  
nhƣ: Lƣu trữ thƣ viện, điện tử hóa văn phòng, nhận dạng và xử ảnh, …  
3. Nhiệm vụ nghiên cứu  
Mục đích của luận văn đề cập đƣợc đến hai phần:  
Phần lý thuyết: Nắm rõ và trình bày những cơ sở lý thuyết liên quan đến  
cấu trúc trang tài liệu, một số kỹ thuật phân tích trang tài liệu, từ đó có để  
có thể xác định tính quan trọng của bƣớc này trong nhận dạng ký tự, đồng  
thời hiểu các công việc kế tiếp cần làm trong bƣớc nhận dạng ký tự.  
Phần phát triển ứng dụng: Áp dụng các thuật toán đã trình bày ở phần lý  
thuyết từ đó lựa chọn một giải pháp tối ƣu và cài đặt thử nghiệm chƣơng  
trình phân tích trang tài liệu.  
4. Phƣơng pháp nghiên cứu  
Tìm kiếm, tham khảo, tổng hợp tài liệu từ các nguồn khác nhau để xây  
dựng phần lý thuyết cho luận văn.  
Sử dụng các kỹ thuật đƣợc áp dụng phân tích trang tài liệu để làm rõ bản  
chất của các vấn đề đƣợc đƣa ra trong phần lý thuyết.  
Xây dựng chƣơng trình Demo.  
5. Phạm vi nghiên cứu  
Bài toán nhận dạng và xử lý ảnh tài liệu đã đƣợc phát triển với nhiều thành tựu  
trong thực tế, có rất nhiều thuật toán tối ƣu đã đƣợc các nhà khoa học đề nghị. Tuy  
nhiên có thể nói chƣa có một chƣơng trình nào có thể “đọc” một ảnh văn bản nhƣ  
con ngƣời, vì thực tế có rất nhiều kiểu trang văn bản khác nhau, khác nhau về cấu  
trúc trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực sự là một bài toán lớn,  
chính vì thế trong phạm vi của luận văn chỉ tìm hiểu một số kỹ thuật phân tích trang  
văn bản tiêu biểu với mục đích để so sánh và một thuật toán mới chƣa đƣợc đƣa ra  
ở các đề tài trƣớc. Cuối cùng, dựa vào đó để xây dựng Demo cho một ứng dụng.  
Các kết quả nghiên cứu dự kiến cần đạt đƣợc:  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
3
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt đƣợc bản  
chất vấn đề đặt ra.  
Báo cáo lý thuyết  
Chƣơng trình Demo.  
III. Bố cục của luận văn  
Ni dung ca luận văn đƣợc trình bày trong ba chƣơng với ni dung chính  
sau.  
Chƣơng 1: Trình bày các khái nim và mô hình tng quát ca hthng nhn dng  
chviết, cùng vi mt sphn mm nhn dng tiêu biu hin nay.  
Chƣơng 2: Trình bày mt số phƣơng pháp phân tích trang tài liệu, từ đó đánh giá  
ƣu nhƣợc điểm để la chọn phƣơng pháp Fractal Signature cho chƣơng trình thử  
nghim. Trình bày vthiết kế cho chƣơng trình demo.  
Chƣơng 3: Trình bày chi tiết vviệc cài đặt chƣơng trình cũng nhƣ các thủ tc sử  
dụng trong chƣơng trình với phƣơng pháp phân tích Fractal Signature và ảnh đầu  
vào  
là  
ảnh  
đa  
cấp  
m  
có  
độ  
phc  
tp  
cao.  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
4
GVHD: PGS. TS. Ngô Quc To  
       
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Chƣơng I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT  
VÀ PHÂN TÍCH TRANG TÀI LIỆU  
Chƣơng này đƣa ra các khái niệm về đối tƣợng làm vic của đề tài là nh tài  
liu, khái nim vcu trúc vt lý và cu trúc logic. Gii thiu các khâu trong mt hệ  
thng nhn dng chviết hoàn chỉnh. Đồng thời đƣa ra một sphn mm nhn  
dng ca Vit Nam và Thế gii cùng vi các mu kết quphân tích ca nó nhàm  
mục đích so sánh và xác định phạm vi cho đề tài.  
I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu  
I.1.1. Tổng quan về ảnh tài liệu  
Trang nh tài liệu đƣợc đề cp ở đây là các file ảnh số hoá thu đƣợc bng  
cách quét các trang tài liu dùng máy scanner, máy nh s, hay nhn tmt máy fax  
(Hình 1), file ảnh này đƣợc lƣu giữ trong máy tính. nh tài liu có nhiu loi: nh  
đen trắng, nh màu, nh đa cấp xám vi các phn mrộng nhƣ TIF, BMP, PCX,  
(Hình 2) và nh tài liệu đƣợc đƣa ra trong luận văn này là ảnh đa cấp xám.  
nh số  
Tài liu  
Thiết bthu nhn nh  
Anh stài liu  
Hình 1: Sơ đồ tng quan quá trình to nh tài liu  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
5
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Hình 2: Ví dụ ảnh tài liu  
I.1.2. Nhận dạng tài liệu và vai trò của phân tích ảnh tài liệu  
Ngày nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không ngừng  
đƣợc nâng lên. Cùng với nó là sự ra đời của các phần mềm thông minh đã khiến  
máy tính ngày một gần gũi với con ngƣời hơn. Một trong các khả năng tuyệt vời  
của con ngƣời mà các nhà khoa học máy tính muốn đạt đƣợc đó là khả năng nhận  
dạng lĩnh vực nhận dạng thu đƣợc nhiều thành công nhất là nhận dạng ký tự  
quang OCROptical Character Recognition. OCR có thể đƣợc hiểu là quá trình  
chuyển đổi tài liệu dƣới dạng file ảnh số hoá (là dạng chỉ có ngƣời đọc đƣợc) thành  
tài liệu dƣới dạng file văn bản (là tài liệu mà cả ngƣời và máy đều có thể đọc đƣợc).  
OCR có rất nhiều ứng dụng hữu ích trong cuộc sống nhƣ:  
- Sắp xếp thƣ tín, dựa vào việc nhận dạng mã bƣu chính (Zipcode) hay địa  
chỉ gửi tới.  
- Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao  
động.  
- Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký)  
- Tự động xử lý các hóa đơn hay các yêu cầu thanh toán  
- Hệ thống tự động đọc và kiểm tra passport  
- Tự động phục hồi và copy tài liệu từ các ảnh quét.  
- Máy đọc cho những ngƣời khiếm thính  
- Các ứng dụng Datamining  
- …  
Sơ đồ một hệ thống OCR cơ bản ở Hình 3.  
Trong đó:  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
6
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
- Scanner: Thiết bị quét ảnh  
- OCR hardware/software:  
o Document analysis: Phân tích tài liệu  
o Character recognition: Nhận dạng ký tự  
o Contexttual processor: Xử lý văn cảnh  
- Output interface: Đầu ra  
Nhƣ vậy vai trò chính của khâu phân tích ảnh tài liệu là việc phân đoạn trang,  
tách vùng văn bản ra khỏi nền và đồ họa tạo mẫu chuẩn cho khâu nhận dạng. Rõ  
dàng là kết quả của khâu phân tích này ảnh hƣởng rất lớn đến hiệu của của khâu  
nhận dạng nếu sử dụng mẫu hay các chuỗi văn bản đầu ra của nó.  
Hình 3: Sơ đồ OCR cơ bản  
I.2. Cấu trúc của ảnh tài liệu  
Một khái niệm mấu chốt trong xử lý tài liệu đó là cấu trúc của tài liệu. Cấu  
trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung của tài liệu thành các phần  
nhỏ đơn vị (tức không thể phân chia đƣợc nữa) và chúng đƣợc gọi là các đối tƣợng  
cơ sở (basic objects). Còn tất cả các đối tƣợng khác đƣợc gọi là các đối tƣợng hỗn  
hợp.  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
7
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Có hai loại cấu trúc của tài liệu đƣợc quan tâm ở đây đó là cấu trúc vật lý  
(hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối  
tƣợng trong tài liệu.  
I.2.1. Cấu trúc vật lý  
Bcc vt lý ca mt tài liu mô tvị trí và các đƣờng danh gii gia các  
vùng có ni dung khác nhau trong mt trang tài liu[6]. Quá trình phân tích bcc  
tài liu là thc hin vic tách tmt trang tài liệu ban đầu thành các vùng có ni  
dung cơ sở nhƣ hình nh nền, vùng văn bản,…  
Để mô tả bố cục vật lý của tài liệu ngƣời ta sử dụng một cấu trúc hình học  
với mỗi đối tƣợng trong cấu trúc là một phần tử chỉ chứa nội dung đồng nhất. Các  
kiểu đối tƣợng hình học đƣợc định nghĩa nhƣ sau[4]:  
Block là đối tƣợng cơ sở tƣơng ứng với một vùng hình chữ nhật chứa một phần  
nội dụng của tài liệu.  
Frame một đối tƣợng hỗn hợp tƣơng ứng với một hình chữ nhật bao gồm một  
hoặc nhiều block hoặc bao gồm các frame.  
Page là đối tƣợng hình học hoặc hỗn hợp các thành phần cơ sở tƣơng ứng với  
một vùng hình chữ nhật, nếu là đối tƣợng hỗn hợp nó chứa một hoặc nhiều  
block, một hoặc nhiều frame.  
Page set (tập trang) là một tập của một hoặc nhiều page.  
Điểm gốc của cấu trúc (hay nút gốc) là một đối tƣợng ở mức cao nhất trong sơ  
đồ phân cấp của cấu trúc hình học tài liệu. Hình 4(b) cho ví dụ một cấu trúc hình  
học mô tả bố cục vật lý của trang tài liệu tƣơng ứng.  
Các thut toán phân tích bcc tài liu có thể đƣợc chia làm ba loi chính  
dựa theo phƣơng pháp thực hin ca nó.  
- Bottom-up: Ý tƣởng chính ca các thut toán loi này là bắt đầu tnhng  
phn tnhnhất (nhƣ từ các pixel hay các phn tử liên thông) sau đó liên  
tc nhóm chúng li thành các vùng lớn hơn.  
- Top-down: Thut toán này bắt đầu tvùng ln nht cha ctrang tài liu  
sau đó liên tục phân chia thành các vùng nhỏ hơn.  
- Các thut toán không theo thbậc: nhƣ Fractal Signature, Adaptive split-  
and-merge …  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
8
GVHD: PGS. TS. Ngô Quc To  
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Hình 4: b-Cu trúc vt lý: c,d-Cu trúc logic ca mt tài liu[4]  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
9
GVHD: PGS. TS. Ngô Quc To  
     
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
I.2.2. Cấu trúc logic  
Ngoài bcc vt lý, các trang tài liu còn chứa đựng nhiu thông tin vngcnh  
và nội dung nhƣ các tiêu đề, đoạn văn, đề mục, …và mi vùng ni dung này lại đƣợc gán  
các nhãn logic hay nhãn theo chức năng tƣơng ứng, khác bit hoàn toàn vi các nhãn  
trong bcc vt lý. Hu hết các tài liệu đều có mt quy tắc đọc để có thhiu hết ni  
dung ca tài liu. Vi mt sngôn ngữ đặc biệt nhƣ tiếng Trung, tiếng rp li có quy  
cách đọc khác biệt (nhƣ đọc tphi qua trái, trên xung). Tp hp tt ccác yếu tlogic  
và chức năng trong một tài liu và mi quan hgiữa chúng đƣợc gi là cu trúc logic ca  
tài liu[6]. Thông thƣờng pha phân tích cu trúc logic ca tài liệu đƣợc thc hin trên kết  
qucủa bƣớc phân tích bcc vt lý. Tuy nhiên vi mt sloi tài liu phc tp, thì pha  
phân tích bcc vt lý li cn thêm mt số thông tin logic liên quan đến các vùng để có  
thể phân đoạn mt cách chính xác. Hình 4(c,d) mô tmt ví dcu trúc logic ca tài liu.  
I.3. Quá trình phân tích tài liệu  
nh tài liu cha rt nhiu loại vùng thông tin khác nhau nhƣ các block, lines,  
words, figures, tables và background. Ta có thgi các vùng này theo chức năng của nó  
trong tài liu hoặc gán cho nó các nhãn logic nhƣ sentences, titles, captions, address,…  
Quá trình phân tích tài liu là thc hin vic tách mt tài liu thành các vùng theo mt  
tiêu chun hay mi quan hln nhau nào đấy. Công việc này đƣợc thc hin qua nhiu  
bƣớc nhƣ tin xlý, tách vùng, lp cu trúc tài liệu,…  
Mt sloi tài liệu nhƣ báo, tạp chí, sách qung cáo, chúng có cu trúc và bcc  
rt phc tp và không có mt form chung nào c(Hình 5). Với con ngƣời để có thể đọc  
hiểu đƣợc mt trang tài liu còn cn thêm nhiu kiến thc bsung nhƣ ngôn ngữ, hoàn  
cnh, các lut ngầm định, vì thế vic tự động phân tích các trang tài liu mt cách tng  
quát là mt vic rất khó khăn thậm chí là không khthi ngay cvi các hthng phân  
tích tài liu tiên tiến nht[6].  
Hình 5: Ví dloi tài liu có bcc phc tap  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
10  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Sơ đồ nguyên lý ca mt hthng tự động phân tích tài liệu nhƣ sau:  
Hình 6: Sơ đồ nguyên lý hthng xlý tài liu[6]  
I.3.1. Tiền xử lý(preprocessing):  
Hu hết các nh tài liệu đều có nhiu do quá trình thu nhn nh gây ra (môi  
trƣờng, chất lƣợng máy quét), vì thế trong quá trình xây dng các thut toán phân tích  
cn loi bcác nhiu này và công việc này thƣờng đƣợc tiến hành trƣớc khi bắt đầu phân  
tích bcc hay cu trúc và gi là Tin xlý. Nhim vchính của bƣớc này là loi bỏ  
nhiu, tách nn ra khi ni dung, phát hiện và xoay góc nghiêng,…  
Lc nhiu(noise removal):  
Nhiu luôn là mt vấn đề trong hu hết các bài toán đọc hiu tài liu. Nhiu sinh  
ra không chdo quá trình scan nh mà còn bao gm ccác nhiu trng gây ra tchính  
sensor hay các mch thu nhn trong các máy thu nhn nh s. Nhiu có thể đƣợc loi bt  
sdng mt scác kthuật nhƣ lọc trung bình, lc trung v, lc thông thấp,…  
Tách nn (Background separation):  
Đây là một vấn đề rt quan trng ảnh hƣởng trc tiếp đến hiu quca các thut  
toán phân tích tài liu. Nếu đối vi các loi tài liu có nền đồng nht màu trng hoặc đen  
thì vic tách có ththc hiện đơn giản bng phép phân ngƣỡng, tuy nhiên trong thc tế  
rt nhiu nh tài liu có nn rt phc tạp nhƣ ảnh hay đồ ha (Hình 7) thì việc xác định  
các pixell nào thc sthuc về “phần nổi” là một công việc khó khăn.  
Ta có thtách nn bng mt skthuật nhƣ sau:  
- Gán mỗi điểm nh vào “phần nổi” hay phần nn da theo một tiêu chí nào đấy  
(nhƣ ngƣỡng mc xám, )  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
11  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
- Dựa theo độ đo xác sut xut hin ca mỗi điểm nh mà phân lp nó vào nn  
hay phn ni  
- Da vào các pixel liên thông kết hp vi mạng noron để phân tách.  
Hình 7: a - nh gc b - nh sau khi tách nn  
Xác định góc nghiêng:  
Do quá trình thu nhn ảnh (nhƣ đặt lch tài liệu khi scan,…) ảnh tài liệu thu đƣợc  
rt có thbnghiêng, tc trc của các dòng văn bản không song song vi trc ngang  
(Hình 8). Vic xác định đƣợc góc nghiêng và xoay li tài liu là mt khâu rt quan trng  
ảnh hƣởng đến hiu qutrong mt sthut toán phân tích. Ví dụ nhƣ các thuật toán da  
theo biểu đồ sau phép chiếu nghiêng để tiến hành phân tích thì shoàn toàn tht bi nếu  
văn bản bnghiêng. Tuy nhiên vic có thtự động ƣớc lƣợng đƣợc chính xác góc  
nghiêng ca nh tài liu là mt bài toán khó.  
Có nhiu kthuật để có thể xác định đƣợc góc nghiêng ca tài liệu, điểm chung  
trong hu hết các thuật toán là xác định góc nghiêng bng việc xác định hƣớng ca các  
dòng văn bản da vào vtrí mt ský ttrong tài liu.  
I.3.2. Phân tích cấu trúc vật lý  
Phân tích tài liệu đƣợc định nghĩa là quá trình xác định cấu trúc vật lý của một tài  
liệu. Trong khâu này thì từ một ảnh tài liệu đầu vào sẽ đƣợc chia thành một số khối  
(block) chứa các nội dung thành phần của tài liệu nhƣ các dòng văn bản, tiêu đề, đồ  
họa,... cùng với có hoặc không các tri thức biết trƣớc về định dạng của nó[6].  
Có một số phƣơng pháp phân tích và đƣợc phân ra làm hai loại nhƣ sau:  
Các phƣơng thức có thứ bậc: Trong quá trình chia tài liệu thành các block  
chúng ta quan tâm đến mối quan hệ về mặt hình học giữa các block. Có ba  
phƣơng pháp thuộc loại này là:  
o Phân tích top-down (trên xuống)  
o Phân tích buttom-up (dƣới lên)  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
12  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
o Phân tích kiểu Adaptive split-and-merge (tách và nối thích nghi)  
Các phƣơng pháp không có thứ bậc: Trong quá trình chia tài liệu thành các  
khối chúng ta không quan tâm đến mối quan hệ hình học giữa các block.  
Hình 8: Ví dmt nh tài liu bnghiêng một góc 5 độ  
I.3.3. Phân tích cu trúc logic  
Tkết quca pha phân tích cu trúc vt lý, phân tích cu trúc logic sẽ đi xác  
định mi quan hlogic giữa các vùng đã đƣợc gắn nhãn nhƣ tiêu đề, văn bản, đề mc,  
hearder,… Bƣớc này là cơ sở cho vic nhn dng ký t.  
- Việc xác định đƣợc vtrí chính xác ca mi vùng trong cu trúc logic sẽ tăng  
thêm thông tin cho quá trình nhn dạng nhƣ thông tin về ngcảnh, đoán nhận  
đƣợc kiểu font và kích thƣớc chnếu biết nó thuộc vùng tiêu đề, đề mc hay  
trong đoạn văn,… (Hình 9)  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
13  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
document(page)  
article(page)  
abstract  
article(page)  
sub-title  
sub-title  
sub-title  
paragraphs  
paragraphs  
paragraphs  
Hình 9: Ví dmt cây mô tcu trúc logic ca mt trang tài liu[5]  
I.4. Một số hệ thống phân tích tài liệu hiện nay  
I.4.1. VnDOCR  
Vndocr phn mm nhn dng tiếng Vit là mt sn phm ca Vin công Nghệ  
thông tin. VnDOCR thu thp thông tin nhquá trình quét các loi sách báo thông qua  
máy quét thành các tp nh và chuyển đổi thành các tệp có định dng *.doc, *.xls, *.txt,  
*.rtf,... có thể đọc và chnh sửa đƣợc trên các phn mm son tho văn bản thông dng  
nhƣ Office, Wordpad,… (Hình 10)  
Môi trƣờng  
PC vi hệ điều hành Windows 9x, ME, 2000, XP, NT,… Tiện ích: Bgõ chVit,  
bfont ABC, VNI, Unicode,...  
Thông tin đƣa vào  
Quét trực tiếp các loại sách báo, văn bản qua máy quét (Scanner).  
Đọc và xử lý hơn 30 dạng tệp tin ảnh phổ dụng nhất nhƣ PCX, BMP, TIF, GIF, JPG,  
...  
Có thnhn dng trc tiếp tài liu quét qua Scanner không cần lƣu trữ dƣới dng tp  
nh trung gian. Các trang tài liu có thể đƣợc quét và lƣu trữ dƣới dng tp tin nhiu  
trang.  
Các chức năng chính:  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
14  
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
- Phân tích cu trúc vt lý ca tài liệu và đƣa ra cấu trúc phn vùng  
- Phân tích và nhn dng chữ đầu ra là text có thcopy hay lƣu trvà son tho  
lại đƣợc.  
Hình 10: VnDOCR và mt ví dnhn dng1  
Mt shn chế: Tính đến phiên bn 4.0  
- VnDOCR chlàm vic vi ảnh đen trắng  
- Vi các nh có cu trúc vt lý phc tp VnDOCR cho kết quphân tích vi  
hiu quả chƣa cao (Hinh 11, 12)  
Thí nghim 1:  
- Vi ảnh đầu vào nhƣ sau:  
1 Ngun twww.vndocr.com  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
15  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Hình 11: nh mu có cu trúc vt lý phc tp  
- Kết quphân tích ca VnDOCR không tim thấy vùng văn bn nào mà chỉ  
khoanh vùng đƣợc 2 vùng ảnh (1,2) nhƣ Hình 12  
Hình 12: Kết qura hai vùng nh vi nh mu 11  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
16  
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Thí nghim 2:  
Vi ảnh đầu vào có cu trúc vật lý đơn giản hơn (các vùng cơ sở có bao là hình  
chnht Hình 13).  
Hình 13: Mu nh có cu trúc vt lý phc tp, nhƣng các khối bao bi hình chnht  
Kết quphân tích bi VnDOCR bsót một vùng văn bản và gm nhm 2 vùng  
ảnh vào vùng văn bản s1 (Hình 14).  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
17  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Hình 14: Kết quphân tích vi nh 13  
I.4.2. OminiPage  
OmniPage là phn mm nhn dạng văn bản ca NUANCE. Nó có thchuyển đổi  
các file nh tài liu hay file PDF sang dạng file văn bản có thể đọc đƣợc bi các phn  
mm son thảo nhƣ Office, với khả năng nhận dng các ký tla tinh chính xác ti 99%.  
Mt số đặc tính chính2:  
- Nhn dng chính xác ti 99% trên 119 ngôn ngkhác nhau  
- Nhn dng ccác file vào là PDF  
- Nhn dạng đƣợc các trang có nhiu loi font, kiu font hoc có nn là nh mu  
- Mt shn chế chính:  
- Chƣa hiệu quvi các nh tài liu có cu trúc phc tp.  
Thí nghim 1:  
Vi ảnh đầu vào Hình-11 có kết quả nhƣ sau: Omnipage đoán nhận tt các nh  
đều là vùng văn bản (Hình-15)  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
18  
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Thí nghim 2: Vi ảnh đầu vào 13, tƣơng tự nhƣ VnDOCR OmniPage vẫn phân vùng  
sai (Hình 16)  
Hình 15: Đầu ra phân vùng chỉ có 1 vùng văn bản  
Vùng li  
Hình 16: Đầu ra có vùng cha cả ảnh và text  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
19  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
I.4.3. Finereader  
Finereader là mt sn phm ORC ca ABBYY vi mt số tính năng chính sau3:  
- Cho phép kết ni và nhn dng nh trc tiếp tCamera.  
- Nhn dạng đƣợc 38 ngôn ngkhác nhau.  
- Nhn dng cả text trong đồ ha.  
- Vi 2 mẫu văn bản có cu trúc phc tạp nhƣ trên thì Finereader đều cho hiu  
quả cao, nói chung Fineread đều có hiu qucao vi các tài liu có bcc  
phc tp.  
Hình 17: Vi nh 13 đạt hiu qu90%  
3 Ngun tnhà sn xut http://finereader.abbyy.com/full_feature_list  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
20  
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Hình 18 Vi nh I-15 hiu quả đt 100%  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
21  
GVHD: PGS. TS. Ngô Quc To  
   
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Hình 19: Vi mu phc tạp hơn Finereader cho kết qu95%  
Hn chế chính ca Finereader là tốc độ làm vic chm so vi 2 phn mm ktrên.  
I.5. Kết luận  
Tnhng kết quả ở trên phm vi đề tài ở đây schtp trung vào vic phân tích  
cu trúc vy lý ca mt trang tài liu(trình bày chi tiết ở chƣơng 2). Để ci tiến hơn so  
với VNDocr đối tƣợng của đề tài sảnh đa cp xám có độ phc tp cao.  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
22  
GVHD: PGS. TS. Ngô Quc To  
       
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Chƣơng II: CÁC PHƢƠNG PHÁP TIẾP CẬN  
ĐỂ PHÂN TÍCH TRANG TÀI LIỆU  
Vi phạm vi đặt ra ở chƣơng một và phn mở đầu là đề tài stp trung vào gii  
pháp phân tích cu trúc vt lý ca trang tài liệu, chƣơng 2 sẽ gii thiu mt số phƣơng  
pháp phân tích hin nay, từ đó đƣa ra và đánh giá đƣợc ƣu nhƣợc điểm ca mỗi phƣơng  
pháp đó. Sau đó sẽ tp trung phân tích kmột phƣơng pháp mới chƣa đƣợc trình bày ở  
các đề tài trƣớc đó là Fractal Signature với những ƣu điểm vƣợt tri ca nó là hiu quả  
cao vi tài liu phc tp, không phân biệt góc nghiêng. Đồng thi thiết kế hthng demo  
vi gii pháp mi này.  
II.1. Các phƣơng pháp phân tích định dạng trang tài liệu  
II.1.1. Top-down  
a) Tổng quan  
Ý tƣởng chính của thuật toán là phân tách liên tiếp từ một trang ban đầu thành các  
vùng cơ sở nhỏ hơn. Các khối cơ sở ở đây là các khối nhƣ đoạn văn, tiêu đề, đồ họa,…  
Việc phân tách chúng thành các vùng riêng biệt dựa trên tiêu chí về ngƣỡng khoảng cách  
mà phƣơng pháp phổ thông nhất là xác định thông qua kết quả của phép chiếu nghiêng.  
Phép chiếu nghiêng theo hƣớng x bất kỳ: Thực chất là đi xác định lƣợc đồ xám bằng  
cách tính tổng các điểm ảnh màu đen (hoặc trắng) theo phƣơng vuông góc với x dọc  
theo trục x. Trong thực tế x thƣờng là phƣơng nằm ngang hay phƣơng thẳng đứng so  
với trang văn bản.  
Một ví dụ về phép chiếu nghiêng với một trang tài liệu cho ở Hình-20:  
Trên lƣợc đồ xám của phép chiếu nghiêng sẽ xuất hiện các điểm cực trị, với phép  
chiếu nghiêng theo phƣơng thẳng đứng ta dễ nhận thấy độ rộng của các đáy chính là  
khoảng cách giữa hai dòng, với các độ rộng của đáy nào đó mà tần suất xuất hiện ít hoặc  
vƣợt quá một ngƣỡng chính là khoảng các giữa hai vùng văn bản. Còn tại vị trí các đỉnh  
là trục của mỗi dòng văn bản.  
Với phép chiếu nghiêng theo phƣơng ngang ta có thể phân tách đƣợc các cột hay  
các vùng cơ sở dựa vào ngƣỡng khoảng cách của đáy (Hình-20). Cũng theo nguyên tắc  
này nếu áp dụng phe chiếu nghiêng trên mỗi dòng văn bản ta cũng có thể phân đoạn đƣợc  
các ký tự hoặc các từ dựa vào khoảng cách của đáy (ví dụ nhƣ Hình-21).  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
23  
GVHD: PGS. TS. Ngô Quc To  
 
Luận văn tốt nghip cao hc Hc viên: Nguyễn Văn Huy  
Hình 20: Kết quchiếu nghiêng theo phƣơng ngang và phƣơng thẳng đứng ca mt trang tài liu4  
4
(Anoop M. Namboodiri and Anil K. Jain)  
Shóa bi Trung tâm Hc liu – Đại hc Thái Nguyên  
24  
GVHD: PGS. TS. Ngô Quc To  
 

Tải về để xem bản đầy đủ

pdf 106 trang yennguyen 23/04/2025 340
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nhận dạng chữ viết và phân tích trang tài liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_nhan_dang_chu_viet_va_phan_tich_trang_tai_lieu.pdf