Khóa luận Nghiên cứu xây dựng hệ thống lưu trữ và quản lý tài liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Tiến
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG
LƯU TRỮ VÀ QUẢN LÝ TÀI LIỆU
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
HÀ NỘI – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Tiến
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG
LƯU TRỮ VÀ QUẢN LÝ TÀI LIỆU
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: TS. Trần Minh
HÀ NỘI – 2009
TÓM TẮT NỘI DUNG KHÓA LUẬN
Trong thời đại công nghệ thông tin bùng nổ, máy vi tính đã đi đến tới hầu hết các
cơ quan, tổ chức, cá nhân. Theo đó các tài liệu, giấy tờ, hợp đồng đã dần được chuyển
sang lưu trữ dưới dạng tài liệu điện tử (Electronic Document). Công tác lưu trữ ra đời
là do đòi hỏi khách quan đối với việc bảo quản và tổ chức sử dụng tài liệu.
Việc xây dựng hệ thống lưu trữ và quản lý tài liệu là một vấn đề không dễ dàng
đối với những người học công nghệ thông tin. Điều này càng trở nên khó khăn và phức
tạp đối với những người không có chuyên môn về tin học. Yêu cầu bức thiết được đặt
ra là phải có một hệ thống cho phép mọi người có thể nhanh chóng sử dụng để lưu trữ
và quản lý tài liệu của họ. Hệ quản trị tài liệu (DMS – Document Management
System) là một bước tiến trong quá trình xây dựng hệ thống. Nắm bắt được tình hình
và nhu cầu của cơ quan, doanh nghiệp, tổ chức … em đã nghiên cứu xây dựng hệ
thống lưu trữ và quản lý tài liệu. Đồng thời phát triển hệ thống đó cho phù hợp với
việc lưu trữ và quản lý tại Viện Công Nghiệp Phần Mềm Và Nội Dung Số Việt Nam.
Và hệ thống mã nguồn mở Alfresco đã được em chọn để làm hệ thống lưu trữ và quản
lý tài liệu.
Mục lục
Mở đầu............................................................................................................ 1
Chương 1. Tổng quan về vấn đề lưu trữ và quản lý tài liệu...................... 3
1.1. Vấn đề lưu trữ văn bản giấy................................................................ 3
1.2. Ứng dụng công nghệ thông tin............................................................ 5
1.3. Lưu trữ văn bản số .............................................................................. 5
1.4. Tổng quan về hệ thống lưu trữ và quản lý tài liệu số
(Document Management System).............................................................. 7
1.4.1. Tổng quát hệ thống lưu trữ và quản lý tài liệu.............................. 7
1.4.2. Lịch sử hệ thống lưu trữ và quản lý tài liệu .................................. 8
1.4.3. Thành phần hệ thống lưu trữ và quản lý tài liệu ........................... 8
1.5. Giới thiệu một số công nghệ và giải pháp .......................................... 10
Chương 2. Xây dựng hệ thống lưu trữ và quản lý tài liệu dựa trên
nền tảng Alfresco ........................................................................................... 12
2.1. Giới thiệu Alfresco.............................................................................. 12
2.1.1. Tổng quan về Alfresco.................................................................. 12
2.1.2 Kiến trúc mở rộng .......................................................................... 13
2.1.3 Thành phần kiến trúc cơ bản.......................................................... 15
2.1.4. Lợi ích của Alfresco...................................................................... 17
2.1.5. Sử dụng Alfresco cho quản lý tài liệu........................................... 17
2.1.6. Tính năng của Alfresco ................................................................. 18
2.2. Xây dựng và cấu hình hệ thống .......................................................... 19
2.2.1. Hệ điều hành: Windows, Linux, UNIX, MacOS .......................... 19
2.2.2. Cơ sở dữ liệu: MySQL, Oracle, MS SQL Server ......................... 19
2.2.3. Ứng dụng Máy chủ: Tomcat, Jboss............................................... 20
2.2.4. Cài đặt trên Linux.......................................................................... 20
2.2.5. Cấu hình ........................................................................................ 21
Chương 3. Lưu trữ và quản lý văn bản tại Viện Công Nghiệp
Phần Mềm Và Nội Dung Số Việt Nam......................................................... 22
3.1. Giới thiệu nhiệm vụ, chức năng của Viện .......................................... 22
3.1.1. Giới thiệu....................................................................................... 22
3.1.2. Vị trí, chức năng............................................................................ 23
3.1.3. Nhiệm vụ và quyền hạn................................................................. 23
3.2. Bài toán hành chính tại Viện Công Nghiệp Phần Mềm và
Nội Dung Số Việt Nam.............................................................................. 25
3.2.1. Tổng quan...................................................................................... 25
3.2.2. Phân tích các luồng công việc tại Viện Công Nghiệp
Phần Mềm và Nội Dung Số Việt Nam.................................................... 26
3.2.2.1. Quản lý văn bản đến................................................................ 26
3.2.2.2. Quản lý văn bản đi................................................................... 29
3.3. Mô tả hoạt động quản lý tại Viện Công Nghiệp Phần Mềm
và Nội Dung Số Việt Nam......................................................................... 31
3.3.1. Hoạt động trước đây...................................................................... 31
3.3.2. Hoạt động hiện nay ....................................................................... 32
3.4. Cấu trúc lưu trữ tài liệu trên Alfresco của Viện Công Nghiệp
Phần Mềm và Nội Dung Số Việt Nam....................................................... 32
3.4.1. Hệ thống người dùng..................................................................... 32
3.4.2. Hệ thống thư mục cá nhân............................................................. 33
3.4.3. Hệ thống thư mục Viện................................................................. 34
3.4.3.1. Thư mục User Homes.............................................................. 34
3.4.3.2. Thư mục Văn Phòng ............................................................... 35
3.4.3.3. Thư mục P.Nghiên Cứu Phát Triển......................................... 36
3.4.3.4. Thư mục P.Dự Án ................................................................... 37
3.4.3.5. Thư mục P.Trung Tâm Đào Tạo Dịch Vụ............................... 38
3.4.3.6. Các Thư mục Lãnh đạo, Thư mục Public, Thư mục
Welcome To NISCI.............................................................................. 39
3.5. Giới thiệu một quy trình xử lý ............................................................ 39
Chương 4. Phát triển và mở rộng hệ thống................................................. 42
4.1. Các công nghệ Việt Hóa ..................................................................... 42
4.2. Cấu hình và tùy chỉnh hệ thống .......................................................... 43
4.2.1. Thuộc tính của văn bản đến .......................................................... 43
4.2.2. Thuộc tính của văn bản đi ............................................................. 45
4.2.3. Thuộc tính của hồ sơ ..................................................................... 46
4.3. Thực thi............................................................................................... 46
4.3.1. Việt Hóa ........................................................................................ 46
4.3.2. Thuộc tính cho từng loại văn bản.................................................. 50
4.3.2.1. Văn bản đến............................................................................. 50
4.3.2.2. Văn bản đi................................................................................ 54
4.3.2.3. Hồ sơ........................................................................................ 57
Kết luận .......................................................................................................... 61
Phụ lục 1 ......................................................................................................... 62
Phụ lục 2 ......................................................................................................... 66
Phụ lục 3 ......................................................................................................... 73
Mở đầu
Chúng ta đang sống trong kỷ nguyên của nền kinh tế tri thức với sự ra đời và
phát triển mạnh mẽ của Internet mà qua đó mọi người có thể dễ dàng tìm kiếm, khai
thác và trao đổi thông tin. Làm thế nào để chúng ta có thể lưu trữ tài liệu cũng như
quản lý, khai thác, trao đổi tài liệu khi số lượng tài liệu xuất hiện liên tục và ngày càng
nhiều? Đây là câu hỏi lớn đang đặt ra cho các nhà quản lý.
Trong quá trình hoạt động của con người, việc trao đổi thông tin trở thành nhu
cầu không thể thiếu được. Thông tin được con người trao đổi với nhau bằng nhiều
phương tiện khác nhưng chủ yếu nhất là bằng văn bản. Đặc biệt là khi nhà nước ra đời
thì văn bản trở thành phương tiện không thể thiếu trong hoạt động quản lý và điều
hành xã hội. Văn bản được sử dụng để ghi chép các sự kiện, hiện tượng, truyền đạt các
chỉ thị, mệnh lệnh, là căn cứ để truy cứu trách nhiệm … Chính vì thế, con người ngày
càng nhận thấy rõ vai trò của văn bản. Họ đã biết giữ lại các văn bản, giấy tờ quan
trọng để sử dụng khi cần thiết và văn bản đã trở thành tài sản quý báu để lưu truyền
cho đời sau.
Xã hội ngày càng phát triển, nhu cầu trao đổi thông tin của con người ngày càng
cao thì các hình thức văn bản ngày càng phong phú. Tuy nhiên, do bộ não con người
có giới hạn, họ không thể nhớ nổi các thông tin đã được ghi chép lại. Con người cần
nghĩ ra cách lưu giữ các giấy tờ đó. Công tác lưu trữ ra đời nhằm đáp ứng nhu cầu lưu
giữ các văn bản, giấy tờ để phục vụ cho hoạt động của xã hội loài người.
Trong hoạt động quản lý hàng ngày của cơ quan, có thể nói rằng, tài liệu lưu trữ
luôn luôn được hình thành trong quá trình hoạt động của bất kỳ một cơ quan nào.
Trong các cơ quan hiện nay, tài liệu lưu trữ có những vai trò sau:
- Cung cấp chính xác các thông tin giúp cơ quan đề ra các chủ trương, chính
sách, các biện pháp công tác phù hợp với pháp luật, phù hợp với thực tiễn và mang
tính khả thi cao.
- Cung cấp thông tin, số liệu, giúp các cơ quan xây dựng chương trình kế hoạch
công tác ngắn hạn, dài hạn.
1
- Cung cấp số liệu giúp cơ quan sơ kết, tổng kết tình hình hoạt động qua các giai
đoạn khác nhau.
- Giúp cơ quan giải quyết các vấn đề về chế độ chính sách đối với cán bộ, nhân
viên (lương, phụ cấp, bảo hiểm, các chế độ công tác phí…).
- Giúp các cơ quan giải quyết các nhu cầu chính đáng của công dân như nhu các
nhu cầu về đất đai, nhà ở, tư pháp, hộ tịch …
- Ngoài ra, tài liệu lưu trữ còn giúp cơ quan tổng kết, đánh giá quá trình hoạt
động quan các thời kỳ lịch sử khác nhau, giúp cho mọi tầng lớp trong xã hội nhận biết
một cách sâu sắc vai trò, vị trí và những thành tựu mà các cơ quan trong hệ thống
chính trị ở nước ta đã làm được.
Do đó, một hệ thống lưu trữ và quản lý tài liệu có ý nghĩa khoa học và thực tiễn
rất lớn đối với một cơ quan, tổ chức, cá nhân ….Đối tượng nghiên cứu chính là việc
xây dựng hệ thống này dự trên nền tảng Alfresco, nhằm mục đích xây dựng các dịch
vụ lưu trữ, tìm kiếm hồ sơ, tài liệu cho các cơ quan, tổ chức, cá nhân thông qua
Internet.
Đạt được kết quả nghiên cứu như trình bày ở khóa luận sau đây, em xin được
trân trọng cảm ơn sự giúp đỡ tận tình, có hiệu quả của thầy giáo hướng dẫn TS. Trần
Minh, các thầy giáo trong Khoa Công Nghệ Thông Tin, thầy chấm phản biện, hội đồng
chấm khóa luận và đặc biệt là các giáo viên giảng dạy bộ môn Các Hệ Thống Thông
Tin đã quan tâm giúp đỡ và đóng góp các ý kiến quý báu cho em trong quá trình thực
hiện khóa luận này.
Do thời gian cũng như kiến thức còn có những hạn chế, trong khóa luận khó
tránh khỏi còn có những thiếu sót nhất định, rất mong nhận được ý kiến đóng góp của
các thầy cô giáo và toàn thể các bạn để luận văn có thể hoàn thiện hơn nữa. Xin chân
thành cảm ơn!
2
Chương 1. Tổng quan về vấn đề lưu trữ, quản lý tài liệu
1.1. Vấn đề lưu trữ văn bản giấy
Qua kết quả khảo sát tại Viện Công Nghiệp Phần Mềm và Nội Dung Số Việt
Nam, số lượng công văn, hồ sơ lưu chuyển của một đơn vị trong một năm có thể từ
một ngàn đến vài ngàn, tổng số lượng công văn lưu trữ của viện hàng năm lên tới chục
ngàn hồ sơ, tài liệu, văn bản.
Vấn đề ở đây là với số lượng như vậy dẫn đến tính lưu động thấp với sự đồ sộ,
nặng nề của tài liệu giấy, khả năng truy cập, không dễ dàng tìm kiếm, có thể sắp xếp
và đánh chỉ mục cho việc tìm kiếm nhưng tốn kém …
Xét trong một phạm vi nhỏ, sự lưu trữ văn bản giấy không phải không có những
ưu điểm như giấy giá thấp, ít tốn tiền, linh động, dễ di chuyển. Giấy là một người bạn,
có thể đọc, viết … nhưng trong phạm vi qui mô lớn, giấy là thiết bị lưu trữ kém, đồ sộ
mà mức độ thông tin thấp, khó tìm kiếm do thiếu sức mạnh của máy tính, không dễ
dàng phân loại và phục hồi.
Tài liệu giấy được lưu trữ dưới nhiều loại hình:
- Tài liệu hành chính: Là loại hình tài liệu có nội dung phản ánh các hoạt động về
tổ chức và quản lý của các cơ quan trên các mặt kinh tế, chính trị, văn hoá, khoa học
và các lĩnh vực hoạt động khác.
Tài liệu hành chính bao gồm bản gốc, bản chính các loại tài liệu, văn kiện như:
Luật, Lệ, Chiếu, Chỉ, Sắc, Dụ, Tấu, Sớ, Chương, …; các loại sổ sách hình thành trong
quá trình hoạt động của các cơ quan thuộc các triều đại phong kiến như: sổ hộ tịch, sổ
địa bạ, sổ duyệt tuyển. Ngày nay, tài liệu hành chính bao gồm các loại Hiến pháp,
Luật, Pháp lệnh, Lệnh, Nghị quyết, Nghị định, Quyết định, Chỉ thị, Thông tư, Thông
báo, Công văn, Kế hoạch, Báo cáo, Tờ trình, Biên bản … Đây là loại hình tài liệu có
nội dung phong phú (chúng phản ánh tất cả các lĩnh vực của đời sống xã hội) và có
khối lượng lớn nhất trong thành phần tài liệu phông lưu trữ Quốc gia Việt Nam. Khối
lượng tài liệu này ngày càng tăng lên theo sự phát triển của xã hội.
- Tài liệu khoa học kỹ thuật: Là loại hình tài liệu phản ánh các công trình nghiên
cứu khoa học và ứng dụng các thành tựu khoa học kỹ thuật vào thực tiễn sản xuất.
Loại hình tài liệu này bao gồm các loại bản vẽ, bản thiết kế thi công các công trình xây
dựng cơ bản; bản vẽ, bản thiết kế chế tạo các sản phẩm công nghiệp; Các loại bản đồ,
3
đồ án; tài liệu khí tượng thuỷ văn; tài liệu điều tra thăm dò địa chất (Báo cáo khảo sát
địa chất)… Đây là loại hình tài liệu chiếm khối lượng lớn thứ hai sau tài liệu hành
chính và không ngừng tăng lên theo sự phát triển của Khoa học kỹ thuật.
- Tài liệu nghe nhìn (TL ảnh, phim điện ảnh, ghi âm, hình,...): Là tài liệu được
sản sinh ra trong hoạt động của các cơ quan văn hóa, thông tin tuyên truyền; các cơ
quan quản lý nhà nước. Các cơ quan nghiệp vụ và các cơ quan nghiên cứu khoa học,
những người chụp ảnh, quay phim nghiệp dư mà có giá trị khoa học, lịch sử và thực
tiễn không kể thời gian, địa điểm sản sinh và trên những vật liệu gì mà nó mang tin,
được nộp lưu vào các viện; các kho lưu trữ theo các chế độ nhất định thì gọi là tài liệu
lưu trữ nghe nhìn. Tài liệu nghe nhìn là loại tài liệu đặc biệt cả về hình thức lẫn nội
dung mang tin, loại tài liệu này bao gồm:
+ Tài liệu ảnh
+ Tài liệu phim điện ảnh:
+ Tài liệu ghi âm:
….
- Tài liệu điện tử.
Theo Keneth Thibodeau (Giám đốc trung tâm lưu trữ tài liệu điện tử thuộc Lưu
trữ Quốc gia Mỹ) thì: Tài liệu lưu trữ là tài liệu được bảo quản ở dạng đặc biệt chỉ có
thể đọc, xử lý và in ra bằng máy vi tính. Trong cuốn “Thuật ngữ lưu trữ quốc tế” do
Hội đồng Lưu trữ Quốc tế xuất bản năm 1988 định nghĩa: Tài liệu điện tử được coi
là một dạng tài liệu đọc bằng máy.
Loại tài liệu này được lập ra dưới dạng mã hoá các vật mang tin như đĩa từ, băng
từ, thẻ đục lỗ mà nội dung của chúng chỉ có thể tiếp cận được bằng máy vi tính. Như
vậy có thể thấy rằng có nhiều khái niệm về tài liệu điện tử. Theo Tiến sĩ Nguyễn Cảnh
Đương thì: Tài liệu lưu trữ điện tử là bộ phận tài liệu điện tử có giá trị như bản chính,
phản ánh chân thực các hoạt động của cơ quan, tổ chức hoặc cá nhân được bảo quản
với mục đích phục vụ nhu cầu của xã hội trước mắt cũng như lâu dài.
Hiện nay, tài liệu điện tử ở nước ta chưa nhiều nhưng trước những cơ hội và
thách thức mới đang mở ra, ta đang bước đầu quan tâm đến lưu trữ tài liệu điện tử.
Nó có ý nghĩa đối với việc thành lập chính phủ điện tử , giảm các phiền hà sai sót
trong việc quản lý hành chính như cấp sổ đỏ, giấy đóng thuế …
4
1.2. Ứng dụng công nghệ thông tin
Tầm quan trọng của công nghệ thông tin và truyền thông đối với sự phát triển
của các doanh nghiệp với hệ quả là sự thịnh vượng của các quốc gia không còn là vấn
đề tranh cãi.
Ứng dụng công nghệ thông tin do vậy trở thành một thành phần không thể thiếu
trong các chiến lược cạnh tranh của các doanh nghiệp và quốc gia.
Ở Việt Nam, những năm gần đây số người sử dụng máy tính, Internet, số trang
web của doanh nghiệp, cơ quan chính phủ tăng lên rất nhiều. Tuy nhiên, vẫn thấy hầu
hết các ứng dụng công nghệ thông tin còn ở mức rất cơ bản như tìm kiếm tin tức, trao
đổi e-mail, soạn thảo văn bản. Trong khi các ứng dụng cao cấp có tính đột phá cải
thiện năng lực cạnh tranh cho doanh nghiệp hay chính phủ như các hệ thống thông tin
quản lý hoặc thương mại điện tử thì còn rất hạn chế.
Nghiên cứu của thế giới về vấn đề này cũng cho thấy các doanh nghiệp cũng như
chính phủ ở một số quốc gia đang phát triển hay các nước công nghiệp hóa mới (NIC)
như Trung Quốc, hay các nước ASEAN đều có những hạn chế giống nhau trong ứng
dụng công nghệ thông tin vào quản lý.
Mục đích của việc ứng dụng công nghệ thông tin trong quản lý hành chính là làm
tăng lượng thông tin và tài liệu được soạn thảo, lưu trữ, trao đổi và khai thác trên mạng
máy tính. Khi đó, các kho tài liệu, công văn, giấy tờ hiện đang tồn tại trong các cơ
quan, công sở, trường học ... sẽ dần dần được số hóa, được quản lý, lưu trữ và khai
thác một cách hiệu quả, phục vụ cho các cấp lãnh đạo, chuyên viên khi tham mưu, ra
quyết định, dần dần thay thế cho cách thức lưu trữ và trao đổi hồ sơ – văn bản truyền
thống.
1.3. Lưu trữ văn bản số
Nắm bắt được tình hình và nhu cầu của các doanh nghiệp, em đã tập trung nghiên
cứu các công nghệ lưu trữ và quản lý tài liệu cũng như phát triển sản phẩm phần mềm
mã nguồn mở Alfresco để hỗ trợ cho các doanh nghiệp trong việc tổ chức lưu trữ tài
liệu điện tử một cách khoa học và hiệu quả nhất. Với đặc tính như sử dụng dễ dàng và
thuận lợi, tổ chức lưu trữ hiệu quả và đặc biệt khả năng tìm kiếm tài liệu nhanh chóng
thật sự là công cụ đắc lực hỗ trợ cho các doanh nghiệp.
5
Chức năng tổ chức quản lý tài nguyên số giúp cho người quản trị có thể quản lý,
kiểm soát, xây dựng cấu trúc kho tài nguyên số phục vụ cho người dùng. Việc tổ chức
và quản lý tài nguyên số trong hệ thống được xem là một bước khởi đầu quan trọng
trong việc hình thành nên một kho tài nguyên số hóa có giá trị. Do đó, hệ thống phần
mềm cung cấp đầy đủ các tính năng cho việc tổ chức và quản lý hiệu quả một kho tài
nguyên số.
Cho đến gần đây, cách thức lưu trữ tài liệu số hóa phổ biến vẫn ở dạng tập tin,
được lưu trữ trong các thư mục trên ổ đĩa cứng của máy tính hay trên ổ đĩa mạng. Cách
lưu trữ kiểu cây thư mục là khá đơn giản, và hiệu quả, có thể giải quyết được một số
vấn đề tìm kiếm và khai thác văn bản. Tuy nhiên hình thức lưu trữ này chỉ thích hợp
cho một phòng ban của cơ quan nhỏ, có số lượng tài liệu hạn chế, hoặc chỉ dùng cho
cá nhân, rất khó chia sẻ để dùng chung vì không có cơ chế an toàn dữ liệu và bảo mật
thông tin.
Do đó một hệ thống quản lý văn bản, hồ sơ có các tính năng linh hoạt để phục vụ
lưu trữ, tìm kiếm, trao đổi và khai thác trên mạng máy tính là rất cần thiết.
Có thể liệt kê một vài tính năng mà một Hệ thống quản lý văn bản – hồ sơ cần
phải đáp ứng như sau:
- Cho phép lưu trữ từ hàng ngàn tới hàng triệu trang văn bản số hóa
- Cho phép dễ dàng phân loại và quản lý tài liệu bằng các thông tin metadata
- Cho phép phân loại và tìm duyệt tài liệu theo cấu trúc giống như cây thư mục,
có thể tìm kiếm nhanh chóng dựa trên các máy tìm kiếm
- Cho phép người dùng truy cập tài liệu toàn văn, từ trên mạng máy tính, từng
trang hoặc toàn bộ tài liệu
- Có khả năng phân cấp, phân quyền quản lý và bảo mật truy cập và khai thác
- Có khả năng trao đổi văn bản số hóa, thông tin metadata giữa các hệ quản lý
văn bản một cách tiện lợi, nhanh chóng, tự động, bằng nhiều cách thức: trực tuyến,
tương tác qua mạng máy tính, ngoại tuyến, không tương tác qua e-mail, đĩa mềm, CD-
ROM...
Mạng Internet và các máy tìm kiếm hiện là một môi trường cho phép lưu trữ, tìm
kiếm và truy cập thông tin khá hiệu quả, đã được kiểm chứng trong thực tế. Do đó một
hệ thống quản lý văn bản hiện đại không thể không vận hành theo cơ chế truy cập
thông tin trên mạng Internet, cho phép truy cập qua trình duyệt web, có khả năng tìm
6
kiếm (kể cả nội dung toàn văn) bằng các máy tìm kiếm mạnh, có cơ chế quản lý việc
truy cập được cá nhân hóa cao độ và có cơ chế bảo mật hữu hiệu.
1.4. Tổng quan về hệ thống lưu trữ và quản lý tài liệu số (Document
Management System)
1.4.1. Tổng quát hệ thống lưu trữ và quản lý tài liệu
Một hệ thống quản lý tài liệu là một hệ thống máy tính (hoặc thiết lập bởi chương
trình máy tính) được sử dụng để theo dõi và lưu giữ các tài liệu điện tử, các hình ảnh
của các tài liệu giấy. Thuật ngữ có một số liên quan tới các khái niệm về hệ thống quản
lý nội dung và thường được xem như là một phần không thể thiếu của doanh nghiệp,
quản lý nội dung và các hệ thống kỹ thuật số liên quan đến quản lý tài sản, tài liệu hình
ảnh, văn bản, hồ sơ….
Hệ thống quản lý tài liệu có thể quản lý nội dung một doanh nghiệp thông qua
nhiều cách. Có một số vấn đề liên quan trong quản lý tài liệu, cho dù là một hệ thống
thông tin, quảng cáo, học tập ... thì đều phải có hình thức, cấu trúc, tăng cường hệ
thống máy tính cho nhiều người trên nhiều văn phòng. Hầu hết các phương pháp cho
việc quản lý tài liệu đều tìm đến các lĩnh vực sau đây:
- Vị trí: Tài liệu sẽ được lưu trữ ở đâu? Con người cần đến đâu để truy cập tài
liệu?
- Tập tin: Tài liệu được để như thế nào? Những phương pháp nào được sử dụng
để tổ chức hoặc đánh chỉ mục cho tài liệu? Hệ thống quản lý tài liệu sẽ sử dụng 1 cơ sở
dữ liệu để chứa thông tin tập tin.
- Khai thác – tìm kiếm: Tài liệu được tìm như thế nào? Thông qua trình duyệt để
tìm kiếm tài liệu và thông tin cụ thể.
- Bảo mật: Tài liệu được giữ an toàn như thế nào? Làm thế nào để ngăn chặn
những người không được phép thì không được đọc, sửa chữa hay xóa tài liệu.
- Phục hồi: Làm thế nào để tài liệu được phục hồi trong trường hợp bị xóa, hủy.
- Thời gian duy trì: Giữ tài liệu trong vòng bao lâu?
- Lưu trữ: Vấn đề tài liệu cần bảo tồn trong tương lai.
- Phân loại: Giúp người dùng tìm được tài liệu mình cần một cách nhanh chóng.
7
- WorkFlow: Nếu tài liệu được chuyển từ người này sang người khác thì luật nào
được đưa ra để cho sự làm việc của họ được trôi chảy?
- Tạo tài liệu: Tài liệu được tạo ra như thế nào?
- Xác thực: Có cách nào để xác thực cho một tài liệu?
1.4.2. Lịch sử hệ thống lưu trữ và quản lý tài liệu
Bắt đầu từ những năm 1980, một số nhà cung cấp đã bắt đầu phát triển các hệ
thống đề quản lý tài liệu giấy. Các hệ thống này quản lý tài liệu giấy, trong đó không
chỉ bao gồm việc in và xuất bản các tài liệu, mà còn là hình ảnh, bản in …
Sau đó, một hệ thống thứ hai đã được phát triển, để quản lý tài liệu điện tử, nghĩa
là, tất cả những tài liệu, hoặc tác phẩm, được tạo ra trên máy vi tính, và thường được
lưu trữ trên hệ thống tập tin địa phương của người sử dụng. Hệ thống quản lý tài liệu
số sớm nhất đã được phát triển để quản lý sở hữu các loại tập tin, hoặc một số giới hạn
những định dạng tệp tin. Nhiều hệ thống sau đó đã được gọi tắt là hệ thống tài liệu
hình ảnh, bởi vì khả năng chính là nắm bắt, lưu trữ, lập chỉ mục và khai phá định dạng
tệp tin hình ảnh. Các hệ thống này cho phép một tổ chức có thể chụp, lưu bản sao của
các tài liệu như hình ảnh, và lưu giữ tập tin ảnh trong kho với sự an toàn và tìm kiếm
nhanh chóng (tìm kiếm là có thể vì hệ thống xử lý văn bản từ khi nó được chụp, và
đánh chỉ mục văn bản cung cấp khả năng tìm kiếm văn bản).
Hệ thống quản lý tài liệu số được phát triển, nơi mà hệ thống có thể quản lý bất
kỳ loại định dạng tập tin nào mà có thể được lưu trữ trên mạng. Các ứng dụng đã phát
triển để chứa đựng các tài liệu điện tử, phối hợp các công cụ, bảo mật, và có khả năng
kiểm soát.
1.4.3. Thành phần hệ thống lưu trữ và quản lý tài liệu
Để giải quyết những vấn đề trên, một hệ thống lưu trữ và quản lý tài liệu phải bao
gồm những thành phần sau:
- Metadata thường được đính nhãn trong mỗi tài liệu.
Vd: Ngày tài liệu được lưu trữ, tên người dùng lưu trữ nó…
- Tích hợp: Tích hợp các hệ thống quản lý tài liệu vào các ứng dụng khác, người
sử dụng có thể tải các tài liệu trong hệ thống quản lý tài liệu, thay đổi và lưu nó thành
8
một bản mới… Tất cả không rời ra ngoài ứng dụng. Các kỹ thuật được dùng tới là:
ODMA, LDAP, WebDAV, SOAP…
- Chụp, quét: Tài liệu giấy, thông qua scan để thành tài liệu điện tử. Quang ký tự
nhận dạng thường được sử dụng.
- Đánh chỉ mục: Để theo dõi các tài liệu điện tử, sử dụng đánh chỉ mục để theo
dõi các tài liệu định danh duy nhất thường là phức tạp. Cần phân loại qua siêu dữ liệu
tài liệu hoặc từ ngữ lập chỉ mục từ nội dung tài liệu. Kỹ thuật dùng ở đây là Index
Topology.
- Kho lưu trữ: dùng để lưu trữ tài liệu điện tử. Quản lý tài liệu được nhiều người
dùng chung. Các vấn đề quan trọng là nơi tài liệu được lưu trữ, trong thời gian bao lâu,
lưu trữ từ một nơi này chuyển sang nơi khác, tiêu hủy tài liệu …
- Khai thác, tìm kiếm: Khai thác các tài liệu điện tử được lưu trữ mặc dù nghĩ là
đơn giản nhưng trong nội dung điện tử thì khá phức tạp và mất công. Tìm kiếm đơn
giản một tài liệu cá nhân có thể được hổ trợ bằng cách cho phép người sử dụng đó xác
định định dạng tài liệu và có một hệ thống sử dụng chỉ mục cơ bản để tìm tài liệu đó.
Để tăng thêm tính linh hoạt, cho phép người sử dụng dùng các thuật ngữ tìm kiếm
trong siêu dữ liệu tài liệu (metadata). Điều này thường trả lại một danh sách các tài
liệu phù hợp với điều kiện tìm kiếm. Một số hệ thống cung cấp khả năng xác định theo
kiểu boolean có chứa nhiều từ khóa hoặc cụm từ mà nó tồn tại trong nội dung tài liệu.
Việc này được hổ trợ bởi việc lập chỉ mục trước đó hoặc thông qua nội dung tài liệu để
đưa ra một danh sách các tài liệu được tìm thấy.
- Kênh phân phối: Một tài liệu dùng chung khi phân phối cần được định dạng để
không dễ dàng thay đổi. Một bản gốc để sao ra các tài liệu thường không bao giờ được
sử dụng để phân phối mà thường chỉ để lưu trữ.
- Bảo mật: Quan trọng trong nhiều ứng dụng quản lý tài liệu. Tuân thủ các yêu
cầu đối với một số tài liệu có thể khá phức tạp, phụ thuộc vào loại tài liệu đó.
Vd: Health insurance Portability and Accountability Act ra yêu cầu rằng các tài liệu y
tế có 1 số yêu cầu về an ninh. Một vài hệ thống quản lý văn bản có quyền quản lý
module cho phép quản trị viên truy cập vào các tài liệu cơ bản của một ít người, nhóm
người dùng.
- WorkFlow là một vấn đề phức tạp. Một vài hệ thống quản lý văn bản xây dựng
module trong workflow. Có nhiều loại workflow, cách sử dụng phụ thuộc vào môi
trường hệ thống quản lý văn bản số mà nó áp dụng. Hướng dẫn workflow đòi hỏi
9
người sử dụng phải xem các tài liệu và quyết định tài liệu được gửi đến ai. Luật dựa
trên workflow cho phép người quản lý tạo ra một quy định mệnh lệnh thông qua lưu
lượng của một tổ chức.
- Cộng tác: Phối hợp, cộng tác cần được gắn liền trong một hệ thống quản lý văn
bản số. Văn bản được truy cập bởi người sử dụng và đang làm việc trên nó thì người
dùng khác bị cấm truy cập trong khi công việc đang được thực hiện.
- Phiên bản: Kiểm tra trong hay ngoài hệ thống quản lý văn bản, cho phép người
dùng lấy phiên bản trước và làm việc từ một điểm được lựa chọn. Rất có ích cho các
tài liệu có thay đổi theo thời gian và yêu cầu cập nhật. Nhưng quan trọng là làm sao để
quay lại bản sao trước đó?
- Xuất bản: Thỉnh thoảng là một công việc buồn tẻ và chán ngắt. bao gồm các thủ
tục về việc đọc và sửa bản in thử, đọc kỹ, cho phép in ấn, phê duyệt… những bước đấy
cần kiên nhẩn và tư duy logic. Nếu không cẩn thận dẫn đến việc xử lý sai các tài liệu,
gây ra hiểu nhầm, nhàm chán cho người sử dụng.
1.5. Giới thiệu một số công nghệ và giải pháp
Một hệ thống quản lý văn bản gồm hai phân đoạn chính là: số hóa và quản lý.
Trong đó phần số hóa gồm:
Phần cứng: Máy scan, Máy chuyên dụng
Phần mềm: Các phần mềm tạo file điện tử, đánh chỉ mục, …
Và phần quản lý lưu trữ gồm:
Phần cứng: Hệ thống máy tính, mạng, máy chủ, máy khách
Phần mềm: Các phần mềm quản trị hệ thống.
Vậy về cơ bản, phần quan trọng nhất của hệ thống lưu trữ và quản lý văn bản là
công nghệ số hóa, hệ thống quản lý.
Giải pháp cho một hệ thống quản lý trên thế giới hiện nay thì có nhiều cách,
nhưng mỗi một hệ thống đều có những ưu điểm và nhược điểm riêng của nó. Sau đây
là một số hệ thống mà em đã tìm hiểu, phân tích và đánh giá:
10
Vì thời gian tìm hiểu không được nhiều nên em chỉ đưa ra một vài nhận xét của
riêng em về các hệ thống này:
Open Knowledge Management: Hệ thống hiện đang được thử nghiệm trên
website của Viện Công Nghiệp Phần Mềm và Nội Dung Số Việt Nam
cài đặt. Nhưng nhược điểm dường như nó chỉ là một công cụ quản lý (chưa đạt tới
mức hệ thống), không gồm nhiều chức năng của một hệ thống quản lý tài liệu số đã
nêu ở trên …
LaserFiche: Hệ thống này cũng đã được tìm hiểu và phát triển bởi phòng Nghiên
cứu và phát triển của Viện. Ưu điểm của hệ thống này là phổ biến, chức năng khá đầy
đủ của một hệ thống quản lý tài liệu. Được nhiều nơi sử dụng. Nhưng nhược điểm ở
chỗ phần mềm có bản quyền, đóng kín khiến cho không thể cấu hình và tùy chỉnh
được hệ thống, được cài trên hệ điều hành Windows nên dễ bị virut tấn công, giá thành
cao, tốn kém.
Alfresco: Hệ thống này được hướng đến như là một hệ thống tiết kiệm, an toàn
và đầy đủ chức năng. Hệ thống mã nguồn mở giúp tiết kiệm cho người sử dụng, đồng
thời cấu hình và tùy chỉnh theo cấu trúc của từng doanh nghiệp nói riêng và Viện nói
chung. Được cài đặt trên hệ điều hành Ubuntu linux nên độ an toàn cao. Các chức
năng tương đối đầy đủ. Nhược điểm của hệ thống Alfresco là nó gồm hai loại, một là
bản Enterprise trả tiền và một bản Lab dùng thử. Bản trả tiền thì tốn kém nhưng được
hỗ trợ, còn bản Lab thì tiết kiệm và không được hỗ trợ.
Qua sự phân tích trên, em thấy hệ thống Alfresco là phù hợp và em chọn bản Lab
của Alfresco để nghiên cứu xây dựng hệ thống lưu trữ và quản lý tài liệu. Sau này chỉ
cần mua một bản enterprise về phát triển để được sự trợ giúp, hỗ trợ kỹ thuật. phát
triển cũng như bảo trì.
11
Chương 2. Xây dựng hệ thống lưu trữ và quản lý tài liệu
dựa trên nền tảng Alfresco
2.1. Giới thiệu Alfresco
2.1.1. Tổng quan về Alfresco
Alfresco đã được sáng lập bởi John Newton, đồng sáng lập của Documentum, và
John Powell, cựu COO của doanh nghiệp. Những nhà đầu tư bao gồm lãnh đạo các
doanh nghiệp Accel Partners và Mayfield Fund. Việc theo dõi các hồ sơ, tính năng
trong công nghệ, mã nguồn mở của mô hình kinh doanh, và vốn đầu tư mạo hiểm của
các nhóm đã kết hợp tạo ra sự khác nhau trong Alfresco. Tác động nhiều đến quyền lợi
của mã nguồn mở.
Khách hàng doanh nghiệp có thể giảm chi phí, giảm thiểu các rủi ro kinh doanh,
và nhận được lợi thế cạnh tranh bằng cách áp dụng đúng mã nguồn mở dựa trên phần
mềm giải pháp kinh doanh. Bạn có thể giảm bớt chi phí cho giải pháp mua lại phần
mềm, triển khai, và bảo trì bởi cộng đồng phát triển, hỗ trợ, và xử lý dịch vụ.
Alfresco là phần mềm mã nguồn mở hàng đầu thay thế doanh nghiệp để quản lý
tài liệu. Các mô hình mã nguồn mở cho phép Alfresco sử dụng công nghệ mã nguồn
mở tốt nhất và đóng góp từ cộng đồng mã nguồn mở để có được chất lượng cao hơn
các phần mềm khác và tại một chi phí thấp hơn nhiều. Dưới đây là sơ đồ hiển thị tổng
quan của Alfresco tích hợp với hệ thống bên ngoài như: Hệ thống tập tin ảo, ứng dụng
web, Cổng kiến thức, và Dịch vụ Web …
12
Hình 1. Sơ đồ tổng quan của Alfresco tích hợp với hệ thống bên ngoài
Kho tài liệu là một máy chủ hoặc một tập hợp các dịch vụ được sử dụng để lưu
trữ, tìm kiếm, truy cập, và kiểm soát tài liệu. Kho tài liệu cung cấp các dịch vụ này để
các ứng dụng tài liệu chuyên gia như quản lý tài liệu, hệ thống quản lý nội dung trang
web, lưu trữ hình ảnh và quản lý hệ thống, quản lý hồ sơ, hoặc các ứng dụng khác
trong đó có yêu cầu lưu trữ và quản lý một số lượng tài liệu lớn. Các kho tài liệu có
các dịch vụ như là tài liệu lưu trữ hoặc import, phân loại nội dung, an toàn trên đối
tượng tài liệu, kiểm soát nội dung thông qua check-in và check-out, và dịch vụ truy
vấn tìm kiếm tài liệu.
Sự phức tạp của các dịch vụ này như một công việc kinh doanh. Kho tài liệu có
thể lớn hoặc lớn hơn cơ sở dữ liệu của riêng mình. Hầu như tất cả các kho tài liệu cung
cấp giao diện độc quyền tới các yêu cầu chức năng đơn giản. Mặc dù đã cố gắng qua
mười năm để chuẩn hóa các giao diện, nhưng chỉ trong hai năm vừa qua đã tạo nên sự
tiến bộ. Trong năm 2005, thông qua cộng đồng Java đạt được giao diện chuẩn JSR-170
và kho tài liệu của Alfresco được dựa trên các tiêu chuẩn này.
2.1.2 Kiến trúc mở rộng
Điều quan trọng nhất của bất kỳ hệ thống ECM là các kiến trúc cơ bản. Alfresco
hỗ trợ các khía cạnh khác nhau theo định hướng kiến trúc của các mã nguồn mở tiêu
chuẩn như: Spring, Hibernate, Lucene, MyFaces, JSR 168, JSR 170, và JSE5.
13
Các kiến trúc Alfresco hỗ trợ cao cho ứng dụng quan trọng bằng cách gom lại,
phân phối đầy đủ bộ nhớ đệm, hỗ trợ và nhân rộng trên nhiều máy chủ. Các tính năng
và các kiến trúc lớp này được hiển thị trong các con số sau đây:
Hình 2. Tính năng và kiến trúc Alfresco
Các kiến trúc được dựa trên các tiêu chuẩn mở, vì vậy việc xây dựng các ứng
dụng bằng cách sử dụng Alfresco có thể được triển khai trên tất cả các môi trường
như: Windows, Linux, Mac …, có thể sử dụng bất kỳ cơ sở dữ liệu quan hệ nào, chẳng
hạn như cơ sở dữ liệu MySQL, Oracle …, có thể chạy trên nhiều ứng dụng server
chẳng hạn như máy chủ ứng dụng Jboss, Apache Tomcat …, có thể làm việc với bất
kỳ trình duyệt như Mozilla Firefox, Microsoft Internet Explorer, Flock, Google
Chrome …, và có thể tích hợp với bất kỳ cổng như JBoss Portal, Liferay Portal ….
Trong một doanh nghiệp bất kỳ, số lượng tài liệu mà bạn sẽ quản lý ngày càng tăng
lên. Trong một số tổ chức như là truyền thông, dược phẩm, y tế …, tài liệu tăng hàng
năm theo hàm mũ. Do đó quy mô là một vấn đề nghiêm trọng khi đánh giá các giải
pháp ECM.
Do kiến trúc modular và light-weight nên khả năng Alfresco mở rộng là rất cao.
Alfresco cung cấp quy mô theo chiều ngang của mỗi tầng trong kiến trúc được triển
khai trên nhiều máy chủ. Tương tự như vậy, Alfresco có thể cung cấp quy mô theo
chiều dọc của các phân vùng và cân bằng tải trong một môi trường đa phục vụ. Máy
chủ Alfresco có thể phục vụ tìm kiếm thông tin phức tạp bằng cách sử dụng cấu trúc,
14
và phân loại thông tin. Máy chủ Alfresco có thể phục vụ hoạt động thông tin phức tạp
cho mỗi lần xem với việc hiển thị năng động và đầy đủ an toàn cấp độ đối tượng.
2.1.3 Thành phần kiến trúc cơ bản
- Tiêu chuẩn mở bảo vệ cho các doanh nghiệp đầu tư, đẩy mạnh đổi mới và làm
dễ dàng hơn cho các sở, ban, ngành CNTT để được hỗ trợ phần mềm. Bằng cách áp
dụng tiêu chuẩn mở cho các yêu cầu ECM của doanh nghiệp, các doanh nghiệp có thể
giảm nguy cơ không tương thích với công nghệ hiện có. Tích hợp các ứng dụng vào
trong doanh nghiệp sẽ dễ dàng hơn với tiêu chuẩn mở.
- Alfresco được xây dựng trên những tiêu chuẩn mở dưới đây:
+ Java 1.5
+ JSR 170—Java Content Repository API
+ JSR-168 Java Portlet Integration
+ Spring 1.2 Aspect-Oriented Framework
+ ACEGI Aspect-Oriented Security Framework
+ MyFaces 1.0.9 JSF Implementation
+ Hibernate 3.0 ORM Persistence
+ Lucene 1.4 Text Search Engine
+ JLAN – Java based File Server supporting Windowns Files sharing
(SMB/CIFS), NFS, FTP
+ WebDAV/DeltaV
+ JBoss App Server 4.0
+ JBoss Portal 2.0
+ Jakartha POI—Java API to Access Microsoft File formats
+ PDFBox—Open Source Java PDF Library
+ Open Office 2.0
+ JSR-223 Java Language Integration—Scripting for Java Platform
15
- Hỗ trợ toàn cầu
Nếu doanh nghiệp của bạn có một mô hình kinh doanh toàn cầu, nó là rất quan
trọng để cung cấp nội dung trong nhiều ngôn ngữ. Hầu hết các doanh nghiệp thường
vươn xa hơn, ra khỏi biên giới địa lý của họ để có những thị trường mới. Phần lớn các
người dùng web nói ít hoặc không biết Tiếng Anh. Vì vậy các hệ thống ECM phải
được thiết kế với ngôn ngữ toàn cầu. Alfresco hỗ trợ các ngôn ngữ bao gồm Tiếng
Trung Quốc, Tiếng Hà Lan, Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Ý, Tiếng Nga,
và tiếng Tây Ban Nha…
- Kiểm soát An toàn và Truy cập
Bảo vệ chống lại việc truy cập không được phép vào các nội dung là yêu cầu chìa
khóa cho các doanh nghiệp. Điều này đúng cho các trang web doanh nghiệp, intranets,
extranets, ứng dụng văn phòng.
Ưu điểm của Alfresco là cho phép có thể được áp dụng tại một cấp độ không
gian (thư mục) hoặc có thể được thiết lập cho các mục nội dung của mỗi cá nhân.
Ngoài ra, Alfresco hỗ trợ một hệ thống cơ sở dữ liệu quan hệ và cũng hỗ trợ các thành
viên từ bên ngoài nhận dạng hệ thống quản lý như: LDAP, NTLM, Kerberos, và
Active Directory.
- Dịch vụ thư viện thiết yếu
Dịch vụ thư viện yều cầu nếu bạn muốn quản lý, tác động, sửa đổi, và kiểm soát
nội dung trong một hệ thống ECM, Alfresco cung cấp các dịch vụ thư viện như Check-
in/Check-out, kiểm soát phiên bản, kiểm tra thông tin, và nội dung trực tuyến.
Bằng cách sử dụng Alfresco, bạn có thể xác định các dịch vụ thư viện để được tự
động thực hiện trên các quy tắc kinh doanh. Ví dụ, tất cả các thay đổi đến nội dung đều
có thể tự động kiểm soát phiên bản. Hoặc khi check-out có thể di chuyển nội dung đến
một địa điểm cụ thể, dựa vào quy định của doanh nghiệp.
Alfresco cung cấp việc thêm vào nội dung những siêu dữ liệu (dữ liệu về dữ
liệu), quy định doanh nghiệp, quy tắc an ninh, và hợp tác quy định rất năng động, sử
dụng các khía cạnh khác nhau theo định hướng lập trình. Alfresco cung cấp các tính
năng cũng như nội dung của siêu dữ liệu, biến nội dung, bài dịch, và tự động phân loại
để thực hiện các nội dung một cách thông minh.
16
- Tự động xử lý quá trình kinh doanh
Tự động hóa xử lý quá trình kinh doanh, tăng năng suất, giảm chi phí, luồng các
quy trình và chu kỳ hoạt động ngắn lại. Alfresco bao gồm JBoss Business Process
Manager (JBPM) như là một doanh nghiệp tự động hóa quá trình quản lý và giải pháp.
Nó giúp quản lý chu kỳ tài liệu an toàn và khả năng đường đi kiểm toán.
2.1.4. Lợi ích của Alfresco
Alfresco cung cấp nội dung quản lý doanh nghiệp (ECM) chẳng hạn như quản lý
tài liệu, hợp tác, hồ sơ quản lý, kiến thức quản lý, quản lý nội dung trang web, và hình
ảnh. Bạn có thể cấu hình và tuỳ chỉnh Alfresco đến địa chỉ doanh nghiệp yêu cầu. Một
lợi ích của Alfresco là sử dụng trong việc lưu trữ và quản lý tài liệu.
2.1.5. Sử dụng Alfresco cho quản lý tài liệu
Sử dụng Alfresco, bạn có thể thực hiện các giải pháp quản lý tài liệu như quản lý
tài liệu doanh nghiệp, quản lý tài sản số, và quản lý hợp đồng
Đặc điểm quản lý tài liệu của Alfresco cung cấp cho các tổ chức tất cả các dịch
vụ cần thiểt cho việc tạo, chuyển đổi, quản lý và chia sẻ tài liệu số. Được xây dựng
trên tiêu chuẩn nền tảng mã nguồn mở, Alfresco cung cấp phiên bản quản lý, khả năng
tìm kiếm, hiển thị các mối quan hệ và phụ thuộc.
Nó sử dụng đầy đủ kiến trúc Service-Oriented bằng cách sử dụng các tiêu chuẩn
công nghiệp như: Spring, Hibernate, Lucene, MyFaces, JSR 168, JSR 170, và JSE5.
Kiến trúc của nó có tính hiệu quả cao bằng cách sử dụng đồng bộ phân phối Master /
Slave bên trong một trung tâm dữ liệu thông qua 2 giai đoạn cam kết từ xa giữa các
mô hình trang web. Các kiến trúc hỗ trợ zero-footprint khách hàng một cách dễ dàng
để truy cập vào máy chủ thông qua chuẩn Windows Network File Share.
Giao diện quản trị quản lý tài liệu cho phép bạn import/export không gian làm
việc và các tài liệu, định nghĩa sự an toàn, quản lý người dùng, nhóm người dùng và
các luật. Hiệu quả về chi phí nâng cấp và quản lý sự di chuyển dữ liệu là một số lợi ích
quan trọng. Quản lý dữ liệu bên trong và phương tiện chuyển đổi cho phép bạn chuyển
đổi các định dạng dữ liệu vào theo yêu cầu dự trên cơ sở doanh nghiệp quy định. Tích
hợp workflow cung cấp cho bạn toàn quyền kiểm soát vòng đời tài liệu, quản lý quá
trình lưu thông.
17
Quản lý tài sản số cung cấp một điểm truy cập cho tất cả truyền thông số phong
phú của bạn và các thông tin siêu dữ liệu thông tin cơ sở trên toàn doanh nghiệp mở
rộng. Alfresco kiểm soát việc lưu trữ và cung cấp dễ dàng, hiệu quả cho doanh nghiệp
truy cập tới tài sản kỹ thuật số, và cho phép họ được thực hiện một cách nhanh chóng
nhờ quy trình xử lý luồng và tiết kiệm tiền bạc.
Cho dù đó là một hợp đồng, thỏa thuận mua bán, bảo trì hợp đồng, hoặc một
phần thỏa thuận hợp tác với một đối tác kinh doanh, hay đầy đủ, hiệu lực, và không
thay đổi phải được đảm bảo, nếu một công ty được bảo vệ các lợi ích thương mại. Tính
năng quản lý vòng đời của tài liệu trong Alfresco đảm bảo mọi người trong các công ty
sở, ban, ngành, phòng ban, và các khu vực khác có thể làm việc cùng nhau để hỗ trợ
tất cả các quy trình liên quan đến tài liệu đó.
2.1.6. Tính năng của Alfresco
Tóm tắt các tính năng bao gồm:
- Quản lý siêu dữ liệu một cách linh động
- Điều khiển kiểm soát đầy đủ
- Chuyển đổi dữ liệu
- Kiểm soát An ninh và Phiên bản
- Đánh chỉ mục và tìm kiếm văn bản đầy đủ
- Khóa, check-in, check-out
- Đồng bộ tài liệu số để truy cập nội dung ngoại tuyến
- Nguyên tắc phân loại và phân loại nội dung
- Tìm kiếm nâng cao kết hợp siêu dữ liệu, địa điểm, và đa thể loại tìm kiếm
- Xem trước tính năng với trình bày mẫu
- Hỗ trợ phục hồi phần mềm và tài liệu bị xóa
- Lịch trình công việc và hành động
- Quản lý tài sản của trang web
- Quản lý thương hiệu
- Thư viện hình ảnh kỹ thuật số
18
2.2. Xây dựng và cấu hình hệ thống
2.2.1. Hệ điều hành: Windows, Linux, UNIX, MacOS
Chọn một hệ điều hành để chạy Alfresco sẽ được dựa trên nhiều yếu tố. Đối với
một số công ty nó phụ thuộc vào chuyên môn. Ví dụ, nếu bạn có quản trị viên CNTT
và nhân viên có thể dễ dàng quản lý các ứng dụng kinh doanh đang chạy trên một nền
tảng Microsoft Windows, đó có thể là sự lựa chọn của bạn để đi với một hệ điều hành
Windows. Đối với một số công ty là dựa trên các yêu cầu hội nhập với các hệ thống
hiện có.
Nếu bạn không có bất kỳ lựa chọn ưu tiên nào, tôi xin đề nghị bạn đến với hệ
điều hành Linux cho việc sử dụng. Mã nguồn mở Linux là tự do phân phối. Mười và
hàng ngàn chương trình đã xem xét lại mã nguồn để cải thiện hiệu quả hoạt động, loại
bỏ lỗi, và tăng cường an ninh. Không hệ điều hành khác từng được trải qua các mức độ
xem xét này. Các ưu điểm chính của Linux được liệt kê dưới đây:
+ Sẵn sàng hỗ trợ tốt nhất kỹ thuật
+ Không có nhà cung cấp đầu vào
+ Chạy trên một loạt các phần cứng
+ Ổn định khác thường
+ Hỗ trợ nhiều công cụ và các ứng dụng mà bạn cần
+ Hệ điều hành với nhiều loại hình khác của hệ thống máy tính
+ Tổng chi phí sở hữu thấp
2.2.2. Cơ sở dữ liệu: MySQL, Oracle, MS SQL Server
Các ứng dụng nội bộ của Alfresco sử dụng một thành phần phần mềm mã nguồn
mở được gọi là Hibernate. Hibernate trừu tượng hóa lớp cơ sở dữ liệu và cung cấp sự
liên kết liền mạch giữa chỗ chứa của Alfresco và các cơ sở dữ liệu quan hệ.
Nếu bạn đã lựa chọn một hệ điều hành Windows của Microsoft, sau đó lựa chọn
của bạn có thể là MS SQL Server. Nếu bạn đã có một giấy phép Oracle, thì cơ sở dữ
liệu Oracle là lựa chọn tốt nhất cho bạn.
Nếu bạn không có bất kỳ ưu tiên, tôi khuyên bạn nên đi với cơ sở dữ liệu
MySQL, mà chi phí không có gì nếu bạn đi với phiên bản mã nguồn mở. Các hệ cơ sở
dữ liệu MySQL trên thế giới đã trở thành nổi tiếng nhất của mã nguồn mở, vì cơ sở dữ
liệu của nó nhất quán, hiệu quả hoạt động nhanh chóng, độ tin cậy cao, và dễ sử dụng.
Nó được sử dụng trong hơn 10 triệu bản cài đặt khác nhau, từ các tập đoàn lớn để
19
nhúng vào các ứng dụng chuyên biệt. MySQL chạy trên hơn 20 hệ điều hành bao gồm
cả hệ điều hành Linux, Windows, OS / X, HP-UX, AIX, và NetWare, đem lại cho bạn
sự linh hoạt mà trong sự kiểm soát của bạn.
2.2.3. Ứng dụng Máy chủ: Tomcat, JBoss
Alfresco chạy trên bất kỳ J2SE 5.0 - tuân thủ ứng dụng máy chủ. Do vậy không
có sự phụ thuộc vào máy chủ ứng dụng cụ thể nào. Tuy nhiên điều quan trọng là phải
thực hiện một sự lựa chọn của máy chủ ứng dụng trước khi chuyển sang sản xuất.
Alfresco sử dụng framework là Spring và không phải là Enterprise Java Beans
(EJB) framework. Như vậy, sẽ không phụ thuộc vào JBoss hay bất kỳ máy chủ ứng
dụng mà cung cấp một EJB container. Nếu bạn đang phát triển một ứng dụng thì
Tomcat có thể là một lựa chọn tốt. Apache Tomcat có rất nhiều quyền hạn quy mô lớn,
và sứ mệnh quan trọng trên một trang web với ứng dụng đa dạng của các ngành công
nghiệp và các tổ chức. Đây là trang web được chấp nhận rộng rãi nhất trong ứng dụng
máy chủ trên thị trường.
Mặt khác, bạn phải cân nhắc việc sử dụng máy chủ ứng dụng Jboss, nó nắm bắt
thị trường cao nhất (> 35%) trong máy chủ ứng dụng J2EE trên thế giới. Bên trong
Jboss sử dụng Tomcat và qua đó bạn sẽ có được những ưu điểm tốt của Tomcat
servlet. Alfresco sử dụng khả năng bộ nhớ cache của Jboss để phân phối và duy trì lưu
trữ dữ liệu , làm cho nó có thể xây dựng một hệ thống quy mô lớn tốt hơn hệ thống
quản lý nội dung doanh nghiệp truyền thống. Alfresco cũng sử dụng các cụm và cân
bằng cơ sở tải của các máy chủ ứng dụng JBoss để tăng quy mô. Quá trình quản lý các
tính năng được hỗ trợ bởi các công cụ JBoss jBPM.
2.2.4. Cài đặt trên Linux
Alfresco cung cấp một gói phần mềm tốt bao gồm tất cả các chương trình cần
thiết để sử dụng Alfresco trên hệ điều hành Linux của bạn.
Download bản Alfresco-Labs-3Stable-Linux-x86-Install.
Java SE Development Kit (JDK) phải được install trong hệ thống trước khi cài
đặt Alfresco. Một vài bản cài đặt Alfresco sẽ phát hiện xem JDK đã được cài hay
chưa, nếu chưa JDK sẽ tự động được cài đặt, một vài bản khác thì bắt buộc JDK được
cài trước khi cài đặt Alfresco.
20
Sau khi JDK được cài đặt, tiến hành cài đặt bản Alfresco-Labs-3Stable-Linux-
x86-Install. Việc cài đặt chi tiết sẽ được trình bày ở Phụ lục 1.
2.2.5. Cấu hình
Để khởi động Alfresco, cần định nghĩa đúng biến JAVA_HOME theo đường dẫn
đã cài đặt JDK từ trước. Nếu cài đặt JDK vào /usr/lib/jvm thì biến JAVA_HOME phải
như sau:
JAVA_HOME=”/usr/lib/jvm/java-6-sun-1.6.0.10”
Sau khi cấu hình xong, chạy lệnh ./alfresco.sh start để khởi động Alfresco.
Bật trình duyệt web của bạn và trình duyệt đến địa chỉ
bạn đăng nhập nên sử dụng admin làm tên người dùng và mật khẩu
Hình 3. Giao diện đăng nhập Alfresco
21
Chương 3. Lưu trữ và quản lý văn bản tại Viện Công
Nghiệp Phần Mềm Và Nội Dung Số Việt Nam
3.1. Giới thiệu nhiệm vụ, chức năng của Viện
3.1.1. Giới thiệu
Viện Công nghiệp phần mềm và nội dung số Việt Nam được thành lập theo
Quyết định số 901/QĐ-TTg ngày 19 tháng 07 năm 2007 của Thủ tướng Chính phủ
nước Cộng hoà Xã hội Chủ nghĩa Việt Nam.
Theo Quyết định số 370/QĐ-TTg ngày 10 tháng 04 năm 2008 của Thủ tướng
Chính phủ và Quyết định số 30/2008/QĐ-BTTTT ngày 06 tháng 5 năm 2008 của Bộ
trưởng Bộ Thông tin và Truyền thông, Viện Công nghiệp phần mềm và nội dung số
Việt Nam là đơn vị sự nghiệp khoa học - công nghệ thuộc thẩm quyền quyết định của
Thủ tướng Chính phủ, trực thuộc Bộ Thông tin và Truyền thông, có chức năng giúp
Bộ trưởng Bộ Thông tin và Truyền thông trong nghiên cứu, xây dựng và triển khai
chiến lược, chính sách, quy hoạch, kế hoạch, chương trình, đề án, dự án phát triển
trong lĩnh vực công nghiệp phần mềm và công nghiệp nội dung số; đào tạo và phát
triển nguồn nhân lực trình độ cao cho công nghiệp Công nghệ thông tin và truyền
thông; nghiên cứu - phát triển và chuyển giao công nghệ trong lĩnh vực sản xuất sản
phẩm và cung cấp dịch vụ phần mềm, nội dung thông tin số.
Viện Công nghiệp phần mềm và nội dung số Việt Nam đã được Bộ Khoa học và
Công nghệ cấp Giấy chứng nhận đăng ký hoạt động Khoa học và Công nghệ số A-728
ngày 21 tháng 5 năm 2008, Cục thuế TP. Hà nội cấp Giấy chứng nhận đăng ký mã số
thuế số 0102742794 ngày 13 tháng 5 năm 2008.
Viện trưởng Viện Công nghiệp phần mềm và nội dung số Việt nam là TS.Hoàng
Lê Minh. Các đơn vị sự nghiệp và phòng ban chuyên môn trực thuộc Viện bao gồm
Trung tâm Đào tạo – dịch vụ CNTT-TT, Trung tâm Khảo sát, nghiên cứu và phát triển
thị trường; Phòng Nghiên cứu phát triển sản phẩm mới, Phòng Nghiên cứu phát triển
dịch vụ và nội dung thông tin số, Tạp chí “Phần mềm và Nội dung số”, các Phân Viện
tại TP. Hồ Chí Minh và Phân viện tại Đà nẵng.
22
3.1.2. Vị trí, chức năng
Viện Công nghiệp phần mềm và nội dung số Việt nam là đơn vị trực thuộc Bộ
Thông tin và Truyền thông, có chức năng giúp Bộ trưởng Bộ Thông tin và Truyền
thông trong nghiên cứu, xây dựng và triển khai chiến lược, chính sách, quy hoạch, kế
hoạch, chương trình, đề án, dự án phát triển trong lĩnh vực công nghiệp phần mềm và
công nghiệp nội dung số; đào tạo và phát triển nguồn nhân lực trình độ cao cho công
nghiệp Công nghệ thông tin và truyền thông; nghiên cứu - phát triển và chuyển giao
công nghệ trong lĩnh vực sản xuất sản phẩm và cung cấp dịch vụ phần mềm, nội dung
thông tin số.
Viện Công nghiệp phần mềm và nội dung số Việt nam có tên giao dịch quốc tế
là: Vietnam National Institute of Software and Digital Content Industry, tên viết tắt
NISCI.
Viện Công nghiệp phần mềm và nội dung số Việt nam là đơn vị sự nghiệp có thu,
có tư cách pháp nhân, có con dấu và tài khoản riêng để giao dịch theo qui định của
pháp luật, có kinh phí hoạt động do ngân sách nhà nước cấp theo quy định của pháp
luật, có trụ sở chính đặt tại thành phố Hà Nội.
3.1.3. Nhiệm vụ và quyền hạn
Viện Công nghiệp phần mềm và nội dung số Việt nam có nhiệm vụ và quyền hạn
sau:
- Tổ chức nghiên cứu, xây dựng và triển khai thực hiện chiến lược, quy hoạch, kế
hoạch trung hạn và dài hạn, cơ chế, chính sách, chương trình, đề án, dự án, mô hình,
giải pháp phát triển trong lĩnh vực công nghiệp phần mềm và công nghiệp nội dung số.
- Đào tạo nhân lực trình độ cao và cấp các chứng chỉ chuyên ngành theo đặt hàng
của các doanh nghiệp, cơ quan, tổ chức trong các lĩnh vực liên quan đến công nghiệp
Công nghệ thông tin và truyền thông, đặc biệt là công nghiệp phần mềm và công
nghiệp nội dung số.
- Nghiên cứu phát triển và chuyển giao công nghệ về phần mềm và công nghiêp
nội dung số; tham gia tuyển chọn, đấu thầu thực hiện các nhiệm vụ khoa học và công
nghệ của Nhà nước, các nhiệm vụ khoa học thuộc các chương trình, đề án, dự án và
các nhiệm vụ đột xuất; xây dựng và quản lý các phòng thí nghiệm, đo thử, đánh giá,
kiểm định về phần mềm, sản phẩm truyền thông đa phương tiện và nội dung thông tin
23
số; hỗ trợ nghiên cứu, phát triển các sáng tạo, các ý tưởng mới, các công nghệ, sản
phẩm tiên tiến trong lĩnh vực công nghiệp phần mềm và công nghiệp nội dung số.
- Nghiên cứu, phát triển và hỗ trợ chuyển giao, thẩm định đánh giá về chi phí,
định mức, quy trình sản xuất, quy trình đảm bảo chất lượng, các chuẩn quốc gia và
quốc tế trong lĩnh vực công nghiệp phần mềm và công nghiệp nội dung số.
- Tổ chức điều tra, khảo sát hiện trạng, nghiên cứu dự báo xu hướng phát triển và
cung cấp các thông tin, tư liệu chuyên ngành; xây dựng các cơ sở dữ liệu, kho thông
tin, trang thông tin điện tử về thị trường, doanh nghiệp, sản phẩm phần mềm và nội
dung thông tin số; xây dựng các thư viện chuyên ngành, các tài liệu chuyên môn, sách
trắng, hướng dẫn về khung pháp lý và sở hữu trí tuệ, môi trường đầu tư, cơ hội thị
trường và kinh doanh trong lĩnh vực công nghiệp phần mềm và công nghiệp nội dung
số.
- Phát hành các ấn phẩm, tạp chí khoa học, trang thông tin điện tử; chủ trì tổ chức
và phối hợp tổ chức các hội thảo, hội nghị, triển lãm trong nước và quốc tế trong lĩnh
vực phần mềm và nội dung thông tin số.
- Triển khai các biện pháp, giải pháp, đề án, dự án thúc đẩy phát triển và ứng
dụng phần mềm mã nguồn mở; thu thập, nghiên cứu, đánh giá, thẩm định và xây dựng
cơ sở dữ liệu về phần mềm mã nguồn mở; biên soạn, phát hành các tài liệu mô tả giải
pháp, sản phẩm, hướng dẫn cài đặt, sử dụng, phát triển và các tài liệu có liên quan
khác.
- Cung cấp các sản phẩm mẫu và dịch vụ tư vấn về phần mềm và nội dung thông
tin số, bao gồm các dịch vụ tư vấn về sản phẩm, công nghệ và đào tạo; dịch vụ tư vấn
về xây dựng, thẩm định, quản lý và đánh giá hiệu quả dự án công nghệ thông tin;
nghiên cứu, phát triển và cung cấp các giải pháp, sản phẩm, dịch vụ phần mềm và nội
dung thông tin số; các dịch vụ tư vấn có liên quan khác.
- Tổ chức thực hiện các dự án, chương trình hợp tác quốc tế, tiếp nhận tài trợ,
viện trợ của các cơ quan, tổ chức quốc tế trong lĩnh vực nghiên cứu – phát triển công
nghiệp phần mềm và công nghiệp nội dung số.
- Nghiên cứu, phát triển và hỗ trợ phát triển một số sản phẩm phần mềm và nội
dung thông tin số trọng điểm theo định hướng của Chính phủ; tham gia vào các
chương trình, đề án quốc gia về an toàn và an ninh thông tin liên quan đến phần mềm
và nội dung thông tin số.
24
Tải về để xem bản đầy đủ
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Nghiên cứu xây dựng hệ thống lưu trữ và quản lý tài liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
khoa_luan_nghien_cuu_xay_dung_he_thong_luu_tru_va_quan_ly_ta.pdf