Định dạng các files của tài liệu điện tử

Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia thành “đơn chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một nhân viên lập trình, và “đa chương trình” được bảo đảm bởi vài nhân viên lập trình và có thể được xử lý bằng nhiều chương trình (phần mềm) khác nhau.

Chúng ta có thể liệt kê những định dạng cơ bản:

1. Các định dạng văn bản thường được xây dựng nhờ sự trợ giúp của quá trình biên soạn. Những định dạng văn bản phổ biến nhất là:
– các định dạng đơn phần mềm Microsoft Word và Word Perfect;
– định dạng RTF (Rich Text Format) được bảo đảm bởi nhiều phụ lục phần mềm trong khi đó vẫn giữ định dạng văn bản đã đặt;
– định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với cả văn bản và biểu đồ. Có thể đọc những file theo định dạng PDF bằng nhiều phần mềm để đọc files khác nhau, nhưng chúng được xây dựng chỉ nhờ phần mềm Adobe Acrobat.

2. Các định dạng đồ họa lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) và được chia ra thành hai kiểu chính:
2.1. Các định dạng vector – lưu giữ hình ảnh như là tập hợp các hình dạng hình học. Phổ biến hơn cả là:
– định dạng DXF (Drawing Interchange Format) được sử dụng rộng rãi trong các chương trình thiết kế bằng máy tính cho các kỹ sư và kiến trúc sư;
– định dạng EPS (Encapsulated PortScript) được sử dụng rộng rãi trong các hệ thống biểu quyết/bầu cử tại bàn;
– định dạng CGM (Computer Graphics Metafile) được sử dụng rộng rãi trong nhiều phần mềm đồ họa (ví dụ trong phần mềm Photoshop).
2.2. Các định dạng mành, chúng lưu giữ hình ảnh như là tập hợp những điểm ảnh – pixels. Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng. Phổ biến hơn cả là:
– định dạng BMP (Bitmap)- định dạng tương đối kém về chất lượng, thường dùng vào quá trình soạn thảo văn bản;
– định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi trong các ứng dụng phần mềm;
– định dạng GIF (Graphics Interchange Format) sử dụng rộng rãi trong các phần mềm dành cho Internet.

3. Các định dạng cơ sở dữ liệu được xây dựng nhờ những phần mềm chuyên dụng – các hệ thống quản lý cơ sở dữ liệu
Hệ thống quản lý cơ sở dữ liệu cho phép xác định những mối quan hệ giữa các thành phần thông tin của cơ sở dữ liệu, thực hiện các tác động khác nhau tới thông tin của cơ sở dữ liệu (tìm kiếm, đánh dấu, thực hiện những phép toán khác nhau, lập báo cáo và chỉ dẫn, v.v.). Những ví dụ về hệ thống quản lý cơ sở dữ liệu là Microsoft SQL Sever, Oracle, MySQL, IBM DB2, Sybase và những phần mềm khác.
Ví dụ, cơ sở dữ liệu về khách hàng gồm có trường thông tin tên người mua, địa chỉ và thông tin về hàng hóa. Những trường đó có thể được tổ chức thành các bảng riêng biệt (thí dụ, một bảng cho tất cả các trường với họ tên của khách hàng).
Cơ sở dữ liệu có thể chuyển sang định dạng văn bản, nhưng khi đó bị mất đi mối liên hệ giữa các trường thông tin với các bảng (ví dụ, lúc đó có thể nhận được mười trang họ tên, mười trang địa chỉ và nghìn trang thông tin về hàng hóa, tức là thông tin không liên kết).

4. Các định dạng bảng điện tử. Những file trong định dạng bảng điện tử lưu giữ trong các ô những con số và mối liên hệ giữa những con số đó. Ví dụ, một ô có thể chứa công thức thực hiện việc cộng dữ liệu của hai ô khác. Giống như các file cơ sở dữ liệu, các file bảng điện tử thường có định dạng của chính phần mềm tạo ra nó. Một số chương trình có thể nhập khẩu và khai thác những dữ liệu của các nguồn khác kể cả của những chương trình dùng để trao đổi dữ liệu kiểu này (thí dụ, định dạng DIF (Data Interchange Format)). Các file của bảng điện tử có thể chuyển đổi thành file văn bản, nhưng những con số và mối liên hệ giữa các số sẽ bị mất đi.

5. Các định dạng nghe-nhìn/video-audio. Những định dạng đó chứa các hình ảnh chuyển động (ví dụ video số, hoạt hình) và các dữ liệu âm thanh được xây dựng và có thể xem, nghe nhờ các chương trình tương thích và lưu giữ trong định dạng đơn chương trình. Những định dạng được sử dụng nhiều hơn cả là QuickTime và MPEG (Motion Picture Experts Group).

6. Đánh dấu ngôn ngữ còn được gọi là các định dạng đánh dấu, gồm có các hướng dẫn đính kèm để biểu diễn nội dung của file. Chúng là:
– SGML (Standard Generalized Markup Language) được sử dụng trong các cơ quan nhà nước ở nhiều nước trên thế giới và là tiêu chuẩn quốc tế;
– HTML (Hypertext Markup Language) được sử dụng để hiển thị hầu như toàn bộ thông tin của mạng World Wide Web;
– XML (Extensible Markup Language) – ngôn ngữ tương đối đơn giản dựa trên cơ sở SGML và được dùng phổ biến khi quản lý thông tin và trao đổi thông tin.

Từng định dạng file có điểm mạnh và điểm yếu riêng khi áp dụng vào việc bảo đảm tài liệu cho quản lý. Thí dụ, những định dạng văn bản (MicrosoftWord, WordPerfect, RTF v.v.) thuận tiện cho tìm kiếm ngữ cảnh theo các tài liệu trong cơ sở dữ liệu, còn các định dạng đồ hoạ (PDF, TIFF v.v.) giúp nhận được hình ảnh khi scan với toàn bộ những đặc điểm bên ngoài của nó và giữ tài liệu có dạng đúng như trên giấy với đầy đủ chữ ký, con dấu, bút tích.

Định dạng MS Word rất tiện cho biên tập tài liệu và xử lý‎‎‎ thông tin, nhưng file MS Word lại chứa đựng nhiều thông tin ẩn (trước tiên về những thay đổi đã thực hiện trong file) và như vậy, nó rất không an toàn theo quan điểm thất thoát thông tin công vụ. Ví dụ, trong lúc chuẩn bị tài liệu thương mại, thông tin ẩn lại cho ta biết những đề xuất khởi điểm, ai có ảnh hưởng mạnh nhất tới văn bản. Trong chuẩn bị tài liệu theo nhóm, sự phân tích sửa đổi cho ta khả năng nhận biết không chỉ họ tên những người lập tài liệu mà cả mức độ đóng góp của từng người vào phương án hoàn chỉnh của tài liệu.

Ở Nga, các cơ quan chính quyền LB tự quy định định dạng cho các dạng tài liệu điện tử được sử dụng trong giao dịch với các cơ quan, tổ chức khác và với công dân. Thí dụ, theo những yêu cầu của Uỷ ban LB về thị trường tiền tệ (ngày nay là Cơ quan LB về thị trường tài chính) các file tài liệu phải được trình bày trong định dạng RTF. Về phần mình, Bộ Tài chính Nga quy định các file tài liệu thống kê do các tổ chức bảo hiểm (bảo hiểm y tế) lập có định dạng XML.

Vậy định dạng XML tuyệt vời vì cái gì? Đánh dấu ngôn ngữ mở rộng (Extensible Markup Language) chứa đựng trong mình không chỉ các dữ liệu mà còn mang thông tin mô tả những dữ liệu đó. Nó dùng được cho bất kỳ ứng dụng máy tính nào mà không bị lệ thuộc vào kỹ thuật và các hệ thống xử lý, nó cho phép chuyển tải dung lượng lớn thông tin không cần đến những biến đổi cấu trúc dữ liệu. Công nghệ XML (eXtensible Markup Language) được dùng để chia sẻ các loại dữ liệu riêng biệt thông qua các hệ thống khác nhau bằng một hình thức thể hiện thống nhất. Trước đây các ứng dụng của bộ Office thường lưu lại các file bằng định dạng của riêng mình mà các chương trình khác không thể mở ra để xem được.

Những định dạng tiền nhiệm của XML là đánh dấu ngôn ngữ chuẩn chung được Tổ chức tiêu chuẩn quốc tế phê duyệt như một tiêu chuẩn ngay từ những năm 1980, một phiên bản rút gọn của nó là đánh dấu ngôn ngữ siêu văn bản HTML.

Định dạng XML được các tổ chức tiêu chuẩn của cộng đồng-internet với đại diện là tập đoàn World Wide Web (W3C) và tổ chức UDDI.org thông qua. Hiện nay các công ty Microsoft, IBM, Oracle, cũng như một loạt các công ty sản xuất phầm mềm đã linh hoạt chuyển sang sử dụng XML vào các sản phẩm của mình và trên thực tế, họ đang thực hiện ý tưởng tiêu chuẩn hoá định dạng tài liệu trên cơ sở XML.

Thuận lợi đầu tiên của công nghệ XML là giảm thiểu được kích thước file, cho phép người dùng gửi các file này đi dưới dạng file đính kèm một cách dễ dàng. Định dạng XML cũng tạo điều kiện cho một file tài liệu nào đó có thể chứa được văn bản, hình ảnh các dạng dữ liệu phức tạp, cùng với định dạng dữ liệu riêng của nó. Ngoài ra XML còn giúp cho người dùng truy cập vào dữ liệu dễ dàng hơn, cũng như có thể phục hồi được các tệp dữ liệu đã bị hỏng, đồng thời tăng cường độ an toàn của dữ liệu.

Định dạng PDF là một định dạng tập tin văn bản do hãng Adobe Systems Inc. xây dựng đang rất phổ biến trong trao đổi tài liệu và được sử dụng rộng rãi cho những tài liệu của mạng internet bởi vì nó cho phép giữ hình thức ban đầu của tài liệu và ngăn cản việc thay đổi thông tin tài liệu. Tương tự như định dạng Microsoft Word (.doc), PDF hỗ trợ văn bản thô (text) cùng với font chữ, hình ảnh đồ họa và nhiều hiệu ứng khác. Tuy nhiên, việc hiển thị văn bản PDF không phụ thuộc vào môi trường làm việc của người sử dụng (cấu hình máy, phần mềm và hệ điều hành). Không như văn bản Word, một văn bản PDF sẽ được hiển thị giống nhau trên những môi trường làm việc khác nhau nếu như file PDF đó đã được tạo hiệu ứng nhúng font chữ (Embedded Subset). Chính vì ưu điểm này, định dạng PDF đã trở nên phổ biển cho việc phát hành sách, báo hay các tài liệu khác qua mạng Internet. Theo đánh giá của công ty Adobe thì đã có hàng triệu người tải phần mềm miễn phí của công ty để xem các file PDF, nhiều doanh nghiệp đã chọn định dạng này làm tiêu chuẩn chuyển giao và lưu giữ tài liệu, có không ít lập trình viên độc lập đang giới thiệu những sản phẩm hỗ trợ PDF, thậm chí một số là miễn phí.

Nhưng công ty Adobe trong tương lai sẽ không cung cấp miễn phí quyền tiếp cận tới các chương trình của mình. Hơn nữa, trong những phiên bản mới của chương trình Adobe, các file của phiên bản cũ thường được trình diễn không chính xác. Chính vì vậy đã xuất hiện phiên bản nâng cấp định dạng PDF dược gọi là PDF-Archive (PDF-A). Ở nước ngoài nó được coi là một trong hai phiên bản cơ sở mà trong tương lai có thể được sử dụng cho lưu trữ tài liệu điện tử. Còn định dạng thứ hai là XML nói trên.
Định dạng PDF-A cũng giống như XML có những điểm nổi trội và yếu kém của mình trong công tác lưu trữ tài liệu điện tử. Cụ thể, định dạng PDF-A đặc biệt thuận lợi cho lưu trữ tài liệu điện tử vì nó giữ được ngoại hình của tài liệu gốc bằng giấy. Kinh nghiệm công tác xét xử hai vụ phá sản lớn nhất trong lịch sử Mỹ – các công ty Enron và Global Crossing đã khẳng định được tiện ích của nó. Họ đã tạo lập khối lượng lớn tài liệu trong định dạng PDF và đã đặt ra trước các cơ quan tư pháp LB nhiệm vụ lưu trữ những tài liệu đó. Về nhiều điểm thì đây là tác động tích cực vào quá trình biên soạn dự thảo tiêu chuẩn quốc tế về lưu trữ tài liệu theo PDF.
Song khả năng sử dụng những định dạng trên vào lưu trữ điện tử còn hạn chế, lấy thí dụ, định dạng PDF-A không dùng được cho lưu trữ tài liệu nghe nhìn.

Thay lời kết luận
Phải lưu ý rằng không có một định dạng nào trong số các định dạng file tài liệu điện tử là tối ưu cho lưu trữ lâu dài, bởi vì kỹ thuật, công nghệ và chương trình thay đổi khá nhanh. Ngay bây giờ đã khó khôi phục lại trên thiết bị mới những tài liệu được lập nhờ các công cụ biên tập AmiPro, WordPerfect. Vậy thì có thể dễ dàng không, nếu như dựng lại tài liệu lưu trữ trong định dạng Word-97 sau 10-15 năm nữa?
Chắc chắn là sự phong phú của các định dạng files tài liệu sẽ vẫn tồn tại. Vì vậy, các cơ quan lưu trữ biên soạn tiêu chuẩn cho lưu trữ tài liệu điện tử có định dạng khác nhau mà trước tiên cho những định dạng phổ biến hơn cả là PDF và XML. Tuy vậy, hiện nay những hy vọng lớn lao đều liên quan đến việc sử dụng định dạng XML như là tiêu chuẩn để trao đổi tài liệu điện tử trong các lĩnh vực hoạt động khác nhau, đặc biệt là trong lĩnh vực quản lý nhà nước.

TS. Nguyễn Lệ Nhungwww.vanthuluutru.com
Tổng hợp và dịch từ www.archives.ru

 

Leave a Reply

Your email address will not be published. Required fields are marked *