MegaDoc- Số hóa văn bản tiếng Việt

00:00, 27/02/2011

            Bực bội, khó chịu là hợp tình hợp lý vì có số hóa người làm việc không mất thời gian khâu nhập dữ liệu, việc lưu trữ, chuyển đổi thông tin hay bàn giao cho nhau diễn ra khoa học, chóng vánh. Một lý do lớn mà các hãng sản xuất ra máy scan và luôn đi kèm chương trình nhận diện chữ viết để số hóa các loại văn bản, giấy tờ không có “bản mềm”. Ngay tại buổi họp báo ra mắt loạt sản phẩm máy in, máy scan mới trong tháng 10 qua, Canon đã nhấn mạnh đến khả năng số hóa văn bản chính xác đến 99% của những dòng scan mới của mình.
 
           Điều này giúp giảm áp lực công việc, rút ngắn thời gian cho những ai phải thường xuyên tiếp xúc với công văn, dữ liệu, thông tin, giấy tờ. Song, điều thiếu sót được cho là rất cần được thay đổi ngay tại thị trường Việt Nam là các dòng scan này không hỗ trợ tiếng Việt khiến cho khâu số hóa văn bản tiếng Việt mất tác dụng. Đây cũng chính là thiếu sót chung của hầu hết các dòng scan hiện nay. Công nghệ số hóa văn bản đã có mặt từ lâu, cũng phải hơn cả chục năm nay nhưng lại không hỗ trợ tiếng Việt nên luôn gây trở ngại cho những ai muốn số hóa văn bản tiếng Việt. Mãi đến gần đây, VDC nới tung ra dịch vụ MegaDoc.  Dịch vụ được đánh giá cao vì hỗ trợ nhận dạng tiếng Việt. Người dùng bắt đầu thở phào nhẹ nhõm.

            Thay vì phải mất thời gian vào việc đánh máy lại các tài liệu giấy, MegaDoc giúp tự động nhận dạng chữ trong file ảnh và kết xuất kết quả nhận dạng thành định dạng file văn bản. Tất cả những gì bạn phải làm là chụp hoặc scan văn bản để có file ảnh. Sau đó tải file ảnh của tài liệu lên để dịch vụ nhận dạng. Nhận dạng xong, bạn lưu tài liệu như bình thường để có thể sửa đổi, chỉnh sửa theo ý. Khi cần lấy tài liệu bản đầy đủ đã được sửa đổi thì tải tài liệu xuống. Điển thu hút của dịch vụ còn cho phép người dùng tìm kiếm hầu như bất cứ thể loại văn bản nào họ cần: đơn, thư, biên bản, bằng khen, di chúc, hợp đồng cho đến văn khấn, tế lễ… Công việc còn lại, người dùng đăng ký ngay tài khoản, nạp tiền vào tài khoản để dùng. Nạp tiền theo cách đăng ký trực tuyến hoặc nhắn tin.

MegaDoc của VDC

            Theo VDC, chương trình được trang bị công nghệ nhận dạng chữ in (OCR) hàng đầu của hãng ABBYY – Nga cho phép nhận dạng với độ chính xác lên tới trên 99%, giữ nguyên cấu trúc, bố cục và tất cả các yếu tố của văn bản, nhận dạng bảng biểu, xử lý ảnh màu. Kết quả nhận dạng được kết xuất ra nhiều định dạng văn bản điện tử khác nhau. Khả năng nhận dạng 198 loại ngôn ngữ khác nhau, bao gồm tiếng Việt. Thử dùng dịch vụ và kết quả khá ưng ý. Trước mắt là khâu sử dụng đơn giản với một số bước dễ thực thi như đầu tiên truy nhập vào dịch vụ tại địa chỉ: megadoc.vn. Những bước kế tiếp được hướng dẫn chi tiết, dễ hiểu. Người dùng có thể tham khảo cách dùng theo video clip hướng dẫn đi kèm trong dịch vụ. Quan trọng là ở khâu đăng ký tài khoản, nạp tiền để dùng. Bạn có thể đăng ký nạp tài khoản trực tuyến hoặc bằng tin nhắn. Cách này cũng được giới thiệu, hướng dẫn chi tiết, dễ thực hiện. Đặc biệt, trong thời gian đầu mới đăng ký, người dùng sẽ được nhà cung cấp miễn phí 20 trang.
 

            Ngoài dịch vụ số hóa văn bản và dịch vụ văn bản điện tử thì VDC khẳng định, MegaDoc có khả năng cung cấp, xây dựng giải pháp toàn diện và tổ chức thực hiện các dự án số hóa qui mô hàng triệu trang văn bản cho các tổ chức và doanh nghiệp như: thư viện, ngân hàng, cơ quan lưu trữ, cơ quan quản lý nhà nước, tổ chức luật pháp, doanh nghiệp. Dù chỉ mới ra mắt nhưng MegaDoc là chương trình hữu ích. Những ngày này, nếu bạn thử đến các cơ quan thuế sẽ thấy số lượng giấy, tài liệu khổng lồ. Nhiều nhân viên thuế cho biết đây chỉ mới là phần tài liệu nhỏ, còn số lượng lớn hơn nữa đã chuyển kho lưu trữ. Và khi đó, bạn hiểu số hóa văn bản có ý nghĩa thế nào. Số hóa để đỡ phải tốn thời gian, công sức khi muốn nhập liệu văn bản, tài liệu nào đó. Số hóa để khâu lưu trữ là những ổ đĩa cứng gọn gàng thay cho những tủ đựng hồ sơ khổng lồ, khó khăn trong khâu quản lý.

             Vấn đề được nhiều người dùng lo ngại là với văn bản rõ ràng, thẳng đẹp thì khả năng nhận diện chính xác đến 99%. Nhưng liệu với các loại văn bản đã cũ, bì mờ, nhiều nếp gấp, nhất là văn bản tiếng Việt có nhiều dấu như chấm, phẩy thì sau khi nhận file ảnh để định dạng, độ chính xác có được đến 99%. Có thể dấu sẽ bị mất đi rất nhiều và khi đó, người dùng lại phải lọ mọ rà soát để chỉnh sửa lại cho chính xác. Câu hỏi này của người dùng sớm mong được nhà cung cấp giải thích hoặc đưa ra tiện ích, nâng cấp công nghệ để làm sao độ chính xác của các loại văn bản cũ đến đâu chăng nữa vẫn đạt con số lý tưởng 99%.

                                                                                                                                                                                                          Vy Ái Dân