4 Cách để trích xuất văn bản từ hình ảnh và tài liệu
14:00, 20/10/2011
Bạn muốn trích xuất văn bản từ một tập tin ảnh hay tài liệu? Thông thường, phần mềm OCR (Optical Character Recognition – Nhận dạng ký tự quang học) được sử dụng để sao chép văn bản từ hình ảnh scan và rất hữu ích, đặc biệt là để chuyển đổi sách và tài liệu sang định dạng kỹ thuật số. Tuy nhiên, đa số chúng chúng là những phần mềm thương mại, bạn phải trả phí để sử dụng mà lại nặng nề và ôm đồm nhiều chức năng không cần thiết nữa. Dưới đây là bốn cách đơn giản để trích xuất văn bản từ các tập tin hình ảnh, đặc biệt hoàn toàn miễn phí.
1. Sử dụng phần mềm mã nguồn mở:
Chúng ta có thể sử dụng 2 phần mềm sau đây để trích xuất văn bản từ hình ảnh:
- Phần mềm Gttext: Đây là một công cụ mã nguồn mở miễn phí cho Windows (32bit và 64bit) có thể sao chép văn bản từ các tập tin hình ảnh phổ biến (JPEG, PNG, BMP, GIF, TIFF) gần như chính xác và văn bản được sao chép vào clipboard để bạn dán chúng trên bất kỳ trình soạn thảo văn bản.

- Phần mềm VietOCR: Đây là một tiện ích “thuần Việt” có thể nhận dạng và trích xuất chính xác đến 80%. Chương trình hỗ trợ 2 ngôn ngữ trích xuất chính là tiếng Anh và tiếng Việt nhưng để sử dụng bạn phải cài đặt thêm Java Runtime Environment 6.0 hoặc mới hơn và Microsoft Visual C++ 2008 SP1.

Tải VietOCR 3.1.5 tại trang chủ http://vietocr.sourceforge.net/usage_vi.html hay tại đây. Bạn có thể xem video hướng dẫn sử dụng tại địa chỉ http://www.youtube.com/watch?v=g9zezEWlds0.
2. Sử dụng Microsoft OneNote:
Một trong những giải pháp dễ nhất và đơn giản để trích xuất văn bản từ tập tin hình ảnh là sử dụng chương trình Microsoft OneNote. Đây là một ứng dụng ghi chú và lập kế hoạch tuyệt vời và thường đi kèm với Microsoft Office.

3. Sử dụng Google Docs:
Bạn cũng có thể sử dụng dịch vụ Google Docs của Google để trích xuất văn bản từ tài liệu hoặc tập tin hình ảnh. Để sử dụng, truy cập vào http://docs.google.com và đăng nhập với tài khoản Google của bạn. Bây giờ, bấm vào nút Upload và chọn một hình ảnh hoặc tập tin PDF để tải lên, đánh dấu kiểm trước tùy chọn Convert text from PDF or image files to Google Docs documents và sau đó nhấp vào nút Start Upload.

4. Sử dụng dịch vụ trích xuất chuyên dụng:
Có một số dịch vụ trực tuyến miễn phí có khả năng trích xuất văn bản từ các tập tin hình ảnh, chẳng hạn như:



Nhìn chung các cách trên đều nhận dạng văn bản tiếng Anh khá tốt nhưng nếu bạn cần trích xuất văn bản tiếng Việt thì tốt nhất là nên dùng VietOCR, Free-OCR. Sai sót trong kết quả khi trích xuất là điều không thể tránh khỏi, nhưng bạn có thể chỉnh sửa chúng dễ dàng.
Say IT