Phần mềm kiểm tra chính tả tiếng Việt
00:00, 19/01/2009
Không xuất thân là dân ngôn ngữ nhưng tình yêu tiếng Việt đã giúp Nguyễn Hồng Phương, Phan Anh Dũng và Ngô Đức Thuận, sinh viên lớp Kỹ sư tài năng Công nghệ thông tin K48, ĐH Bách Khoa Hà Nội xây dựng thành công giải pháp kiểm tra chính tả tiếng Việt. Đây là phần mềm sửa lỗi chính tả tiếng Việt đầu tiên của Việt Nam.
Chỉ lỗi và gợi ý thay thế từ
Khi chương trình kiểm tra chính tả này được cài vào máy tính, người sử dụng có thể chọn câu, đoạn hoặc toàn bộ văn bản. Chương trình kiểm duyệt chính tả này sẽ tự động chỉ ra các lỗi đang có, đồng thời đưa ra những từ có thể thay thế, cuối cùng người sử dụng chọn từ thích hợp nhất.
Nhóm sinh viên thiết kế phần mềm kiểm tra tiếng Việt. |
Sau công đoạn này coi như việc sửa lỗi đã hoàn chỉnh. Chẳng hạn kiểm tra câu “thời gian hai mươi nhăm qua…”, phần mềm sau khi đánh dấu từ “nhăm” là sai sẽ đưa ra các từ để người dùng lựa chọn từ thích hợp nhất.
Để làm được điều này, các tác giả đã dựa trên những hàm trong tin học, như hàm khoảng cách Minimum Edit Distance (MED) và N-gram distance, Soundex... Đây là một thuật toán quy hoạch động, nhằm tính toán độ sai khác sửa đổi để đưa ra thêm, xóa, thay thế.
Mặt khác, họ cũng phải tự tìm hiểu về lỗi chính tả cơ bản như lỗi không có trong từ điển (non-word) và lỗi chính tả có trong từ điển (real-word) nhưng đã bị sử dụng sai.
Đối với tiếng Việt, các lỗi có trong từ điển đa phần do phát âm, sự khác nhau về phương ngữ của các vùng miền dẫn đến viết sai. Việc kiểm tra chính tả gồm hai công đoạn phát hiện lỗi và sửa lỗi.
Kết quả thử nghiệm trên một đoạn văn 20 câu, có số lỗi cần phải sửa là 59 và phần mềm đã phát hiện được 51 lỗi, đồng thời đưa ra các gợi ý để người dùng hoàn thành việc chữa lỗi chính tả.
Ở quy mô một đoạn văn bản 1.000 câu, số lỗi là 3.092 và phần mềm tích hợp này đã phát hiện được 2.667 lỗi. Kết quả sửa lỗi đạt khoảng 86%.
Đưa tiếng Việt đi xa
Với ứng dụng đã xây dựng, việc kiểm tra chính tả có thể thực hiện theo hai phương thức giống như kiểm tra chính tả tiếng Anh trên Microsoft Word: kiểm tra sơ bộ trên toàn bộ văn bản, kiểm tra từng câu trong văn bản, hoặc từng đoạn được chọn.
Để có thể ứng dụng rộng rãi chương trình kiểm tra chính tả, yêu cầu được đặc ra là cần phải tích hợp vào các bộ xử lý văn bản Microsoft Word… Dựa trên các kết quả nghiên cứu đã có được, nhóm đã xây dựng chương trình cài đặt ứng dụng tích hợp vào hệ điều hành Microsoft Word 2003, sử dụng bộ VSTO (Visual Studio Toof for Office), bộ công cụ phát triển sau của VBA Macro.
Nhờ những ứng dụng hiệu quả của phần mềm vào sửa lỗi chính tả tiếng Việt, công trình này đã đoạt giải nhất Giải thưởng sáng tạo khoa học kỹ thuật Việt Nam năm 2008 (Vifotec 2008) và được Ban tổ chức đề cử để tham gia giải thưởng VIPO của Tổ chức Sở hữu trí tuệ thế giới.
Giáo sư Nguyễn Văn Lợi, nguyên Viện phó Viện ngôn ngữ Việt Nam cho biết, việc sự dụng phần mềm để kiểm tra lỗi chính tả trên máy tính là rất khả quan và hoàn toàn có thể thực hiện được. Giáo sư Lợi cho biết, nếu phần mềm này được sử dụng rộng rãi thì không chỉ giúp người Việt chỉnh sửa được lỗi mà còn có thể đưa tiếng Việt đi xa hơn, giúp người nước ngoài học Viết tiếng Việt dễ dàng hơn.
Theo Đất Việt