Hệ thống kiểm tra lỗi chính tả tiếng Việt nhanh, chính xác

27/08/2023, 07:26
Theo dõi Giáo dục Thủ đô trên

Deep Spelling được phát triển bởi nhóm tác giả là giảng viên và sinh viên Trường ĐH Tôn Đức Thắng (TPHCM).

PGS.TS Lê Anh Cường cho biết, chức năng của Deep Spelling rất đa dạng. Hệ thống có khả năng kiểm tra phát hiện ra 6 loại lỗi gồm chính tả, thiếu từ, thừa từ, viết hoa, viết thường, dấu thanh và khoảng trắng.

Nhóm nghiên cứu cung cấp 3 phương thức sử dụng thuận tiện cho người dùng. Có thể sử dụng trên web do nhóm cung cấp. Ngoài việc soạn thảo trực tiếp hoặc copy nội dung văn bản để kiểm tra chính tả, người dùng có thể upload file văn bản dạng Text, dạng MS Word, dạng Pdf (textual) hoặc là link của một trang web.

Hoặc có thể tích hợp với phần mềm soạn thảo trên máy tính thông qua dịch vụ cung cấp của nhóm nghiên cứu. Người dùng có thể sử dụng Deep Spelling trực tiếp trong MS Word, tiện lợi trong quá trình vừa soạn thảo vừa kiểm tra chính tả.

Hoặc có thể cài đặt hệ thống Deep Spelling trên server nội bộ (có thể trên từng máy nếu cấu hình máy đủ mạnh). Nhóm cung cấp một lựa chọn cho phép tổ chức sử dụng có thể cài đặt hệ thống trên server nội bộ để hoàn toàn bảo mật về dữ liệu.

Để so sánh kết quả thực nghiệm, nhóm nghiên cứu sử dụng hai chỉ tiêu là dự đoán từ lỗi, sửa và thay thế từ có lỗi. Với mỗi chỉ tiêu, nhóm sử dụng 3 độ đo là Precision, Recall và F-score.

Tập dữ liệu dùng để đánh giá là tập dữ liệu VSEC (VSEC2021/VSEC (github.com), được lấy ngẫu nhiên từ 618 tài liệu có lỗi chính tả trên trang tailieu.vn. Tập dữ liệu bao gồm 9.341 câu, trong đó có 11.202 lỗi chính tả thuộc 4.582 loại lỗi chính tả khác nhau.

Nhóm so sánh kết quả của Deep Spelling với 2 mô hình của nghiên cứu trên bao gồm VSEC và N-gram. Hệ thống VSEC của họ cũng sử dụng mô hình dựa trên Transformer, còn mô hình N-gram là theo tiếp cận dựa trên thống kê và luật.

“Kết quả của chúng tôi vượt trội trên hầu hết các chỉ tiêu, với độ đo F-score (tức độ đo tổng hợp) hơn từ 6 - 7% cho cả chỉ số detection (phát hiện lỗi) và correction (sửa lỗi). Một chi tiết thú vị là chỉ số Recall của chúng tôi vượt rất nhiều, hơn 12% ở nhiệm vụ detection và 13% ở nhiệm vụ correction. Điều này chứng tỏ Deep Spelling có khả năng phát hiện ra nhiều lỗi hơn, sửa được nhiều lỗi hơn trong khi vẫn đảm bảo độ chính xác cao”, PGS.TS Lê Anh Cường chia sẻ.

Để có nguồn dữ liệu cho hệ thống, nhóm của PGS.TS Lê Anh Cường đã thu thập số lượng văn bản tương đương khoảng 150 triệu câu, và sau đó sinh dữ liệu huấn luyện dựa trên các quy tắc và hiện tượng lỗi chính tả tiếng Việt. Nhóm nghiên cứu đã đưa hệ thống vào khảo sát một số bản tin trên một số trang web, tờ báo có uy tín ở Việt Nam. Thống kê được kết quả khả quan, những lỗi chính tả khó phát hiện đều được hệ thống nhận dạng một cách nhanh chóng.

Theo giaoducthoidai.vn
https://giaoducthoidai.vn/he-thong-kiem-tra-loi-chinh-ta-tieng-viet-nhanh-chinh-xac-post650920.html
Copy Link
https://giaoducthoidai.vn/he-thong-kiem-tra-loi-chinh-ta-tieng-viet-nhanh-chinh-xac-post650920.html
Bài liên quan

(0) Bình luận
Nổi bật Giáo dục thủ đô
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Hệ thống kiểm tra lỗi chính tả tiếng Việt nhanh, chính xác