Hệ thống kiểm tra lỗi chính tả tiếng Việt nhanh, chính xác

27/08/2023, 07:26
Theo dõi Giáo dục Thủ đô trên

Deep Spelling được phát triển bởi nhóm tác giả là giảng viên và sinh viên Trường ĐH Tôn Đức Thắng (TPHCM).

PGS.TS Lê Anh Cường cho biết, chức năng của Deep Spelling rất đa dạng. Hệ thống có khả năng kiểm tra phát hiện ra 6 loại lỗi gồm chính tả, thiếu từ, thừa từ, viết hoa, viết thường, dấu thanh và khoảng trắng.

Nhóm nghiên cứu cung cấp 3 phương thức sử dụng thuận tiện cho người dùng. Có thể sử dụng trên web do nhóm cung cấp. Ngoài việc soạn thảo trực tiếp hoặc copy nội dung văn bản để kiểm tra chính tả, người dùng có thể upload file văn bản dạng Text, dạng MS Word, dạng Pdf (textual) hoặc là link của một trang web.

Hoặc có thể tích hợp với phần mềm soạn thảo trên máy tính thông qua dịch vụ cung cấp của nhóm nghiên cứu. Người dùng có thể sử dụng Deep Spelling trực tiếp trong MS Word, tiện lợi trong quá trình vừa soạn thảo vừa kiểm tra chính tả.

Hoặc có thể cài đặt hệ thống Deep Spelling trên server nội bộ (có thể trên từng máy nếu cấu hình máy đủ mạnh). Nhóm cung cấp một lựa chọn cho phép tổ chức sử dụng có thể cài đặt hệ thống trên server nội bộ để hoàn toàn bảo mật về dữ liệu.

Để so sánh kết quả thực nghiệm, nhóm nghiên cứu sử dụng hai chỉ tiêu là dự đoán từ lỗi, sửa và thay thế từ có lỗi. Với mỗi chỉ tiêu, nhóm sử dụng 3 độ đo là Precision, Recall và F-score.

Tập dữ liệu dùng để đánh giá là tập dữ liệu VSEC (VSEC2021/VSEC (github.com), được lấy ngẫu nhiên từ 618 tài liệu có lỗi chính tả trên trang tailieu.vn. Tập dữ liệu bao gồm 9.341 câu, trong đó có 11.202 lỗi chính tả thuộc 4.582 loại lỗi chính tả khác nhau.

Nhóm so sánh kết quả của Deep Spelling với 2 mô hình của nghiên cứu trên bao gồm VSEC và N-gram. Hệ thống VSEC của họ cũng sử dụng mô hình dựa trên Transformer, còn mô hình N-gram là theo tiếp cận dựa trên thống kê và luật.

“Kết quả của chúng tôi vượt trội trên hầu hết các chỉ tiêu, với độ đo F-score (tức độ đo tổng hợp) hơn từ 6 - 7% cho cả chỉ số detection (phát hiện lỗi) và correction (sửa lỗi). Một chi tiết thú vị là chỉ số Recall của chúng tôi vượt rất nhiều, hơn 12% ở nhiệm vụ detection và 13% ở nhiệm vụ correction. Điều này chứng tỏ Deep Spelling có khả năng phát hiện ra nhiều lỗi hơn, sửa được nhiều lỗi hơn trong khi vẫn đảm bảo độ chính xác cao”, PGS.TS Lê Anh Cường chia sẻ.

Để có nguồn dữ liệu cho hệ thống, nhóm của PGS.TS Lê Anh Cường đã thu thập số lượng văn bản tương đương khoảng 150 triệu câu, và sau đó sinh dữ liệu huấn luyện dựa trên các quy tắc và hiện tượng lỗi chính tả tiếng Việt. Nhóm nghiên cứu đã đưa hệ thống vào khảo sát một số bản tin trên một số trang web, tờ báo có uy tín ở Việt Nam. Thống kê được kết quả khả quan, những lỗi chính tả khó phát hiện đều được hệ thống nhận dạng một cách nhanh chóng.

Theo giaoducthoidai.vn
https://giaoducthoidai.vn/he-thong-kiem-tra-loi-chinh-ta-tieng-viet-nhanh-chinh-xac-post650920.html
Copy Link
https://giaoducthoidai.vn/he-thong-kiem-tra-loi-chinh-ta-tieng-viet-nhanh-chinh-xac-post650920.html
Bài liên quan

(0) Bình luận
Nổi bật Giáo dục thủ đô
Đừng bỏ lỡ
Mới nhất
  • Sôi nổi các hoạt động kỉ niệm Ngày Nhà giáo Việt Nam 20/11
    2 giờ trước Giáo dục
    Những ngày qua, các trường học ở Hà Nội tổ chức nhiều hoạt động ý nghĩa cho cả thầy và trò để chào mừng Ngày Nhà giáo Việt Nam 20/11.
  • Tri ân đội ngũ nhà giáo và khẳng định vai trò then chốt của giáo dục
    3 giờ trước Giáo dục
    Nhân kỷ niệm 43 năm Ngày Nhà giáo Việt Nam (20/11/1982 - 20/11/2025), Thành phố Hồ Chí Minh và Cà Mau tổ chức hoạt động tri ân đội ngũ nhà giáo, khẳng định vai trò then chốt của giáo dục, định hướng mới cho sự nghiệp trồng người.
  • Những 'trái ngọt' trên hành trình đổi mới
    3 giờ trước Giáo dục
    Bằng tinh thần chủ động, sáng tạo và linh hoạt, đội ngũ cán bộ, giáo viên tỉnh Hưng Yên đang nỗ lực phấn đấu trong hành trình đổi mới căn bản, toàn diện giáo dục - đào tạo. Từ việc mạnh dạn ứng dụng công nghệ vào giảng dạy đến đổi mới phương pháp rèn kỹ năng ngôn ngữ cho học sinh, mỗi thầy cô đều là những người “gieo hạt mầm” thầm lặng trên cánh đồng tri thức. "Trái ngọt" của những đổi mới ấy không chỉ giúp nâng cao chất lượng dạy, học mà còn tạo nên những chuyển biến tích cực, bền vững của ngành giáo dục địa phương.
  • Cần bộ sách giáo khoa thống nhất trên toàn quốc chuẩn mực và không có lỗi
    3 giờ trước Chính sách giáo dục
    Theo đại biểu Quốc hội, để có 1 bộ sách giáo khoa thống nhất trên toàn quốc, cần có bộ sách giáo khoa thật tốt, chuẩn mực và không có lỗi.
  • Những người thắp sáng tương lai
    3 giờ trước Gương sáng
    Đó là những thầy cô có nhiều tâm huyết, giải pháp trong việc cảm hóa, giúp đỡ, giáo dục học sinh khó khăn, chưa chăm, chưa ngoan… để đường đến trường của các em bớt đi những gập ghềnh, gián đoạn.
POWERED BY ONECMS - A PRODUCT OF NEKO
Hệ thống kiểm tra lỗi chính tả tiếng Việt nhanh, chính xác