Hệ thống kiểm tra lỗi chính tả tiếng Việt nhanh, chính xác

27/08/2023, 07:26

Deep Spelling được phát triển bởi nhóm tác giả là giảng viên và sinh viên Trường ĐH Tôn Đức Thắng (TPHCM).

PGS.TS Lê Anh Cường cho biết, chức năng của Deep Spelling rất đa dạng. Hệ thống có khả năng kiểm tra phát hiện ra 6 loại lỗi gồm chính tả, thiếu từ, thừa từ, viết hoa, viết thường, dấu thanh và khoảng trắng.

Nhóm nghiên cứu cung cấp 3 phương thức sử dụng thuận tiện cho người dùng. Có thể sử dụng trên web do nhóm cung cấp. Ngoài việc soạn thảo trực tiếp hoặc copy nội dung văn bản để kiểm tra chính tả, người dùng có thể upload file văn bản dạng Text, dạng MS Word, dạng Pdf (textual) hoặc là link của một trang web.

Hoặc có thể tích hợp với phần mềm soạn thảo trên máy tính thông qua dịch vụ cung cấp của nhóm nghiên cứu. Người dùng có thể sử dụng Deep Spelling trực tiếp trong MS Word, tiện lợi trong quá trình vừa soạn thảo vừa kiểm tra chính tả.

Hoặc có thể cài đặt hệ thống Deep Spelling trên server nội bộ (có thể trên từng máy nếu cấu hình máy đủ mạnh). Nhóm cung cấp một lựa chọn cho phép tổ chức sử dụng có thể cài đặt hệ thống trên server nội bộ để hoàn toàn bảo mật về dữ liệu.

Để so sánh kết quả thực nghiệm, nhóm nghiên cứu sử dụng hai chỉ tiêu là dự đoán từ lỗi, sửa và thay thế từ có lỗi. Với mỗi chỉ tiêu, nhóm sử dụng 3 độ đo là Precision, Recall và F-score.

Tập dữ liệu dùng để đánh giá là tập dữ liệu VSEC (VSEC2021/VSEC (github.com), được lấy ngẫu nhiên từ 618 tài liệu có lỗi chính tả trên trang tailieu.vn. Tập dữ liệu bao gồm 9.341 câu, trong đó có 11.202 lỗi chính tả thuộc 4.582 loại lỗi chính tả khác nhau.

Nhóm so sánh kết quả của Deep Spelling với 2 mô hình của nghiên cứu trên bao gồm VSEC và N-gram. Hệ thống VSEC của họ cũng sử dụng mô hình dựa trên Transformer, còn mô hình N-gram là theo tiếp cận dựa trên thống kê và luật.

“Kết quả của chúng tôi vượt trội trên hầu hết các chỉ tiêu, với độ đo F-score (tức độ đo tổng hợp) hơn từ 6 - 7% cho cả chỉ số detection (phát hiện lỗi) và correction (sửa lỗi). Một chi tiết thú vị là chỉ số Recall của chúng tôi vượt rất nhiều, hơn 12% ở nhiệm vụ detection và 13% ở nhiệm vụ correction. Điều này chứng tỏ Deep Spelling có khả năng phát hiện ra nhiều lỗi hơn, sửa được nhiều lỗi hơn trong khi vẫn đảm bảo độ chính xác cao”, PGS.TS Lê Anh Cường chia sẻ.

Để có nguồn dữ liệu cho hệ thống, nhóm của PGS.TS Lê Anh Cường đã thu thập số lượng văn bản tương đương khoảng 150 triệu câu, và sau đó sinh dữ liệu huấn luyện dựa trên các quy tắc và hiện tượng lỗi chính tả tiếng Việt. Nhóm nghiên cứu đã đưa hệ thống vào khảo sát một số bản tin trên một số trang web, tờ báo có uy tín ở Việt Nam. Thống kê được kết quả khả quan, những lỗi chính tả khó phát hiện đều được hệ thống nhận dạng một cách nhanh chóng.

Theo giaoducthoidai.vn

Link bài gốcCopy Link https://giaoducthoidai.vn/he-thong-kiem-tra-loi-chinh-ta-tieng-viet-nhanh-chinh-xac-post650920.html

Copy Link

Link đã được copy https://giaoducthoidai.vn/he-thong-kiem-tra-loi-chinh-ta-tieng-viet-nhanh-chinh-xac-post650920.html

Bài liên quan

(0) Bình luận

Xếp theo:

Nổi bật Giáo dục thủ đô

Chính thức: Giáo viên Hà Nội chấm thi nhận cao nhất 1,2 triệu đồng/ngày

11 giờ trước Chính sách giáo dục

Ngày 11/5, HĐND TP Hà Nội chính thức thông qua nghị quyết quy định nội dung chi, mức chi cho công tác chuẩn bị và tổ chức các kỳ thi giáo dục phổ thông trên địa bàn.
Tử vi thứ 3 ngày 12/5/2026 của 12 con giáp: Tý hanh thông, Dần may mắn tiền bạc

8 giờ trước Horoscope

Tử vi hàng ngày 12/5/2026 cho biết nhờ Chính quan trợ mệnh, công việc của Tý hanh thông, có sự sáng tạo vượt bậc, thông minh, sáng dạ.
Con số may mắn hôm nay 12/5/2026 theo tuổi chọn số mang tin VUI lớn

8 giờ trước Horoscope

Con số may mắn hôm nay 12/5/2026 theo năm sinh hay con số may mắn theo 12 con giáp được chọn ra sao, đâu là con số giúp bạn nhanh đổi vận phát tài trong chớp mắt?
Được ví như “yêu nữ hàng hiệu”, Miu Lê từng lên kế hoạch mua penthouse 50 tỷ

10 giờ trước Pháp luật

Tôi sẽ mua một cái nhà to hơn căn hộ hiện tại. Tôi đặt mục tiêu là sẽ mua một căn penthouse với giá hơn 50 tỷ. Chắc khoảng hơn 3 năm làm việc chăm chỉ, không dùng tiền cho những việc linh tinh, tôi sẽ mua được”, cô chia sẻ.
Khánh Hòa hoàn thiện Đề án phát triển kinh tế tập thể giai đoạn 2026 - 2030

10 giờ trước Kinh tế - Xã hội

Đề án phát triển kinh tế tập thể Khánh Hòa hướng tới xây dựng hợp tác xã hiện đại, tăng liên kết sản xuất và phát triển bền vững.

Đừng bỏ lỡ

Thông tư mới về dạy thêm, học thêm chính thức được áp dụng từ 15/5

17 giờ trước Chính sách giáo dục

Trong tháng 5, nhiều chính sách mới liên quan tới giáo viên có hiệu lực, như giáo viên dạy thêm ngoài nhà trường phải báo cáo với hiệu trưởng, áp dụng chuẩn năng lực số mới.
Trường nghề trong bối cảnh mới: Tuyển sinh gắn liền tuyển dụng

18 giờ trước Tuyển sinh - du học

Theo các chuyên gia về giáo dục nghề nghiệp, để tuyển sinh gắn với tuyển dụng cần nhiều giải pháp đồng bộ từ thể chế tới sự chủ động của chính cơ sở đào tạo nghề.
Kỳ thi lớp 10 tại Hà Nội: Còn những lựa chọn khác ngoài trường công lập

19 giờ trước Tuyển sinh đầu cấp

Tiếp tục “nóng” như nhiều năm trở lại đây, kỳ tuyển sinh vào lớp 10 năm học 2026-2027 tại Hà Nội ghi nhận số lượng học sinh đăng ký dự thi ở mức cao so với chỉ tiêu được giao.
Giám đốc Công an Hải Phòng chỉ đạo điều tra vụ Miu Lê dương tính với ma túy

10 giờ trước Pháp luật

Giám đốc Công an Hải Phòng yêu cầu điều tra xử lý vụ nữ ca sĩ với nghệ danh Miu Lê cùng 5 người khác dương tính với ma túy.
Cục Điện ảnh: Xem xét phim có Miu Lê đang chiếu rạp

10 giờ trước Pháp luật

Cục trưởng Cục Điện ảnh lên tiếng về phim "Đại tiệc trăng máu 8" do Miu Lê đóng chính, sau khi nữ diễn viên bị bắt quả tang sử dụng trái phép chất ma túy tại Hải Phòng.

Mới nhất

Tin vui từ hôm nay cho người tham gia BHXH: Lương hưu có thể được cải thiện đáng kể?

10 giờ trước Pháp luật

Chính sách mới có hiệu lực từ hôm nay, ngày 10/5 được kỳ vọng trở thành kênh tích lũy thêm, giúp người lao động chủ động nguồn tài chính khi về già.
Vụ ồn ào của Miu Lê: Công an Thành phố Hải Phòng thông tin về địa điểm 6 đối tượng sử dụng ma túy

10 giờ trước Pháp luật

Chiều 11/5, Cổng thông tin điện tử Công an TP Hải Phòng đăng tải thông tin về vụ việc 6 người bị phát hiện có hành vi sử dụng trái phép chất ma túy tại khu vực bãi tắm Tùng Thu, trong đó có ca sĩ Miu Lê.
Hiện trường kinh hoàng vụ xe khách chở 12 người lao xuống vực sâu đèo An Khê

11 giờ trước Pháp luật

Sau va chạm với ô tô tải, xe khách lao xuống vực sâu khoảng hơn 30m bên Quốc lộ 19 địa phận Gia Lai. Thân xe khách dập nát, biến dạng.
Khánh Hòa yêu cầu không dạy trước chương trình lớp 1 dưới bất kỳ hình thức nào

11 giờ trước Chính sách giáo dục

Sở GD&ĐT Khánh Hòa yêu cầu các cơ sở mầm non bảo đảm an toàn hè 2026, đồng thời cấm dạy trước chương trình lớp 1.
Miu Lê hối tiếc!

11 giờ trước Thế giới Sao

Miu Lê từng hiếm hoi chia sẻ thẳng thắn về chuyện học tập của bản thân.