Theo PGS.TS Đinh Điền, với công nghệ học máy, máy có thể “tự học” được cách chọn (suy đoán) chữ Quốc ngữ phù hợp với từng chữ Nôm thông qua ngữ cảnh trong rất nhiều các bản dịch Nôm - Quốc ngữ trước đó của con người.
Do đó, nếu hệ thống “dạy” cho máy tính bằng cách cung cấp (đưa vào kho ngữ liệu huấn luyện) cho máy càng nhiều bản dịch Nôm - Quốc ngữ chuẩn, thì máy sẽ càng “thông minh” hơn và cho kết quả dịch chính xác hơn.
“Khó khăn lớn nhất trong việc chuyển tự chữ Nôm sang chữ Quốc ngữ chính là việc chọn chữ Quốc ngữ đúng trong số các chữ Quốc ngữ khả dĩ của chữ Nôm đó. Việc chọn lựa này phụ thuộc vào ngữ cảnh, thể loại, lĩnh vực và cả vào niên đại.
Hệ thống hiện hữu chỉ mới chọn chữ Quốc ngữ theo ngữ cảnh có trong tập ngữ liệu huấn luyện mà tập huấn luyện này lại được huấn luyện chung (lẫn lộn thể loại, lĩnh vực, niên đại). Vì vậy, trong mô hình đề xuất, chúng tôi phân chia tập huấn luyện, cũng như mô hình ngôn ngữ theo thể loại và lĩnh vực” - PGS.TS Đinh Điền cho biết thêm.
Để huấn luyện máy học và xây dựng mô hình ngôn ngữ, trong công trình nghiên cứu vừa được nghiệm thu này, PGS.TS Đinh Điền và cộng sự đã xây dựng ngữ liệu cho lĩnh vực văn học, đời sống và tôn giáo.
“Mỗi lĩnh vực có những vốn từ khác nhau, giúp chúng ta giới hạn lại miền/lĩnh vực lựa chọn chữ Quốc ngữ (trong trường hợp chữ Nôm đa trị) để nâng cao khả năng chọn đúng được chữ Quốc ngữ tương ứng”, PGS.TS Đinh Điền phân tích.
Ngoài ra, nhóm nghiên cứu chủ động sử dụng thêm ngữ liệu chữ Quốc ngữ ở bên ngoài (rất lớn, hàng triệu câu) và đã được phân chia theo thể loại và lĩnh vực nói trên để huấn luyện cho mô hình ngôn ngữ N-gram của chữ Quốc ngữ ở đầu ra nhằm nâng cao khả năng chọn đúng chữ Quốc ngữ theo tính tự nhiên nhất của ngôn ngữ.
Vì nguyên tắc của học máy là nếu chúng ta huấn luyện cho máy tính hiểu được/biết được ngữ liệu thuộc thể loại, lĩnh vực nào thì máy sẽ dịch tốt hơn với những văn bản thuộc thể loại hay lĩnh vực đó.
Người sử dụng muốn dịch văn bản thể loại hay lĩnh vực nào, chỉ cần chọn (trên trình đơn) thể loại hay lĩnh vực muốn dịch để máy tính lựa chọn kiến thức đã học phù hợp với thể loại hay lĩnh vực mà máy đã được huấn luyện.
PGS.TS Đinh Điền và nhóm cộng sự đã xây dựng thành công mô hình ngôn ngữ và mô hình dịch trên những ngữ liệu thu thập được, đồng thời hoàn thiện thử nghiệm website hỗ trợ chuyển tự (dịch) tự động từ chữ Nôm sang chữ Quốc ngữ, và bộ công cụ “dịch máy” này cũng đã được nhóm triển khai nhiệm vụ trình diễn.
Tháng 4/2023, Trường Đại học Khoa học Tự nhiên và nhóm nghiên cứu đã đưa hệ thống chuyển tự chữ Nôm nói trên lên website chính thức của trường (https://tools.clc.hcmus.edu.vn/) nhằm phục vụ nhu cầu tra cứu của đông đảo người dân, các nhà khoa học và các tổ chức, doanh nghiệp.
Nhóm nghiên cứu đang tiếp tục phát triển thêm khối (module) nhận dạng văn bản ảnh (bằng cách chụp hình chữ Nôm thay vì phải gõ vào hay dán vào) hay còn gọi là OCR (Optical Character Recognization).
Khối nhận dạng này sẽ được tích hợp vào hệ thống chuyển tự hiện nay để qua đó du khách có thể dịch nội dung của các tài liệu, hình ảnh (liễn, câu đối, bia) được viết bằng chữ Nôm thường thấy ở các khu di tích, đền đài… chỉ bằng camera của điện thoại di động.