Phần mềm dịch ngôn ngữ hiếm của nhà khoa học Việt

24/11/2023, 11:48
Theo dõi Giáo dục Thủ đô trên

Các nhà khoa học Việt Nam vừa phát triển thành công phần mềm dịch ngôn ngữ hiếm, có thể dịch tự động tiếng Việt ra các ngôn ngữ khu vực Đông Nam Á.

Theo nhóm nghiên cứu, các ngôn ngữ như Lào, Thái và Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy. Không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa.

Mô hình của Viện Công nghệ thông tin đã “học” được cách “thích ứng” với tất cả những đặc điểm đặc biệt này của các ngôn ngữ nói trên, cho phép nhanh chóng bổ sung các ngôn ngữ khác khi cần với chất lượng dịch tương đương các sản phẩm tiên tiến của nước ngoài.

Điểm đặc biệt là phần mềm dịch đa ngữ này chạy riêng (on premise): Lưu trữ dữ liệu tại chỗ, không phải sử dụng API của hãng cung cấp dịch vụ, đảm bảo an ninh, an toàn và không lộ lọt thông tin cho bên thứ ba.

Tự động dịch thuật với nhiều định dạng

Theo nhóm nghiên cứu, trong giai đoạn 2022 - 2023, để tập trung vào một số hợp đồng với đối tác nước ngoài, hệ thống tập trung vào triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models - LLMs) vào việc ưu tiên các cặp ngôn ngữ: Việt - Khmer và Khmer - Việt; Việt - Lào và Lào - Việt; Việt - Thái và Thái - Việt; Việt - Indo và Indo - Việt; Việt - Malay và Malay - Việt. Với ngôn ngữ tiếng Anh (tài nguyên dữ liệu rất dồi dào và thế mạnh ưu tiên của Google), hệ thống đảm bảo chất lượng gần tương đương Google Translate.

Do hệ thống được nhóm nghiên cứu tự phát triển, dựa trên hạ tầng kỹ thuật hỗ trợ lưu trữ dữ liệu ngôn ngữ lớn và năng lực siêu tính toán trí tuệ nhân tạo/học máy (AI/ML) mạnh nhất Việt Nam trên dòng chip tiên tiến trên thế giới, Viện Công nghệ thông tin hoàn toàn làm chủ các công nghệ liên quan và dễ dàng mở rộng ứng dụng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái… và các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga… khi cần.

Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Hệ thống sử dụng công nghệ gồm học máy (Machine learning), công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing) hiện đại nhất tính đến thời điểm này để đạt được độ chính xác dịch thuật ở mức cao.

Hệ thống có khả năng cập nhật dữ liệu, tái huấn luyện mô hình nhằm nâng cao chất lượng dịch thuật, thích ứng với lĩnh vực chuyên môn của đơn vị. Hệ thống cho phép tự động dịch thuật với nhiều định dạng khác nhau, bao gồm dạng text (.txt), dạng file văn bản được số hóa (.rtf, .doc, .docx, .pdf, .html…) và giữ nguyên khuôn dạng (format) chính của các văn bản sau dịch.

Theo giaoducthoidai.vn
https://giaoducthoidai.vn/phan-mem-dich-ngon-ngu-hiem-cua-nha-khoa-hoc-viet-post662261.html
Copy Link
https://giaoducthoidai.vn/phan-mem-dich-ngon-ngu-hiem-cua-nha-khoa-hoc-viet-post662261.html
Bài liên quan

(0) Bình luận
Nổi bật Giáo dục thủ đô
Đừng bỏ lỡ
  • Trao quyền giải thể trường đại học cho Bộ trưởng Giáo dục
    7 giờ trước Chính sách giáo dục
    Quyền quyết định giải thể trường đại học được giao cho Bộ trưởng Giáo dục và Đào tạo, thay vì chỉ dừng hoạt động đào tạo hoặc giải thể phân hiệu như trước đây.
  • 'Hút nhân tài' bằng học bổng STEM
    7 giờ trước Chính sách giáo dục
    Tuyển sinh đại học năm 2026 có những chính sách mới hỗ trợ người học STEM. Bộ GD&ĐT đang trình Chính phủ học bổng mới cho khối ngành này.
  • Vì sao đại học quyết định năng lực công nghệ lõi của quốc gia?
    13 giờ trước Giáo dục
    Trong bối cảnh Nghị quyết số 71-NQ/TW và Nghị quyết số 57-NQ/TW đặt ra yêu cầu phát triển nguồn nhân lực và năng lực công nghệ như những trụ cột chiến lược, câu hỏi không còn là Việt Nam cần công nghệ gì, mà là phải bắt đầu từ đâu để không tiếp tục lặp lại vòng luẩn quẩn “nghiên cứu xong rồi để đó”. Theo GS.TSKH Nguyễn Đình Đức, Trường Đại học Công nghệ, ĐHQGHN, điểm xuất phát cần được đặt lại: từ những bài toán lớn của quốc gia.
  • GS đoạt giải Nobel đầu quân cho đại học Trung Quốc
    6 giờ trước Giáo dục bốn phương
    Hartmut Michel, nhà hóa sinh 77 tuổi người Đức từng đoạt giải Nobel, vừa trở thành giảng viên cơ hữu tại một trong những bệnh viện thực hành hàng đầu vùng Đông Bắc Trung Quốc.
  • Gen Z lan tỏa tình yêu lịch sử
    6 giờ trước Giáo dục
    Trong bối cảnh công nghệ và các xu hướng mới liên tục định hình lối sống, Lịch sử - môn học từng bị xem là “khô khan” tưởng như ngày càng xa rời giới trẻ. Tuy nhiên, từ lớp học chuyên, các câu lạc bộ học thuật đến không gian mạng, nhiều bạn trẻ vẫn nuôi dưỡng tình yêu với lịch sử theo cách riêng. Với họ, lịch sử không chỉ là những con số, mốc thời gian mà còn là nguồn cảm hứng, bài học và nền tảng để hiểu hiện tại, định hình tương lai.
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Phần mềm dịch ngôn ngữ hiếm của nhà khoa học Việt