Dùng AI biến giọng nói thành văn bản

Nhật Phong | 25/11/2022, 06:36
Theo dõi Giáo dục Thủ đô trên

Giải pháp chuyên chuyển đổi giọng nói thành văn bản sử dụng công nghệ AI để tạo ra văn bản chính xác.

Biến băng ghi âm thành văn bản, chỉnh sửa lỗi chính tả, xuất file hoàn chỉnh là sản phẩm của công nghệ AI.

Thay thế hoàn toàn ghi chép truyền thống

Xả băng ghi âm truyền thống là việc nghe và đánh máy, ghi chép thủ công lại tập tin ghi âm. Công việc ngồi nghe băng ghi âm hàng giờ và viết lại thành văn bản phức tạp và có nhiều điểm hạn chế: Tốn nhiều thời gian, thời lượng ghi âm dài gây khó khăn trong việc nghe lại các đoạn âm thanh từng phần của biên bản. Do vậy, việc ra một biên bản xả băng hoàn chỉnh mất nhiều thời gian, kéo theo các tiến độ công việc khác bị chậm trễ.

 Trong các doanh nghiệp, công việc xả băng ghi âm ở các cuộc họp sẽ được nhóm thư ký xử lý. Khi đó, với tốc độ nói 100 – 250 từ/phút và tốc độ gõ 50 – 70 từ/phút sẽ tốn nhiều thời gian để ghi chép, chuyển đổi thành văn bản.

Sau đó là công đoạn rà soát lại nội dung, thư ký sẽ nghe toàn bộ file ghi âm kết hợp với dò văn bản một lần nữa để bảo đảm tính chính xác của văn bản chuyển đổi. Do mất nhiều thời gian và công đoạn, biên bản sẽ ra chậm, đôi khi cuộc họp chỉ 1 giờ nhưng 2 ngày sau mới có biên bản hoàn chỉnh.

Giải pháp chuyên chuyển đổi giọng nói thành văn bản sử dụng công nghệ AI để tạo ra văn bản chính xác. Giải pháp ứng dụng trong nhiều lĩnh vực như: Họp hành (lãnh đạo, thư ký ghi âm lại các buổi họp), phỏng vấn (nhà báo, luật sư, nhà tuyển dụng ghi âm lại các sự kiện, cuộc phỏng vấn), học tập (học sinh, sinh viên ghi âm lời thầy cô giảng bài), sáng tạo nội dung (người làm truyền thông YouTube/Podcasts ghi âm làm phụ đề video), sáng tác (nhà văn, nhà nghiên cứu ghi âm ngay khi vừa nảy ra ý tưởng).

Ngoài chức năng chuyển đổi giọng nói thành văn bản trong thời gian thực, còn cung cấp nhiều tính năng khác. Trực tiếp tham gia và ghi âm cuộc họp Meet, Zoom, Teams; Phân chia dữ liệu theo năm tháng và chủ đề; Tự động nhận biết và ngắt đoạn từng lời nói của nhiều người khác nhau; Hỗ trợ chuyển đổi các tệp âm thanh có định dạng khác nhau; Đồng bộ dữ liệu giữa điện thoại và website (memobot.io), có mặt ở cả hai phiên bản Android và iOS.

Tự động ngắt phân đoạn theo thời gian thực

Điểm nổi bật là hỗ trợ tự động tạo phụ đề và ngắt đoạn từng lời của nhiều người khác nhau trong thời gian thực, giúp tiết kiệm tối đa thời gian xử lý băng ghi âm, trong khi xả băng ghi âm truyền thống phải nghe và viết lại thủ công, tự ngắt phân đoạn thời gian và phân biệt từng người nói. Bên cạnh đó,

Memobot cũng hỗ trợ đăng tải và xuất văn bản chuyển đổi ra các loại tệp có định dạng khác nhau, xử lý toàn bộ các công đoạn trên trong thời gian thực, chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, từ nào sai thì chỉ cần gõ lại từ đó chứ không cần gõ lại toàn bộ nội dung.

Mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Người dùng dễ dàng nắm bắt và chia sẻ cho người khác, do đó, các cá nhân và doanh nghiệp khác cũng có thể tiếp nhận thông tin từ dữ liệu đã được lưu trữ lại. Từ đó, doanh nghiệp, cá nhân giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu.

Với ứng dụng này, người dùng có thể chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, chỉ cần gõ lại từ mà Al nhận diện sai, không cần gõ lại toàn bộ nội dung. Ngoài ra người dùng có thể sửa trực tiếp vào văn bản nếu thấy phần dịch của Memobot chưa được chính xác hay muốn bổ sung nội dung mới khi phần thu âm trước đó chưa đề cập đến nội dung đó.

Để đánh dấu phần ghi âm, người dùng tô đen phần chữ trong văn bản, Memobot sẽ đồng bộ phần tô đen giống với phần ghi âm, khi đó chỉ cần nhấp vào phần chữ tô đen thì phần thu âm giọng nói sẽ tự động phát đến đoạn tương ứng với dòng chữ đó.

Sau khi kết thúc quá trình chuyển đổi file ghi âm, Al hỗ trợ tải bản ghi qua nhiều định dạng khác nhau từ tệp word (doc), tệp âm thanh (mp3), tệp văn bản (txt), tệp phụ đề (srt)… và chia sẻ trực tiếp bản ghi thông qua những ứng dụng khác nhau như Instagram, Facebook, Zalo, Gmail, Drive, Twitter….

Bài liên quan
Đề xuất giải pháp ứng dụng công nghệ mới trong công trình xanh
Ngày 11/11, Trường ĐH Sư phạm Kỹ thuật, ĐH Đà Nẵng tổ chức Hội thảo khoa học quốc tế Ứng dụng công nghệ mới trong công trình xanh. 

(0) Bình luận
Nổi bật Giáo dục thủ đô
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Dùng AI biến giọng nói thành văn bản