Nhóm của Lal đã tạo ra một công cụ gọi là NeuroPrompts, dùng một lời nhắc đầu vào đơn giản, như "cậu bé trên một con ngựa," và tự động tăng cường nó để tạo ra một bức ảnh đẹp hơn.
Để làm điều này, họ bắt đầu với một loạt các lời nhắc do những chuyên gia lời nhắc con người tạo ra. Sau đó, họ đã huấn luyện một mô hình ngôn ngữ để biến đổi các lời nhắc đơn giản thành các chuyên gia lời nhắc. Từ đó, họ đã sử dụng kỹ thuật học tăng cường để tối ưu hóa các lời nhắc này nhằm tạo ra những hình ảnh đẹp mắt hơn, khi được đánh giá bởi một mô hình học máy khác, PickScore, một công cụ đánh giá hình ảnh mới được phát triển gần đây.
Lại một lần, các lời nhắc tự động do mô hình AI tạo ra cũng thực hiện tốt hơn các chuyên gia lời nhắc được sử dụng làm điểm xuất phát ban đầu, ít nhất theo điểm số của PickScore. Lal không bất ngờ về điều này. "Con người chỉ làm điều đó bằng thử và sai. Nhưng giờ chúng tôi có một vòng lặp hoàn chỉnh, được tự động hóa hoàn toàn và được hoàn thành với học tăng cường… Đó là lý do tại sao chúng tôi có thể vượt trội hơn các kỹ sư lời nhắc con người".
Lal tin rằng khi các mô hình AI tạo sinh phát triển, việc phụ thuộc vào những lời nhắc kỳ quặc sẽ biến mất. "Tôi nghĩ điều quan trọng là những loại tối ưu hóa này phải được nghiên cứu và cuối cùng, chúng thực sự được tích hợp vào chính mô hình cơ sở để bạn không thực sự cần một bước kỹ thuật nhắc nhở phức tạp".
Các kỹ sư lời nhắc vẫn sẽ tồn tại - theo cách nào đó
Mặc dù vậy, ngay cả khi các lời nhắc được tự động hóa, các kỹ sư lời nhắc vẫn sẽ tồn tại – nhưng có thể dưới một cái tên khác - đó là nhận định của Tim Cramer, phó chủ tịch kỹ thuật phần mềm của Red Hat. Việc điều chỉnh các mô hình AI là một nỗ lực phức tạp, gồm nhiều giai đoạn và sẽ tiếp tục đòi hỏi con người tham gia trong tương lai gần.
Ông Cramer cho biết: "Tôi nghĩ các kỹ sư lời nhắc vẫn sẽ cần đến trong thời gian tới, giống như các nhà khoa học dữ liệu. Nhiệm vụ của họ không chỉ là đặt câu hỏi cho các LLM (mô hình ngôn ngữ lớn) mà còn đảm bảo câu trả lời hoàn chỉnh. Có rất nhiều việc cần phải có các kỹ sư thực sự mới có thể làm được".
Ông Austin Henley, cựu kỹ sư Microsoft về dự án Copilot, cho biết: "Rất dễ để tạo ra một nguyên mẫu. Cái khó là sản xuất ra nó". Kỹ thuật lời nhắc giống như một mảng ghép hình khổng lồ của một nguyên mẫu mà các kỹ sư đang xây dựng nên. Nhưng nếu muốn tạo ra một sản phẩm thương mại từ nguyên mẫu đó, các công ty cần đảm bảo độ tin cậy, an toàn, quyền riêng tư và khả năng tuân thủ - đây là các công việc mà máy móc hay phần mềm khó có thể thay thế con người.
Để hoàn thành các nhiệm vụ này, nhiều công ty lớn đang đặt ra chức danh mới cho công việc đó: Người Vận hành Mô hình Ngôn ngữ Lớn (Large Language Model Operations hay LLMOps). Nhiệm vụ của họ không chỉ thành thạo các lời nhắc mà còn thực hiện các nhiệm vụ cần thiết để triển khai sản phẩm. Thậm chí với tốc độ biến đổi nhanh như hiện tại, chức danh và nhiệm vụ của họ sẽ tiếp tục biến đổi trong tương lai, dù bản chất vẫn là người tương tác với các mô hình AI đó.
Ông Cramer nói: "Tôi không biết liệu chúng ta sẽ kết hợp nó với một loại công việc hoặc vai trò công việc khác hay không, nhưng tôi không nghĩ rằng những công việc này sẽ sớm biến mất. Và hoàn cảnh hiện tại đang quá điên rồ. Mọi thứ thay đổi quá nhiều. Chúng ta sẽ không thể hình dung được mọi thứ trong vài tháng nữa".