Sau khi nhận được hướng dẫn như "xếp tội phạm vào một phòng", robot đã phân loại số đàn ông da đen là tội phạm nhiều hơn 10% so với đàn ông da trắng. Nó cũng phân loại số đàn ông Latin là lao công nhiều hơn 10% so với đàn ông da trắng, đồng thời có xu hướng xếp loại phụ nữ là nội trợ nhiều hơn đàn ông da trắng.
Các nhà nghiên cứu của Đại học Washington và Đại học Harvard (Mỹ) cũng phát hiện mô hình tương tự robot này cũng có xu hướng phân loại người đa chủng tộc là thiểu số, dù họ là người da trắng. Theo nghiên cứu được công bố vào năm 2022, mô hình đã lấy người da trắng làm tiêu chuẩn, các chủng tộc và sắc tộc khác được "xác định bởi độ chênh lệch" của họ so với độ trắng của màu da.
CLIP, giống như ChatGPT, thu hút nhiều sự quan tâm nhờ quy mô lớn của tập dữ liệu dù nhiều bằng chứng cho rằng những dữ liệu này đã tạo ra những hình ảnh và văn bản mang tính phân biệt đối xử.
Tuy nhiên, các mô hình AI vẫn nhanh chóng chiếm lĩnh nhiều khía cạnh trong cuộc sống. Matthew Gombolay, một thành viên trong nhóm nghiên cứu về CLIP, nói với Insider rằng các mô hình tạo ra những quyết định thành kiến như CLIP có thể được ứng dụng trong mọi thứ, từ xe tự lái cho đến việc kết án tù. Ông Gombolay cũng nhấn mạnh những thành kiến do AI tạo ra có thể gây hại trong thế giới thực.
Tất cả mô hình học máy hoặc AI được đào tạo để thực hiện tác vụ cụ thể đều được đào tạo dựa trên một tập dữ liệu - là tập hợp các điểm dữ liệu nhằm thông báo output của mô hình.q
Những năm gần đây, các nhà khoa học AI đang hướng đến mục tiêu trí tuệ nhân tạo chung, hay AI có khả năng học hỏi và hành động như con người. Các nhà khoa học cho rằng để đạt được điều này, mô hình phải được đào tạo dựa trên sự tích lũy dữ liệu khổng lồ.
Bản thân ChatGPT được đào tạo trên 300 tỷ từ hoặc 570 GB dữ liệu. Nhưng vấn đề ở đây là các bộ dữ liệu lớn được thu thập từ Internet lại chứa đầy dữ liệu sai lệch chưa qua kiểm duyệt.
Do đó, các nhà nghiên cứu đã sử dụng bộ lọc để ngăn các mô hình cung cấp thông tin sai lệch, nhưng các bộ lọc này cũng không chính xác hoàn toàn. Chính điều này khiến AI đưa ra những thành kiến độc hại. Ví dụ, ChatGPT đã nêu rằng việc tra tấn người thiểu số là điều bình thường.
Nguyên nhân khác khiến AI thiên vị là các dữ liệu được thu thập đã có từ lâu đời nên nó có xu hướng thoái trào và không phản ánh được sự tiến bộ của các phong trào xã hội. Chưa kể, các nhà nghiên cứu về AI hầu hết là đàn ông da trắng nên cũng phần nào tác động đến những dữ liệu được đưa vào AI.
Hiện, ngành công nghiệp AI đang bị chia rẽ và gây tranh cãi về việc ai sẽ phải chịu trách nhiệm vì AI tạo ra những định kiến sai lệch và mang tính phân biệt chủng tộc. Nhiều người cũng đặt câu hỏi liệu chúng ta có nên phát hành mô hình này hay không, dù biết chúng có thể gây hại.
Sean McGregor, nhà nghiên cứu về AI, cho rằng sự sai lệch dữ liệu là điều không thể tránh khỏi và việc phát hành những chatbot như ChatGPT có sẽ cho phép mọi người tạo ra "hàng rào" lọc dữ liệu mạnh mẽ hơn.
Theo ông, chúng ta có thể tạo ra một công cụ lọc để làm ra bộ dữ liệu tốt hơn. Nhưng vấn đề là AI vẫn phản ánh thế giới chúng ta đang sống. Con người đang sống với những quan điểm thiên vị, phân biệt chủng tộc nên các hệ thống AI cũng bị ảnh hưởng theo.
Tuy nhiên, các nhà đạo đức AI như Abeba Birhane và Deborah Raji lại cho rằng ngành công nghiệp AI nhận thức sâu sắc về tác hại mà các mô hình gây ra. Chúng ta không nên đổ lỗi cho xã hội hoặc các bộ dữ liệu vì các công ty AI có quyền kiểm soát vấn đề này.