Anthropic tung chương trình thưởng $15K cho ai bẻ khóa AI thế hệ mới

nautxplorer
11 Tháng 08 lúc 07:19
- Công Nghệ và Dự Án

Công ty trí tuệ nhân tạo Anthropic vừa thông báo ra mắt chương trình săn lỗi siêu hấp dẫn vào ngày 8 tháng 8, với phần thưởng lên đến $15,000 cho ai có thể “jailbreak” mô hình AI “thế hệ tiếp theo” chưa phát hành của họ.

Mô hình AI xịn nhất của Anthropic, Claude-3, là một hệ thống AI tạo sinh giống như ChatGPT của OpenAI và Gemini của Google. Để đảm bảo Claude và các mô hình khác hoạt động an toàn, họ thực hiện cái gọi là “red teaming.”

Red teaming

Red teaming cơ bản là việc cố ý phá vỡ một thứ gì đó. Với Claude, mục tiêu là tìm ra mọi cách mà nó có thể bị kích hoạt, thao túng hoặc bị làm phiền để tạo ra các đầu ra không mong muốn.

Trong các nỗ lực red teaming, các kỹ sư có thể diễn đạt lại câu hỏi hoặc thay đổi khung câu hỏi để lừa AI xuất ra thông tin mà nó đã được lập trình để tránh.

Ví dụ, một hệ thống AI được đào tạo trên dữ liệu thu thập từ internet có khả năng chứa thông tin nhận dạng cá nhân của nhiều người. Để đảm bảo an toàn, Anthropic đã đặt ra các rào cản để ngăn Claude và các mô hình khác xuất ra thông tin đó.

Khi các mô hình AI ngày càng mạnh mẽ và có khả năng bắt chước giao tiếp của con người, việc tìm ra mọi đầu ra không mong muốn trở nên thách thức hơn nhiều.

Bug bounty

Anthropic đã triển khai một số biện pháp an toàn mới trong các mô hình của mình, bao gồm mô hình “Constitutional AI,” nhưng luôn tốt khi có cái nhìn mới về một vấn đề lâu dài.

Theo một bài đăng trên blog của công ty, sáng kiến mới nhất của họ sẽ mở rộng các chương trình săn lỗi hiện có để tập trung vào các cuộc tấn công jailbreak phổ quát:

“Đây là những khai thác có thể cho phép vượt qua các rào cản an toàn AI một cách nhất quán trên nhiều lĩnh vực. Bằng cách nhắm mục tiêu vào các jailbreak phổ quát, chúng tôi nhằm giải quyết một số lỗ hổng quan trọng nhất trong các lĩnh vực có rủi ro cao như CBRN (hóa học, sinh học, phóng xạ và hạt nhân) và an ninh mạng.”

Công ty chỉ chấp nhận một số lượng người tham gia hạn chế và khuyến khích các nhà nghiên cứu AI có kinh nghiệm và những người “đã chứng minh được chuyên môn trong việc xác định jailbreak trong các mô hình ngôn ngữ” nộp đơn trước ngày 16 tháng 8.

Không phải ai nộp đơn cũng sẽ được chọn, nhưng công ty có kế hoạch “mở rộng sáng kiến này rộng rãi hơn trong tương lai.”

Những người được chọn sẽ nhận được quyền truy cập sớm vào mô hình AI “thế hệ tiếp theo” chưa phát hành cho mục đích red-teaming.

Chain Việt Nam

Anthropic tung chương trình thưởng $15K cho ai bẻ khóa AI thế hệ mới

Red teaming

Bug bounty

Xem thêm

Samsung nghiên cứu điện thoại mới với AI: Báo cáo

Singapore đầu tư 74,3 triệu USD vào công nghệ lượng tử và AI trong tài chính

Aethir và APhone tung giải pháp tăng quy mô 10 lần, giảm 90% chi phí cho người dùng di động