Anthropic vừa phân tích 700.000 cuộc trò chuyện của Claude — và phát hiện AI của họ có quy tắc đạo đức riêng

Nghiên cứu đã xem xét 700.000 cuộc trò chuyện ẩn danh, phát hiện ra rằng Claude phần lớn duy trì khuôn khổ ” hữu ích, trung thực, vô hại ” của công ty trong khi điều chỉnh các giá trị của công ty cho các bối cảnh khác nhau — từ lời khuyên về mối quan hệ đến phân tích lịch sử. Đây là một trong những nỗ lực đầy tham vọng nhất nhằm đánh giá theo kinh nghiệm xem hành vi của hệ thống AI trong tự nhiên có phù hợp với thiết kế dự định của nó hay không.

“Chúng tôi hy vọng nghiên cứu này sẽ khuyến khích các phòng thí nghiệm AI khác tiến hành nghiên cứu tương tự về giá trị của mô hình của họ”, Saffron Huang, thành viên của nhóm Societal Impacts của Anthropic, người đã làm việc trong nghiên cứu này, cho biết trong một cuộc phỏng vấn với VentureBeat. “Đo lường các giá trị của hệ thống AI là cốt lõi của nghiên cứu căn chỉnh và hiểu được liệu một mô hình có thực sự phù hợp với quá trình đào tạo của nó hay không”.

Bên trong phân loại đạo đức toàn diện đầu tiên của một trợ lý AI

Nhóm nghiên cứu đã phát triển một phương pháp đánh giá mới để phân loại một cách có hệ thống các giá trị được thể hiện trong các cuộc trò chuyện thực tế của Claude. Sau khi lọc nội dung chủ quan, họ đã phân tích hơn 308.000 tương tác, tạo ra thứ mà họ mô tả là “phân loại thực nghiệm quy mô lớn đầu tiên về các giá trị AI”.

Phân loại này sắp xếp các giá trị thành năm loại chính: Thực tế, Nhận thức, Xã hội, Bảo vệ và Cá nhân. Ở cấp độ chi tiết nhất, hệ thống đã xác định được 3.307 giá trị duy nhất — từ các đức tính hàng ngày như tính chuyên nghiệp đến các khái niệm đạo đức phức tạp như chủ nghĩa đa nguyên về đạo đức.

“Tôi đã rất ngạc nhiên khi thấy chúng tôi đã có được một loạt các giá trị đa dạng và to lớn đến thế, hơn 3.000 giá trị, từ ‘tự lực’ đến ‘tư duy chiến lược’ đến ‘lòng hiếu thảo’”, Huang nói với VentureBeat. “Thật thú vị khi dành nhiều thời gian để suy nghĩ về tất cả các giá trị này và xây dựng một hệ thống phân loại để sắp xếp chúng theo mối quan hệ với nhau — tôi cảm thấy như nó cũng dạy cho tôi điều gì đó về hệ thống giá trị của con người”.

Nghiên cứu này đến vào thời điểm quan trọng đối với Anthropic, công ty gần đây đã ra mắt “ Claude Max ”, một gói đăng ký cao cấp trị giá 200 đô la hàng tháng nhằm cạnh tranh với dịch vụ tương tự của OpenAI. Công ty cũng đã mở rộng khả năng của Claude để bao gồm tích hợp Google Workspace và các chức năng nghiên cứu tự động, định vị nó là “một cộng tác viên ảo thực sự” cho người dùng doanh nghiệp, theo các thông báo gần đây.

Claude theo dõi quá trình đào tạo của mình như thế nào — và các biện pháp bảo vệ AI có thể thất bại ở đâu

Nghiên cứu phát hiện ra rằng Claude thường tuân thủ các nguyện vọng thân thiện với xã hội của Anthropic, nhấn mạnh các giá trị như “cho phép người dùng”, “khiêm tốn về mặt nhận thức” và “hạnh phúc của bệnh nhân” trong các tương tác đa dạng. Tuy nhiên, các nhà nghiên cứu cũng phát hiện ra những trường hợp đáng lo ngại khi Claude thể hiện các giá trị trái ngược với quá trình đào tạo của mình.

“Nhìn chung, tôi nghĩ chúng ta thấy phát hiện này vừa là dữ liệu hữu ích vừa là cơ hội”, Huang giải thích. “Những phương pháp đánh giá và kết quả mới này có thể giúp chúng ta xác định và giảm thiểu các vụ bẻ khóa tiềm ẩn. Điều quan trọng cần lưu ý là đây là những trường hợp rất hiếm và chúng tôi tin rằng điều này liên quan đến các kết quả bẻ khóa từ Claude”.

Những bất thường này bao gồm các biểu hiện của “sự thống trị” và “vô đạo đức” — những giá trị mà Anthropic rõ ràng muốn tránh trong thiết kế của Claude. Các nhà nghiên cứu tin rằng những trường hợp này là do người dùng sử dụng các kỹ thuật chuyên biệt để vượt qua các rào chắn an toàn của Claude, cho thấy phương pháp đánh giá có thể đóng vai trò là hệ thống cảnh báo sớm để phát hiện những nỗ lực như vậy.

Tại sao trợ lý AI thay đổi giá trị của chúng tùy thuộc vào những gì bạn yêu cầu

Có lẽ điều hấp dẫn nhất là khám phá rằng các giá trị được Claude thể hiện thay đổi theo ngữ cảnh, phản ánh hành vi của con người. Khi người dùng tìm kiếm sự hướng dẫn về mối quan hệ, Claude nhấn mạnh “ranh giới lành mạnh” và “tôn trọng lẫn nhau”. Đối với phân tích sự kiện lịch sử, “độ chính xác về mặt lịch sử” được ưu tiên.

“Tôi đã rất ngạc nhiên khi Claude tập trung vào sự trung thực và chính xác trong nhiều nhiệm vụ đa dạng, trong khi tôi không nhất thiết mong đợi chủ đề đó là ưu tiên hàng đầu”, Huang cho biết. “Ví dụ, ‘sự khiêm tốn về mặt trí tuệ’ là giá trị hàng đầu trong các cuộc thảo luận triết học về AI, ‘chuyên môn’ là giá trị hàng đầu khi tạo nội dung tiếp thị cho ngành làm đẹp và ‘tính chính xác về mặt lịch sử’ là giá trị hàng đầu khi thảo luận về các sự kiện lịch sử gây tranh cãi”.

Nghiên cứu cũng xem xét cách Claude phản ứng với các giá trị mà người dùng tự thể hiện. Trong 28,2% cuộc trò chuyện, Claude ủng hộ mạnh mẽ các giá trị của người dùng — có khả năng gây ra câu hỏi về sự dễ chịu quá mức. Tuy nhiên, trong 6,6% tương tác, Claude đã “định hình lại” các giá trị của người dùng bằng cách thừa nhận chúng trong khi thêm các góc nhìn mới, thường là khi cung cấp lời khuyên về tâm lý hoặc giữa các cá nhân.

Đáng chú ý nhất là trong 3% các cuộc trò chuyện, Claude chủ động phản đối các giá trị của người dùng. Các nhà nghiên cứu cho rằng những trường hợp phản kháng hiếm hoi này có thể tiết lộ “những giá trị sâu sắc nhất, bất di bất dịch nhất” của Claude — tương tự như cách các giá trị cốt lõi của con người xuất hiện khi đối mặt với những thách thức về đạo đức.

“Nghiên cứu của chúng tôi cho thấy có một số loại giá trị, như sự trung thực về mặt trí tuệ và phòng ngừa tác hại, mà Claude hiếm khi thể hiện trong các tương tác thường ngày, nhưng nếu bị thúc đẩy, anh ấy sẽ bảo vệ chúng”, Huang cho biết. “Cụ thể, chính những loại giá trị đạo đức và định hướng kiến thức này có xu hướng được diễn đạt và bảo vệ trực tiếp khi bị thúc đẩy”.

Các kỹ thuật đột phá tiết lộ cách các hệ thống AI thực sự suy nghĩ

Nghiên cứu về giá trị của Anthropic dựa trên những nỗ lực rộng lớn hơn của công ty nhằm giải mã các mô hình ngôn ngữ lớn thông qua cái mà công ty gọi là ” khả năng diễn giải cơ học ” – về cơ bản là kỹ thuật đảo ngược các hệ thống AI để hiểu cách thức hoạt động bên trong của chúng.

Tháng trước, các nhà nghiên cứu Anthropic đã công bố công trình mang tính đột phá sử dụng thứ mà họ mô tả là ” kính hiển vi ” để theo dõi quá trình ra quyết định của Claude. Kỹ thuật này đã tiết lộ những hành vi phản trực giác, bao gồm cả việc Claude lập kế hoạch trước khi sáng tác thơ và sử dụng các phương pháp giải quyết vấn đề không theo quy ước cho toán học cơ bản.

Những phát hiện này thách thức các giả định về cách thức hoạt động của các mô hình ngôn ngữ lớn. Ví dụ, khi được yêu cầu giải thích quá trình toán học của nó, Claude đã mô tả một kỹ thuật chuẩn thay vì phương pháp nội bộ thực tế của nó — tiết lộ cách các giải thích của AI có thể khác với các hoạt động thực tế.

“Đó là một quan niệm sai lầm rằng chúng ta đã tìm thấy tất cả các thành phần của mô hình hoặc, giống như, góc nhìn của Chúa”, nhà nghiên cứu Anthropic Joshua Batson nói với MIT Technology Review vào tháng 3. “Một số thứ đã được tập trung, nhưng những thứ khác vẫn chưa rõ ràng — một sự biến dạng của kính hiển vi”.

Nghiên cứu của Anthropic có ý nghĩa gì đối với những người ra quyết định về AI của doanh nghiệp

Đối với những người ra quyết định kỹ thuật đang đánh giá các hệ thống AI cho tổ chức của họ, nghiên cứu của Anthropic đưa ra một số điểm chính. Đầu tiên, nghiên cứu cho thấy các trợ lý AI hiện tại có thể thể hiện các giá trị không được lập trình rõ ràng, đặt ra câu hỏi về sự thiên vị không mong muốn trong bối cảnh kinh doanh có rủi ro cao.

Thứ hai, nghiên cứu chứng minh rằng sự liên kết giá trị không phải là một đề xuất nhị phân mà tồn tại trên một phổ thay đổi theo bối cảnh. Sắc thái này làm phức tạp các quyết định áp dụng của doanh nghiệp, đặc biệt là trong các ngành được quản lý, nơi các hướng dẫn đạo đức rõ ràng là rất quan trọng.

Cuối cùng, nghiên cứu nhấn mạnh tiềm năng đánh giá có hệ thống các giá trị AI trong các triển khai thực tế, thay vì chỉ dựa vào thử nghiệm trước khi phát hành. Cách tiếp cận này có thể cho phép theo dõi liên tục sự trôi dạt hoặc thao túng về mặt đạo đức theo thời gian.

Huang cho biết: “Bằng cách phân tích các giá trị này trong các tương tác thực tế với Claude, chúng tôi muốn cung cấp sự minh bạch về cách các hệ thống AI hoạt động và liệu chúng có hoạt động như mong đợi hay không — chúng tôi tin rằng đây là chìa khóa cho sự phát triển AI có trách nhiệm”.

Anthropic đã công khai bộ dữ liệu giá trị của mình để khuyến khích nghiên cứu sâu hơn. Công ty, đã nhận được 14 tỷ đô la cổ phần từ Amazon và sự hỗ trợ bổ sung từ Google , dường như đang tận dụng tính minh bạch như một lợi thế cạnh tranh so với các đối thủ như OpenAI, công ty có vòng gọi vốn 40 tỷ đô la gần đây (bao gồm Microsoft là nhà đầu tư cốt lõi) hiện định giá công ty ở mức 300 tỷ đô la.

Anthropic đã công bố bộ dữ liệu giá trị của mình một cách công khai để khuyến khích nghiên cứu sâu hơn. Công ty này, được Amazon hỗ trợ 8 tỷ đô la và Google hơn 3 tỷ đô la , đang sử dụng tính minh bạch như một yếu tố khác biệt chiến lược so với các đối thủ cạnh tranh như OpenAI.

Trong khi Anthropic hiện duy trì mức định giá 61,5 tỷ đô la sau vòng gọi vốn gần đây, thì đợt huy động vốn mới nhất trị giá 40 tỷ đô la của OpenAI – bao gồm sự tham gia đáng kể từ đối tác lâu năm Microsoft – đã đẩy mức định giá của công ty lên 300 tỷ đô la .

Trong khi phương pháp luận của Anthropic cung cấp khả năng hiển thị chưa từng có về cách các hệ thống AI thể hiện giá trị trong thực tế, nó có những hạn chế. Các nhà nghiên cứu thừa nhận rằng việc xác định những gì được coi là thể hiện giá trị vốn mang tính chủ quan và vì bản thân Claude đã thúc đẩy quá trình phân loại, nên những thành kiến của riêng ông có thể đã ảnh hưởng đến kết quả.

Có lẽ quan trọng nhất là phương pháp này không thể được sử dụng để đánh giá trước khi triển khai vì nó đòi hỏi dữ liệu hội thoại thực tế đáng kể để hoạt động hiệu quả.

“Phương pháp này đặc biệt hướng đến việc phân tích một mô hình sau khi nó được phát hành, nhưng các biến thể của phương pháp này, cũng như một số hiểu biết mà chúng tôi có được khi viết bài báo này, có thể giúp chúng tôi nắm bắt các vấn đề về giá trị trước khi triển khai mô hình rộng rãi”, Huang giải thích. “Chúng tôi đã và đang nỗ lực xây dựng công trình này để thực hiện điều đó, và tôi rất lạc quan về điều đó!”

Khi các hệ thống AI trở nên mạnh mẽ và tự chủ hơn — với những bổ sung gần đây bao gồm khả năng nghiên cứu chủ đề độc lập của Claude và truy cập toàn bộ Google Workspace của người dùng — việc hiểu và thống nhất các giá trị của chúng ngày càng trở nên quan trọng.

“Các mô hình AI chắc chắn sẽ phải đưa ra các phán đoán về giá trị”, các nhà nghiên cứu kết luận trong bài báo của họ. “Nếu chúng ta muốn những phán đoán đó phù hợp với các giá trị của chính chúng ta (sau cùng, đó là mục tiêu chính của nghiên cứu căn chỉnh AI) thì chúng ta cần có cách kiểm tra các giá trị mà một mô hình thể hiện trong thế giới thực”.

Anthropic vừa phân tích 700.000 cuộc trò chuyện của Claude — và phát hiện AI của họ có quy tắc đạo đức riêng

Bên trong phân loại đạo đức toàn diện đầu tiên của một trợ lý AI

Claude theo dõi quá trình đào tạo của mình như thế nào — và các biện pháp bảo vệ AI có thể thất bại ở đâu

Tại sao trợ lý AI thay đổi giá trị của chúng tùy thuộc vào những gì bạn yêu cầu

Các kỹ thuật đột phá tiết lộ cách các hệ thống AI thực sự suy nghĩ

Nghiên cứu của Anthropic có ý nghĩa gì đối với những người ra quyết định về AI của doanh nghiệp

Cuộc đua mới nổi xây dựng các hệ thống AI chia sẻ các giá trị của con người

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi