Từ dữ liệu này, LLM phát triển sự hiểu biết tổng quát, thống kê về ngôn ngữ, các mô hình ngôn ngữ và thế giới — được mã hóa dưới dạng hàng tỷ tham số hoặc “cài đặt” trong một mạng lưới các nơ-ron nhân tạo (là các hàm toán học biến đổi dữ liệu đầu vào thành tín hiệu đầu ra).
Bằng cách tiếp xúc với tất cả dữ liệu đào tạo này, LLM học cách phát hiện và khái quát hóa các mẫu được phản ánh trong các tham số của tế bào thần kinh của họ. Ví dụ, từ “apple” thường xuất hiện gần các thuật ngữ liên quan đến thực phẩm, trái cây hoặc cây cối, và đôi khi là máy tính. Mô hình nhận ra rằng táo có thể có màu đỏ, xanh lá cây hoặc vàng, hoặc thậm chí đôi khi là các màu khác nếu bị thối hoặc hiếm, được viết là “apple” trong tiếng Anh và có thể ăn được. Kiến thức thống kê này ảnh hưởng đến cách mô hình phản hồi khi người dùng nhập lời nhắc — định hình đầu ra mà nó tạo ra dựa trên các liên kết mà nó “học được” từ dữ liệu đào tạo.
Nhưng vẫn còn một câu hỏi lớn – ngay cả đối với các nhà nghiên cứu AI -: bao nhiêu dữ liệu đào tạo của LLM được sử dụng để xây dựng các biểu diễn khái quát của các khái niệm và bao nhiêu dữ liệu được ghi nhớ nguyên văn hoặc lưu trữ theo cách giống hệt hoặc gần giống hệt dữ liệu gốc?
Điều này quan trọng không chỉ để hiểu rõ hơn về cách thức hoạt động của LLM — và khi chúng hoạt động sai — mà còn để các nhà cung cấp mô hình tự bảo vệ mình trong các vụ kiện vi phạm bản quyền do những người tạo và chủ sở hữu dữ liệu, chẳng hạn như nghệ sĩ và hãng thu âm, đệ trình. Nếu LLM được chứng minh là sao chép nguyên văn một phần đáng kể dữ liệu đào tạo của họ, tòa án có thể có nhiều khả năng đứng về phía nguyên đơn khi lập luận rằng các mô hình đã sao chép bất hợp pháp tài liệu được bảo vệ. Nếu không — nếu các mô hình được phát hiện tạo ra đầu ra dựa trên các mẫu tổng quát thay vì sao chép chính xác — các nhà phát triển có thể tiếp tục thu thập và đào tạo dữ liệu có bản quyền theo các biện pháp bảo vệ pháp lý hiện có như sử dụng hợp lý.
Bây giờ, cuối cùng chúng ta cũng có câu trả lời cho câu hỏi LLM ghi nhớ bao nhiêu so với khái quát hóa: một nghiên cứu mới được công bố trong tuần này từ các nhà nghiên cứu tại Meta, Google DeepMind, Đại học Cornell và NVIDIA phát hiện ra rằng các mô hình kiểu GPT có khả năng ghi nhớ cố định khoảng 3,6 bit cho mỗi tham số .
Để hiểu ý nghĩa của 3,6 bit trong thực tế:
- Một bit là đơn vị dữ liệu số nhỏ nhất, biểu diễn số 0 hoặc số 1. Tám bit tạo thành một byte.
- Lưu trữ 3,6 bit cho phép lưu trữ khoảng 12,13 giá trị riêng biệt, được tính theo 2^3,6.
- Đây là lượng thông tin cần thiết để chọn một trong 12 lựa chọn—tương tự như việc chọn một tháng trong năm hoặc kết quả của một lần tung xúc xắc 12 mặt.
- Lưu trữ một chữ cái tiếng Anh (cần khoảng 4,7 bit) là không đủ, nhưng lại đủ để mã hóa một ký tự từ một tập hợp rút gọn gồm 10 chữ cái tiếng Anh thông dụng (cần khoảng 3,32 bit).
- Tính theo byte, 3,6 bit bằng 0,45 byte—nhỏ hơn một nửa kích thước của một ký tự thông thường được lưu trữ trong ASCII (sử dụng 8 bit hoặc 1 byte).
Con số này không phụ thuộc vào mô hình trong phạm vi các biến thể kiến trúc hợp lý: các độ sâu, chiều rộng và độ chính xác khác nhau tạo ra kết quả tương tự. Ước tính này giữ nguyên ở mọi kích thước mô hình và thậm chí là các mức độ chính xác, với các mô hình có độ chính xác đầy đủ đạt giá trị cao hơn một chút (lên đến 3,83 bit/tham số).
Nhiều dữ liệu đào tạo hơn KHÔNG dẫn đến ghi nhớ nhiều hơn — trên thực tế, một mô hình sẽ ít có khả năng ghi nhớ bất kỳ điểm dữ liệu đơn lẻ nào
Một điểm chính rút ra từ nghiên cứu là các mô hình không ghi nhớ nhiều hơn khi được đào tạo trên nhiều dữ liệu hơn. Thay vào đó, khả năng cố định của mô hình được phân bổ trên toàn bộ tập dữ liệu, nghĩa là mỗi điểm dữ liệu riêng lẻ nhận được ít sự chú ý hơn.
Jack Morris, tác giả chính, giải thích qua mạng xã hội X rằng “việc đào tạo trên nhiều dữ liệu hơn sẽ buộc các mô hình phải ghi nhớ ít hơn trên mỗi mẫu”.
Những phát hiện này có thể giúp giảm bớt lo ngại về việc các mô hình lớn ghi nhớ nội dung có bản quyền hoặc nhạy cảm.
Nếu ghi nhớ bị giới hạn và pha loãng qua nhiều ví dụ, khả năng tái tạo bất kỳ ví dụ đào tạo cụ thể nào sẽ giảm. Về bản chất, nhiều dữ liệu đào tạo hơn dẫn đến hành vi khái quát hóa an toàn hơn, không phải tăng rủi ro.
Các nhà nghiên cứu đã xác định những phát hiện này như thế nào
Để định lượng chính xác lượng ngôn ngữ mà các mô hình ghi nhớ, các nhà nghiên cứu đã sử dụng một phương pháp tiếp cận không theo quy ước nhưng mạnh mẽ: họ đào tạo các mô hình biến đổi trên các tập dữ liệu bao gồm các chuỗi bit ngẫu nhiên đồng đều . Mỗi chuỗi bit này được lấy mẫu độc lập, đảm bảo không có mẫu, cấu trúc hoặc sự dư thừa nào tồn tại trong các ví dụ.
Vì mỗi mẫu là duy nhất và không có các đặc điểm chung nên bất kỳ khả năng nào mà mô hình thể hiện trong việc tái tạo hoặc xác định các chuỗi này trong quá trình đánh giá đều phản ánh trực tiếp lượng thông tin mà mô hình lưu giữ hoặc ghi nhớ trong quá trình đào tạo.
Lý do chính cho thiết lập này là để loại bỏ hoàn toàn khả năng khái quát hóa. Không giống như ngôn ngữ tự nhiên—chứa đầy cấu trúc ngữ pháp, chồng chéo ngữ nghĩa và các khái niệm lặp lại—dữ liệu ngẫu nhiên đồng nhất không chứa thông tin như vậy. Về cơ bản, mọi ví dụ đều là nhiễu, không có mối quan hệ thống kê với bất kỳ ví dụ nào khác. Trong một kịch bản như vậy, bất kỳ hiệu suất nào của mô hình trên dữ liệu thử nghiệm phải hoàn toàn đến từ việc ghi nhớ các ví dụ đào tạo, vì không có mô hình phân phối nào để khái quát hóa.
Các tác giả cho rằng phương pháp của họ có lẽ là một trong số ít cách có nguyên tắc để tách biệt quá trình ghi nhớ khỏi việc học trong thực tế, bởi vì khi các LLM được đào tạo bằng ngôn ngữ thực, ngay cả khi họ tạo ra kết quả khớp với dữ liệu đào tạo, thì vẫn khó để biết liệu họ có ghi nhớ dữ liệu đầu vào hay chỉ suy ra cấu trúc cơ bản từ các mô hình mà họ đã quan sát.
Phương pháp này cho phép các nhà nghiên cứu lập bản đồ mối quan hệ trực tiếp giữa số lượng tham số mô hình và tổng thông tin được lưu trữ. Bằng cách tăng dần kích thước mô hình và đào tạo từng biến thể đến khi bão hòa, qua hàng trăm thí nghiệm trên các mô hình từ 500K đến 1,5 tỷ tham số, họ đã quan sát thấy kết quả nhất quán: 3,6 bit được ghi nhớ trên mỗi tham số , mà họ báo cáo là thước đo cơ bản về dung lượng bộ nhớ LLM.
Nhóm nghiên cứu cũng áp dụng phương pháp của họ vào các mô hình được đào tạo trên các tập dữ liệu thực tế. Khi được đào tạo trên văn bản, các mô hình thể hiện sự cân bằng giữa ghi nhớ và khái quát.
Các tập dữ liệu nhỏ hơn khuyến khích ghi nhớ nhiều hơn, nhưng khi kích thước tập dữ liệu tăng lên, các mô hình chuyển sang học các mẫu có thể khái quát hóa. Sự chuyển đổi này được đánh dấu bằng một hiện tượng được gọi là “giảm dần kép”, trong đó hiệu suất tạm thời giảm trước khi cải thiện khi khái quát hóa bắt đầu.
Nghiên cứu cũng xem xét cách độ chính xác của mô hình—so sánh đào tạo trong bfloat16 so với float32—ảnh hưởng đến khả năng ghi nhớ. Họ quan sát thấy sự gia tăng khiêm tốn từ 3,51 đến 3,83 bit trên mỗi tham số khi chuyển sang độ chính xác 32 bit đầy đủ. Tuy nhiên, mức tăng này thấp hơn nhiều so với việc tăng gấp đôi số bit khả dụng, ngụ ý lợi nhuận giảm dần từ độ chính xác cao hơn.
Dữ liệu duy nhất có nhiều khả năng được ghi nhớ hơn
Bài báo đề xuất một luật mở rộng liên hệ giữa năng lực của mô hình và quy mô tập dữ liệu với hiệu quả của các cuộc tấn công suy luận thành viên.
Các cuộc tấn công này cố gắng xác định xem một điểm dữ liệu cụ thể có phải là một phần của tập dữ liệu đào tạo của mô hình hay không. Nghiên cứu cho thấy các cuộc tấn công như vậy trở nên không đáng tin cậy khi kích thước tập dữ liệu tăng lên, hỗ trợ cho lập luận rằng đào tạo quy mô lớn giúp giảm rủi ro về quyền riêng tư.
Trong khi bài báo tập trung vào hành vi trong trường hợp trung bình, một số nhà nghiên cứu đã chỉ ra rằng một số loại dữ liệu nhất định, chẳng hạn như văn bản có phong cách hoặc độc đáo, vẫn có thể dễ ghi nhớ hơn.
Các tác giả thừa nhận hạn chế này và nhấn mạnh rằng phương pháp của họ được thiết kế để mô tả xu hướng chung chứ không phải các trường hợp ngoại lệ.
Tiến tới sự hiểu biết sâu sắc hơn của con người về LLM
Bằng cách đưa ra định nghĩa có nguyên tắc và định lượng về ghi nhớ, nghiên cứu này cung cấp cho các nhà phát triển và nhà nghiên cứu các công cụ mới để đánh giá hành vi của các mô hình ngôn ngữ. Điều này không chỉ giúp minh bạch mô hình mà còn giúp tuân thủ, bảo mật và các tiêu chuẩn đạo đức trong quá trình phát triển AI. Các phát hiện cho thấy rằng nhiều dữ liệu hơn—và không phải ít hơn—có thể là con đường an toàn hơn khi đào tạo các mô hình ngôn ngữ quy mô lớn.
Để đưa việc ghi nhớ toàn bộ mô hình vào đúng bối cảnh:
- Mô hình có 500K tham số có thể ghi nhớ khoảng 1,8 triệu bit hoặc 225 KB dữ liệu.
- Một mô hình có 1,5 tỷ tham số có thể chứa khoảng 5,4 tỷ bit hoặc 675 megabyte thông tin thô.
- Điều này không thể so sánh với lưu trữ tệp thông thường như hình ảnh (ví dụ: hình ảnh chưa nén 3,6 MB có khoảng 30 triệu bit), nhưng lại có ý nghĩa khi phân bổ trên các mẫu văn bản rời rạc.
Tôi không phải là luật sư hay chuyên gia pháp lý, nhưng tôi rất mong đợi những nghiên cứu như vậy sẽ được trích dẫn trong nhiều vụ kiện đang diễn ra giữa các nhà cung cấp AI và người tạo dữ liệu/chủ sở hữu quyền.