OpenAI ra mắt bản xem trước nghiên cứu của tác nhân kỹ thuật phần mềm Codex AI dành cho các nhà phát triển

Không giống như mô hình AI hoàn thiện mã Codex trước đây của OpenAI, phiên bản mới là một tác nhân kỹ thuật phần mềm AI (SWE) hoàn chỉnh dựa trên nền tảng đám mây được xây dựng trên phiên bản tinh chỉnh của mô hình suy luận o3 của OpenAI có thể thực hiện nhiều tác vụ phát triển song song.

Bắt đầu từ hôm nay, tính năng này sẽ khả dụng cho người dùng ChatGPT Pro, Enterprise và Team, dự kiến sẽ sớm hỗ trợ người dùng Plus và Edu.

Sự phát triển của Codex: từ mô hình đến tác nhân mã hóa AI tự động

Bản phát hành này đánh dấu bước tiến đáng kể trong quá trình phát triển Codex. Codex ban đầu ra mắt vào năm 2021 như một mô hình dịch ngôn ngữ tự nhiên thành mã có sẵn thông qua giao diện lập trình ứng dụng mới ra đời của OpenAI.

Đây là công cụ đằng sau GitHub Copilot , trợ lý mã hóa theo phong cách tự động hoàn thành phổ biến được thiết kế để hoạt động trong các IDE như Visual Studio Code.

Lần lặp lại ban đầu đó tập trung vào việc tạo và hoàn thiện mã, được đào tạo trên hàng tỷ dòng mã nguồn công khai.

Tuy nhiên, phiên bản đầu tiên có những hạn chế. Nó dễ mắc lỗi cú pháp , đề xuất mã không an toàn và thiên vị nhúng trong dữ liệu đào tạo. Codex đôi khi đề xuất mã đúng hời hợt nhưng không hoạt động và trong một số trường hợp, tạo ra các liên kết có vấn đề dựa trên lời nhắc.

Bất chấp những sai sót đó, nó đã cho thấy đủ triển vọng để thiết lập các công cụ mã hóa AI như một danh mục sản phẩm phát triển nhanh chóng. Theo người phát ngôn của OpenAI, mô hình ban đầu đó đã bị loại bỏ và trở thành tên của một bộ sản phẩm mới.

GitHub Copilot chính thức chuyển đổi khỏi mô hình Codex của OpenAI vào tháng 3 năm 2023, áp dụng GPT-4 như một phần của bản nâng cấp Copilot X để cho phép tích hợp IDE sâu hơn , khả năng trò chuyện và đề xuất mã có nhận thức theo ngữ cảnh hơn.

Tầm nhìn của Agentic

Codex mới vượt xa phiên bản tiền nhiệm của nó. Hiện được xây dựng để hoạt động tự động trong thời gian dài hơn, Codex có thể viết các tính năng, sửa lỗi, trả lời các câu hỏi cụ thể về cơ sở mã, chạy thử nghiệm và đề xuất các yêu cầu kéo—mỗi tác vụ chạy trong một hộp cát đám mây an toàn và biệt lập.

Thiết kế phản ánh tham vọng lớn hơn của OpenAI là vượt ra ngoài phạm vi câu trả lời nhanh chóng và hướng tới công việc cộng tác.

Josh Tobin, người đứng đầu Nhóm nghiên cứu tác nhân tại OpenAI, cho biết trong một cuộc họp báo gần đây: “Chúng tôi coi các tác nhân là hệ thống AI có thể hoạt động thay mặt bạn trong thời gian dài hơn để hoàn thành khối lượng công việc lớn bằng cách tương tác với thế giới thực”. Codex hoàn toàn phù hợp với định nghĩa này. “Tầm nhìn của chúng tôi là ChatGPT sẽ trở thành gần giống như một đồng nghiệp ảo—không chỉ trả lời các câu hỏi nhanh mà còn hợp tác thực hiện công việc quan trọng trong nhiều nhiệm vụ khác nhau”, ông nói thêm.

Các số liệu do OpenAI công bố cho thấy tác nhân SWE Codex-1 mới vượt trội hơn tất cả các mô hình suy luận mới nhất của OpenAI trong các tác vụ SWE nội bộ.

Khả năng mới, giao diện mới, quy trình làm việc mới

Các tác vụ Codex được khởi tạo thông qua giao diện thanh bên trong ChatGPT, cho phép người dùng nhắc nhở tác nhân bằng các tác vụ hoặc câu hỏi.

Tác nhân xử lý từng yêu cầu trong môi trường air-gapped được tải bằng kho lưu trữ của người dùng và được cấu hình để phản ánh thiết lập phát triển. Nó ghi lại các hành động của mình, trích dẫn kết quả thử nghiệm và tóm tắt các thay đổi—làm cho công việc của nó có thể theo dõi và xem xét được.

Alexander Embiricos, người đứng đầu nhóm Desktop & Agents của OpenAI (và là cựu giám đốc điều hành kiêm đồng sáng lập của công ty khởi nghiệp hợp tác chia sẻ màn hình Multi mà OpenAI đã mua lại với số tiền không được tiết lộ vào năm ngoái) cho biết trong một cuộc họp báo với các nhà báo rằng “Codex agent là một tác nhân kỹ thuật phần mềm dựa trên đám mây có thể thực hiện nhiều tác vụ song song, với máy tính riêng để chạy an toàn và độc lập”.

Ông cho biết, về mặt nội bộ, các kỹ sư đã sử dụng nó “như một danh sách việc cần làm vào buổi sáng – chuyển các nhiệm vụ cho Codex và quay lại một loạt các giải pháp dự thảo sẵn sàng để xem xét hoặc hợp nhất”.

Codex cũng hỗ trợ cấu hình thông qua các tệp AGENTS.md—hướng dẫn cấp dự án hướng dẫn tác nhân cách điều hướng cơ sở mã, chạy các thử nghiệm cụ thể và tuân theo các phong cách mã hóa nội bộ.

Embiricos cho biết: “Chúng tôi đã đào tạo mô hình của mình để đọc mã và suy ra phong cách – chẳng hạn như có nên sử dụng dấu phẩy Oxford hay không – vì phong cách mã quan trọng ngang với tính chính xác”.

An ninh và sử dụng thực tế

Codex thực hiện các tác vụ mà không cần truy cập internet, chỉ sử dụng mã và các phụ thuộc do người dùng cung cấp. Thiết kế này đảm bảo hoạt động an toàn và giảm thiểu khả năng sử dụng sai mục đích.

“Đây không chỉ là một API mô hình”, Embiricos cho biết. “Vì nó chạy trong môi trường air-gap với sự đánh giá của con người, chúng tôi có thể cung cấp cho mô hình nhiều quyền tự do hơn một cách an toàn”.

OpenAI cũng báo cáo các trường hợp sử dụng bên ngoài ban đầu. Cisco đang đánh giá Codex để đẩy nhanh công việc kỹ thuật trên các dòng sản phẩm của mình. Temporal sử dụng nó để chạy các tác vụ nền như gỡ lỗi và viết thử nghiệm. Superhuman tận dụng Codex để cải thiện phạm vi kiểm tra và cho phép những người không phải kỹ sư đề xuất các thay đổi mã nhẹ. Kodiak, một công ty xe tự hành, áp dụng nó để cải thiện độ tin cậy của mã và hiểu sâu hơn về các thành phần ngăn xếp không quen thuộc.

OpenAI cũng đang triển khai các bản cập nhật cho Codex CLI, tác nhân đầu cuối nhẹ của nó dành cho phát triển cục bộ. CLI hiện sử dụng một mô hình nhỏ hơn—codex-mini-latest—được tối ưu hóa cho chỉnh sửa độ trễ thấp và Hỏi & Đáp.

Giá được đặt ở mức 1,50 đô la cho một triệu token đầu vào và 6 đô la cho một triệu token đầu ra, với mức giảm giá lưu trữ đệm là 75%. Codex hiện đang được sử dụng miễn phí trong thời gian triển khai, với các giới hạn tỷ lệ và tùy chọn giá theo yêu cầu đã được lên kế hoạch.

Điều này có nghĩa là OpenAI KHÔNG mua Windsurf? Biểu tượng cảm xúc khuôn mặt suy nghĩ

Việc phát hành Codex diễn ra trong bối cảnh cạnh tranh ngày càng gia tăng trong lĩnh vực công cụ mã hóa AI và cho thấy OpenAI có ý định xây dựng, thay vì mua, giai đoạn sản phẩm tiếp theo của mình.

Theo dữ liệu gần đây từ SimilarWeb , lưu lượng truy cập vào các công cụ AI dành cho nhà phát triển đã tăng vọt 75% trong 12 tuần qua, nhấn mạnh nhu cầu ngày càng tăng đối với trợ lý mã hóa như một cơ sở hạ tầng thiết yếu thay vì các tiện ích bổ sung mang tính thử nghiệm.

Các báo cáo từ TechCrunch và Bloomberg cho biết OpenAI đã tổ chức các cuộc đàm phán mua lại với các công ty khởi nghiệp công cụ phát triển AI đang phát triển nhanh là Cursor và Windsurf. Cursor được cho là đã rời khỏi bàn đàm phán; Windsurf được cho là đã đồng ý về nguyên tắc để được OpenAI mua lại với giá 3 tỷ đô la, mặc dù chưa có thỏa thuận nào được OpenAI hoặc Windsurf chính thức xác nhận.

Trên thực tế, chỉ ngày hôm qua, Windsurf đã ra mắt họ mô hình nền tảng tập trung vào mã hóa của riêng mình, SWE-1, được xây dựng có mục đích hỗ trợ toàn bộ vòng đời kỹ thuật phần mềm, từ gỡ lỗi đến bảo trì dự án dài hạn. Các mô hình SWE-1 được báo cáo là được tùy chỉnh, được đào tạo hoàn toàn tại công ty bằng mô hình dữ liệu tuần tự mới phù hợp với quy trình phát triển thực tế.

Có thể có nhiều điều đang diễn ra đằng sau hậu trường giữa hai công ty, nhưng với tôi, thời điểm Windsurf ra mắt mô hình nền tảng mã hóa riêng của mình — thay vì chiến lược cho đến nay là sử dụng các biến thể Llama và cung cấp cho người dùng tùy chọn đưa vào các mô hình OpenAI và Anthropic — tiếp theo là việc OpenAI phát hành đối thủ cạnh tranh Windsurf của riêng mình một ngày sau đó, dường như cho thấy cả hai sẽ không sớm liên kết với nhau.

Nhưng mặt khác, thực tế là tác nhân Codex AI SWE mới này đang trong giai đoạn “nghiên cứu xem trước” để bắt đầu có thể là một hình thức OpenAI gây sức ép với Windsurf hoặc Cursor hoặc bất kỳ ai khác để họ đến bàn đàm phán và đạt được thỏa thuận. Khi được hỏi về tiềm năng mua lại Windsurf và các báo cáo về một trong số đó, một phát ngôn viên của OpenAI đã nói với VentureBeat rằng họ không có gì để chia sẻ về mặt trận đó.

Trong cả hai trường hợp, Embiricos đều coi Codex còn hơn cả một công cụ hay trợ lý mã hóa đơn thuần.

“Chúng tôi sắp trải qua một sự thay đổi lớn về cách các nhà phát triển làm việc với các tác nhân—không chỉ ghép nối với họ theo thời gian thực mà còn phân công nhiệm vụ hoàn toàn,” ông nói. “Các thử nghiệm đầu tiên chỉ là các mô hình lý luận với quyền truy cập thiết bị đầu cuối. Trải nghiệm thật kỳ diệu—họ bắt đầu làm mọi thứ cho chúng tôi.”

Được xây dựng cho các nhóm phát triển, không chỉ dành cho các nhà phát triển đơn lẻ

Codex được thiết kế dành cho các nhà phát triển chuyên nghiệp, nhưng Embiricos lưu ý rằng ngay cả các nhà quản lý sản phẩm cũng thấy nó hữu ích khi đề xuất hoặc xác thực các thay đổi trước khi đưa SWE của con người vào. Tính linh hoạt này phản ánh chiến lược xây dựng các công cụ tăng cường năng suất trên khắp các nhóm kỹ thuật của OpenAI.

Trini, một kỹ sư trưởng của dự án, đã tóm tắt tham vọng lớn hơn đằng sau Codex: “Đây là một sự thay đổi mang tính chuyển đổi trong cách các kỹ sư phần mềm giao tiếp với AI và máy tính nói chung. Nó khuếch đại tiềm năng của mỗi người.”

OpenAI hình dung Codex là trung tâm của quy trình phát triển mới, nơi các kỹ sư giao nhiệm vụ cấp cao cho các tác nhân và cộng tác với họ một cách không đồng bộ. Công ty đang xây dựng hướng tới tích hợp sâu hơn trên GitHub, ChatGPT Desktop, trình theo dõi sự cố và hệ thống CI. Mục tiêu dài hạn là kết hợp ghép nối thời gian thực và phân công nhiệm vụ dài hạn thành trải nghiệm phát triển liền mạch.

Như Josh Tobin đã nói, “Mã hóa hỗ trợ rất nhiều thứ hữu ích trong nền kinh tế. Đẩy nhanh mã hóa là một cách đặc biệt hiệu quả để phân phối lợi ích của AI cho nhân loại, bao gồm cả chúng ta.”

Bất kể OpenAI có chốt được hợp đồng với đối thủ cạnh tranh hay không thì thông điệp vẫn rất rõ ràng: Codex đã xuất hiện và OpenAI đang đặt cược vào các tác nhân của riêng mình để dẫn đầu chương tiếp theo về năng suất của nhà phát triển.

OpenAI ra mắt bản xem trước nghiên cứu của tác nhân kỹ thuật phần mềm Codex AI dành cho các nhà phát triển — với nhiệm vụ song song

Sự phát triển của Codex: từ mô hình đến tác nhân mã hóa AI tự động

Tầm nhìn của Agentic

Khả năng mới, giao diện mới, quy trình làm việc mới

An ninh và sử dụng thực tế

Điều này có nghĩa là OpenAI KHÔNG mua Windsurf? *Biểu tượng cảm xúc khuôn mặt suy nghĩ*

Được xây dựng cho các nhóm phát triển, không chỉ dành cho các nhà phát triển đơn lẻ

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi

Điều này có nghĩa là OpenAI KHÔNG mua Windsurf? Biểu tượng cảm xúc khuôn mặt suy nghĩ