Bạn có thể kiếm được 400.000 đô la bằng cách để lập trình AI thực hiện công việc không?

Question

Tác giả: Tan Zixin, head technologyNguồn hình ảnh: Tạo bởi AI Vô cựcMô hình ngôn ngữ lớn (LLM) đang thay đổi cách phát triển phần mềm, liệu AI có thể thay thế người lập trình viên một cách quy mô lớn hay không đang trở thành một đề tài được ngành công nghiệp quan tâm.Trong vòng hai năm ngắn ngủi, mô hình AI lớn đã phát triển từ việc giải quyết các vấn đề cơ bản trong khoa học máy tính, đến mức độ so tài với những đối thủ con người trong các cuộc thi lập trình quốc tế, ví dụ như OpenAI o1 đã tham gia thành công Cuộc thi Olympic Tin học Quốc tế 2024 (IOI) dưới điều kiện tương tự như người tham dự và đạt được huy chương vàng, thể hiện tiềm năng lập trình mạnh mẽ.Đồng thời, tốc độ cập nhật của trí tuệ nhân tạo cũng đang tăng lên. Trên cơ sở đánh giá mã nguồn mở SWE-Bench Verified, vào tháng 8 năm 2024, điểm số của GPT-4o là 33%, nhưng đến thế hệ mới o3, điểm số đã tăng gấp đôi lên 72%.Để đo lường tốt hơn khả năng kỹ thuật phần mềm của các mô hình AI trong thế giới thực, ngày nay, OpenAI mã nguồn mở đã đưa ra một tiêu chuẩn đánh giá mới, SWE-Lancer, lần đầu tiên liên kết hiệu suất mô hình với giá trị tiền tệ.SWE-Lancer là điểm chuẩn của hơn 1.400 nhiệm vụ kỹ thuật phần mềm tự do từ nền tảng Upwork, với tổng giá trị bồi thường trong thế giới thực khoảng 1 triệu đô la.Tiêu chuẩn mới "đặc điểm"Giá cơ sở của SWE-Lancer phản ánh đúng tình hình giá trị thị trường, công việc càng khó thì tiền thưởng càng cao.Bao gồm cả nhiệm vụ kỹ thuật độc lập lẻ và nhiệm vụ quản lý, có thể lựa chọn giữa các phương án thực hiện kỹ thuật, tiêu chuẩn này không chỉ dành cho lập trình viên mà còn dành cho toàn bộ đội ngũ phát triển, bao gồm cả kiến trúc sư và quản lý.So với các tiêu chuẩn kiểm thử kỹ thuật phần mềm trước đó, SWE-Lancer có nhiều lợi thế, chẳng hạn như:1. Tất cả 1488 nhiệm vụ đại diện cho mức thù lao thực sự mà nhà tuyển dụng trả cho các kỹ sư tự do, cung cấp một dải độ khó tự nhiên, do thị trường quyết định, với mức thù lao từ 250 đô la đến 32,000 đô la, có thể nói là khá ấn tượng.Ba mươi lăm phần trăm các bài tập trị giá hơn 1.000 đô la và 34 phần trăm là từ 500 đến 1.000 đô la. Nhóm nhiệm vụ Kỹ thuật phần mềm đóng góp cá nhân (IC) (SWE) bao gồm 764 nhiệm vụ trị giá 414.775 đô la và nhóm nhiệm vụ Quản lý SWE chứa 724 nhiệm vụ với tổng giá trị là 585.225 đô la.2、Trong kỹ thuật phần mềm quy mô lớn trong thế giới thực, không chỉ cần viết mã cụ thể và phát triển, mà còn cần có khả năng quản lý kỹ thuật hiệu quả. Bài kiểm tra này sử dụng dữ liệu thế giới thực để đánh giá mô hình đóng vai trò như là "quản lý kỹ thuật" của SWE.3、Có khả năng đánh giá kỹ thuật toàn diện cấp cao. SWE-Lancer đại diện cho kỹ thuật phần mềm thế giới thực, vì nhiệm vụ của nó đến từ nền tảng có hàng triệu người dùng thực sự.Công việc liên quan đến phát triển kỹ thuật di động và trang web, tương tác với API, trình duyệt và ứng dụng bên ngoài, cũng như xác minh và tái tạo các vấn đề phức tạp.Ví dụ: có những tác vụ tốn 250 đô la để cải thiện độ tin cậy (sửa các lệnh gọi API được kích hoạt kép), 1.000 đô la để sửa lỗi (để khắc phục sự khác biệt về quyền) và 16.000 đô la để triển khai các tính năng mới (thêm hỗ trợ phát lại video trong ứng dụng trên web, iOS, Android và máy tính để bàn, v.v.).4、Đa dạng lĩnh vực. 74% nhiệm vụ IC SWE và 76% nhiệm vụ quản lý SWE đều liên quan đến logic ứng dụng, trong khi 17% nhiệm vụ IC SWE và 18% nhiệm vụ quản lý SWE liên quan đến phát triển UI/UX.Về độ khó của tác vụ, các tác vụ được SWE-Lancer lựa chọn rất khó khăn và các tác vụ trong tập dữ liệu nguồn mở mất trung bình 26 ngày để giải quyết trên Github.Ngoài ra, OpenAI cho biết hết dẫn về việc thu thập dữ liệu vào tình chất và biển pháp, hệ thống đã chọn mẫu công việc đại diện từ Upwork và thuê 100 kỳ sư phần mềm chuyên nghiệp để viết và xác minh các bài tập hành tất cả.Mã hóa AI kiếm tiền PKMặc dù nhiều nhà công nghệ hàng đầu liên tục tuyên bố trong quảng cáo rằng mô hình AI có thể thay thế kỹ sư 'thấp cấp', nhưng việc một doanh nghiệp có thể hoàn toàn thay thế kỹ sư phần mềm bằng LLM vẫn còn là một dấu hỏi lớn.Kết quả đánh giá lần đầu tiên cho thấy, trên tập dữ liệu SWE-Lancer đầy đủ, hiện tại các mô hình cầu thủ vàng AI được kiểm tra đều cho thu nhập thấp hơn rất nhiều so với tổng lợi nhuận tiềm năng 100 triệu đô la Mỹ.Nhìn chung, tất cả các mô hình đều vượt trội hơn các tác vụ IC SWE trong các nhiệm vụ quản lý SWE, trong khi các tác vụ IC SWE phần lớn vẫn chưa được khắc phục hoàn toàn bởi các mô hình AI và mô hình tốt nhất đang được thử nghiệm là Claude 3.5 Sonnet được phát triển bởi đối thủ cạnh tranh của OpenAI là Anthropic.Trên nhiệm vụ IC SWE, tỷ lệ thông qua mô hình mỗi lần và tỷ lệ thu nhập đều thấp hơn 30%, trên nhiệm vụ quản lý SWE, mô hình tốt nhất là Claude 3.5 Sonnet với điểm số là 45%.Claude 3.5 Sonnet hiển thị hiệu suất mạnh mẽ trong các nhiệm vụ IC SWE và quản lý SWE, với mô hình o1 đứng thứ hai trong nhiệm vụ IC SWE cao hơn 9,7%, và 3,4% trong nhiệm vụ quản lý SWE.Nếu chuyển đổi thành lợi nhuận, Claude 3.5 Sonnet表现 tốt nhất với tổng doanh thu trên toàn bộ bộ dữ liệu vượt qua 400,000 đô la.Một điểm đáng chú ý là, lượng tính toán suy luận cao hơn sẽ hỗ trợ lớn cho "AI kiếm tiền".Trong nhiệm vụ IC SWE, các nhà nghiên cứu đã tiến hành các thí nghiệm trên mô hình O1 với các công cụ suy luận sâu được kích hoạt cho thấy tính toán suy luận cao hơn có thể làm tăng tỷ lệ vượt qua một lần từ 9,3% lên 16,5% và lợi nhuận từ 16.000 đô la lên 29.000 đô la và lợi nhuận từ 6,8% lên 12,1%.Các nhà nghiên cứu kết luận rằng mặc dù mô hình tốt nhất, Claude 3.5 Sonnet, đã giải quyết được 26,2% các vấn đề IC SWE, hầu hết các giải pháp còn lại vẫn có lỗi và vẫn còn rất nhiều việc phải làm để đạt được triển khai đáng tin cậy. Tiếp theo là o1 và sau đó là GPT-4o, và tỷ lệ vượt qua một lần cho các tác vụ quản trị thường cao hơn gấp đôi tỷ lệ vượt qua đơn cho các tác vụ IC SWE.Điều này cũng có nghĩa là mặc dù ý tưởng về các tác nhân AI thay thế các kỹ sư phần mềm của con người rất được thổi phồng, các công ty vẫn cần phải suy nghĩ hai lần về cách các mô hình AI có thể giải quyết một số vấn đề mã hóa "cấp thấp", nhưng không phải là các kỹ sư phần mềm "cấp thấp", bởi vì họ không thể hiểu tại sao một số lỗi mã tồn tại và tiếp tục tạo ra các lỗi mở rộng hơn.Khung đánh giá hiện tại chưa hỗ trợ đầu vào đa phương thức và các nhà nghiên cứu vẫn chưa đánh giá "lợi tức đầu tư", chẳng hạn như khoản thanh toán trả cho một freelancer so với chi phí sử dụng API khi hoàn thành một nhiệm vụ, đây sẽ là trọng tâm của việc tinh chỉnh điểm chuẩn tiếp theo.Hãy là một lập trình viên "nâng cao AI"Ở cái nhìn hiện tại, AI còn phải đi một quãng đường dài để thật sự thay thế các lập trình viên con người, sau tất cả, việc phát triển một dự án kỹ thuật phần mềm không chỉ đơn giản là tạo mã theo yêu cầu.Ví dụ, các lập trình viên thường gặp phải các yêu cầu cực kỳ phức tạp, trừu tượng và mơ hồ của khách hàng, đòi hỏi sự hiểu biết sâu sắc về các nguyên tắc kỹ thuật, logic kinh doanh và kiến trúc hệ thống khác nhau.Ngoài ra, lập trình không chỉ là việc thực hiện logic hiện có mà còn đòi hỏi một lượng lớn sáng tạo và tư duy sáng tạo, các lập trình viên cần phải nghĩ ra thuật toán mới, thiết kế giao diện phần mềm độc đáo và cách tương tác khác nhau, những ý tưởng và giải pháp thực sự mới mẻ này là điểm yếu của trí tuệ nhân tạo.Các lập trình viên thường cần giao tiếp và cộng tác với các thành viên trong nhóm, khách hàng và các bên liên quan khác, hiểu nhu cầu và khả năng đạt được của tất cả các bên, nêu rõ ý kiến của họ và cộng tác với những người khác trong các dự án.Ngành công nghiệp phát triển phần mềm cũng phải chịu nhiều ràng buộc pháp lý và quy định, chẳng hạn như sở hữu trí tuệ, bảo vệ dữ liệu và cấp phép phần mềm và AI có thể phải vật lộn để hiểu đầy đủ và tuân thủ các yêu cầu pháp lý và quy định này, tạo ra rủi ro pháp lý hoặc tranh chấp trách nhiệm pháp lý.Trong dài hạn, sự thay thế cho vị trí lập trình viên do tiến bộ của công nghệ AI vẫn tồn tại, nhưng trong ngắn hạn, "lập trình viên tăng cường bởi AI" mới là trào lưu chính, việc nắm vững việc sử dụng các công cụ AI mới nhất là một trong những kỹ năng cốt lõi của lập trình viên xuất sắc.

Gokseltopcu · Accepted Answer

1000x Vibes 🤑