Чи можна заробити 400 000 доларів, якщо дати AI здібність програмувати?

robot
Генерація анотацій у процесі

Автор: Тан Зіксін, керівник технології

Джерело зображення: згенеровано безмежною штучним інтелектом

Великі мовні моделі (LLM) змінюють спосіб розробки програмного забезпечення, а тепер питання про те, чи може штучний інтелект великими масштабами замінити людських програмістів, стало предметом загальної уваги в галузі.

Протягом всього двох років великі моделі штучного інтелекту перейшли від вирішення основних проблем комп'ютерних наук до такого рівня, коли вони можуть конкурувати з людьми на міжнародних змаганнях з програмування. Наприклад, OpenAI o1 успішно взяв участь у Міжнародній олімпіаді з інформатики (IOI) 2024 року при тих самих умовах, що й учасники-люди, і отримав золоту медаль, продемонструвавши потужний потенціал у програмуванні.

Тим часом швидкість ітерації штучного інтелекту також прискорюється. На перевіреній платформі оцінки генерації коду SWE-Bench Verified у серпні 2024 року бал GPT-4o склав 33%, але до оцінювання нового покоління o3 моделі бал подвоївся і становить 72%.

Для кращого виміру інженерних можливостей моделі штучного інтелекту в реальному світі сьогодні OpenAI випустила нову оціночну базову лінію SWE-Lancer, вперше пов'язавши продуктивність моделі з вартістю валюти.

SWE-Lancer є еталоном понад 1 400 позаштатних завдань з розробки програмного забезпечення з платформи Upwork, із загальною реальною вартістю компенсації близько 1 мільйона доларів.

Нові особливості нового стандарту

Ціна еталонного завдання SWE-Lancer відображає справжню ринкову вартість, і чим складніше завдання, тим вище винагорода.

Сюди включено як незалежні інженерні завдання, так і управлінські завдання, можна вибирати між технічними рішеннями, цей стандарт адресований не лише програмістам, але й всій розробницькій команді, включаючи архітекторів та керівників.

У порівнянні з попередніми тестовими базовими точками інженерії програмного забезпечення, SWE-Lancer має кілька переваг, наприклад:

  1. Всі 1488 завдань представляють собою реальну винагороду, яку роботодавець платить вільному інженерові, надають природний рівень складності, визначений ринком, винагорода становить від 250 до 32 000 доларів, що можна вважати досить великою.

35% завдань мають вартість понад 1000 доларів, 34% завдань мають вартість від 500 до 1000 доларів. Група завдань для індивідуальних внесків (IC) у сфері програмної інженерії (SWE) містить 764 завдання на суму 41.4775 тисяч доларів; Група управління завданнями SWE містить 724 завдання на суму 58.5225 тисяч доларів.

  1. Великомасштабна програмна інженерія в реальному світі не тільки вимагає розробки конкретного коду, але також повинна мати здатність керувати технологією в цілому, а бенчмарк використовує реальну модель оцінки даних, щоб виступати в ролі «технічного директора» SWE.

3、Має високий рівень оцінки інженерії повного стеку. SWE-Lancer відображає реальний світ програмної інженерії, оскільки його завдання походять з платформи, яка має сотні мільйонів реальних користувачів.

Одним з завдань є розробка рухомих та веб-інтерфейсів, взаємодія з API, веб-переглядачами та зовнішніми додатками, а також перевірка та відтворення складних проблем.

Наприклад, деякі завдання полягають у витратах 250 доларів на підвищення надійності (виправлення проблеми подвійного виклику API), 1000 доларів на виправлення вразливостей (вирішення проблеми різниці в дозволах) та 16 тисяч доларів на впровадження нового функціоналу (додавання підтримки відтворення відео в додатку на веб-сторінці, iOS, Android та робочому столі тощо).

4、Різноманітність областей. 74% завдань IC SWE та 76% завдань управління SWE стосуються логіки застосування, тоді як 17% завдань IC SWE та 18% завдань управління SWE пов'язані з розробкою UI/UX.

З точки зору складності завдання вибір завдань SWE-Lancer є дуже викликом, середнє завдання в відкритому наборі даних потребує 26 днів для вирішення на Github.

Крім того, в OpenAI заявили, що немає упередженості в зборі даних, що вони вибрали репрезентативну вибірку завдань від Upwork і найняли 100 професійних інженерів-програмістів для написання та перевірки наскрізних тестів для всіх завдань.

AI здатність заробляти гроші PK

Хоча багато технологічних гігантів продовжують стверджувати, що моделі штучного інтелекту можуть замінити інженерів «низького рівня», все ще залишається великий знак питання щодо того, чи можуть компанії повністю замінити інженерів-програмістів на LLM.

Перші результати тестування показують, що прибуток моделей золотих призерів AI, які в даний час тестуються на повному наборі даних SWE-Lancer, далеко не перевищує потенційний загальний дохід у 1000000 доларів.

Загалом всі моделі виявляються кращими в управлінні завданнями SWE, ніж завдання IC SWE, проте завдання IC SWE в значній мірі ще не було повністю завоювано штучними інтелектуальними моделями, і наразі краще за все виявився прототип Claude 3.5 Sonnet, розроблений конкурентом OpenAI, Anthropic.

У завданні IC SWE частота одного проходу та вихід усіх моделей становили менше 30%, а в завданні управління SWE найкраща оцінка моделі Claude 3.5 Sonnet становила 45%.

Claude 3.5 Sonnet показав високу продуктивність як у завданнях управління IC SWE, так і в завданнях управління SWE, перевершивши другу найефективнішу модель o1 на 9,7% у завданнях IC SWE та на 3,4% у завданнях управління SWE.

Якщо перетворити на прибуток, найкращим виявився Sonnet 3.5 Клода, який заробив понад 400 000 доларів США на повному наборі даних.

Важливою точкою є те, що більший обсяг обчислень розуміння буде корисним для "заробітку штучного інтелекту".

У завданні IC SWE дослідники провели експерименти на моделі O1 з увімкненими інструментами глибокого висновування, які показали, що вищі обчислення висновків можуть збільшити частоту одноразового висновку з 9,3% до 16,5%, а прибутковість з $16 000 до $29 000, а прибутковість з 6,8% до 12,1%.

Дослідники висновують, що найкраща модель Claude 3.5 Sonnet, хоча і вирішила 26.2% проблем IC SWE, але більшість інших рішень все ще містять помилки, для надійного впровадження потрібно багато доробок. Наступні - o1, а потім GPT-4o, і частка виконаних завдань зазвичай більше ніж удвічі перевищує частку виконаних завдань IC SWE.

Це також означає, що навіть якщо точка зору на заміну людьми інженерів програмного забезпечення штучного інтелекту була дуже піддатою рекламі, підприємствам все ще варто добре обдумати свої дії, моделі штучного інтелекту можуть вирішувати деякі "низькорівневі" проблеми кодування, але вони все ще не можуть замінити "низькорівневих" інженерів програмного забезпечення, оскільки вони не можуть зрозуміти причини існування деяких помилок у коді та продовжують робити більше похибок.

Поточна структура оцінки ще не підтримує мультимодальні вхідні дані, і дослідники ще не оцінили «віддачу від інвестицій», таку як плата, що виплачується фрілансеру, порівняно з вартістю використання API під час виконання завдання, що було б у центрі уваги наступного уточнення тесту.

Станьте програмістом з "покращеним штучним інтелектом"

На даний момент штучний інтелект повинен пройти довгий шлях, щоб дійсно замінити людських програмістів, оскільки створення програмного проекту - це не тільки просте генерування коду згідно вимог.

Наприклад, програмісти часто стикаються з надзвичайно складними, абстрактними та неоднозначними вимогами замовника, які вимагають глибокого розуміння різних технічних принципів, бізнес-логіки та архітектури системи.

Крім того, програмування не тільки полягає в реалізації існуючої логіки, але також потребує великої кількості творчості та інноваційного мислення. Програмісти повинні придумувати нові алгоритми, проектувати унікальні програмні інтерфейси та способи взаємодії тощо, ці дійсно нові ідеї та рішення є слабким місцем штучного інтелекту.

Програмісти зазвичай також повинні спілкуватися та співпрацювати з членами команди, клієнтами та іншими зацікавленими сторонами, розуміти потреби та реалізовувати їх, чітко виражати свої погляди та спільно з іншими завершувати проекти. Крім того, людські програмісти мають здатність постійного навчання та адаптації до нових змін, вони можуть швидко освоювати нові знання та навички та застосовувати їх у практичних проектах, а успішна модель штучного інтелекту вимагає різних видів навчання й тестування.

Галузь розробки програмного забезпечення також піддається різноманітним правовим та регуляторним обмеженням, таким як інтелектуальна власність, захист даних та ліцензування програмного забезпечення, штучний інтелект може мати проблеми з повністю розуміти та дотримуватися цих вимог законодавства, що може призвести до правових ризиків або конфліктів щодо відповідальності.

У довгостроковій перспективі заміна посад програмістів, викликана розвитком технології штучного інтелекту, все ще існує, але в короткостроковій перспективі «програмісти, вдосконалені штучним інтелектом» є мейнстрімом, а освоєння використання новітніх інструментів штучного інтелекту є однією з основних навичок чудових програмістів.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • 1
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити