AI プログラミングを使って 40 万ドルを稼ぐことができますか?

robot
概要作成中

著者:Tan Zixin、ヘッドテクノロジー

画像ソース: Unbounded AIによって生成

大規模言語モデル(LLM)は、ソフトウェア開発の方法を変えつつあり、AIが人間のプログラマーを大規模に置き換えることができるかどうかは、業界で注目されているトピックです。

わずか2年で、AIモデルはコンピュータサイエンスの基礎問題を解くことから、2024年の国際情報オリンピック(IOI)に人間と同じ条件で参加し、金メダルを獲得したOpenAI o1など、国際的なプログラミング大会で人間のマスターと競い合うまでに発展し、プログラミングの大きな可能性を示しています。

同時に、AIのイテレーションの速度も加速しています。 コード生成評価のベンチマークであるSWE-Bench Verifiedでは、GPT-4oは2024年8月に33%のスコアを獲得しましたが、新世代のo3モデルが登場する頃にはスコアは72%と倍増しています。

AIモデルのソフトウェアエンジニアリング能力をよりよく評価するために、OpenAIが新しい評価ベンチマークSWE-Lancerをオープンソースで発表しました。この評価ベンチマークは、モデルの性能と通貨価値を初めて結びつけました。

SWE-Lancerは、Upworkプラットフォームからの1400以上のフリーランスソフトウェアエンジニアリングタスクを含むベンチマークテストで、これらのタスクの実世界での総報酬額は約100万ドルです。 AIにプログラミングさせるとどれだけ稼げるでしょうか?

新ベンチマークの「特徴」

SWE-Lancerのベンチマークタスク価格は真の市場価値を反映しており、タスクの難易度が高いほど報酬は高くなります。

これには、スタンドアロンのエンジニアリングタスクと管理タスクの両方が含まれ、プログラマーだけでなく、アーキテクトやマネージャーを含む開発チーム全体のベンチマークである技術的な実装を選択できます。

以前のソフトウェアエンジニアリングベンチマークと比較して、SWE-Lancerには次のようないくつかの利点があります。

1、すべての1488のタスクは、雇主がフリーランスエンジニアに支払った実際の報酬を代表し、自然で市場によって決定された難易度の勾配を提供し、報酬は250ドルから32,000ドルまでさまざまであり、かなり見応えがあります。

課題の35%は1,000ドル以上の価値があり、34%は500ドルから1,000ドルの間でした。 個人コントリビューター (IC) ソフトウェア エンジニアリング (SWE) タスク グループは、414,775 ドル相当の 764 個のタスクで構成され、SWE 管理タスク グループには、合計 585,225 ドル相当の 724 個のタスクが含まれます。

2、現実世界での大規模ソフトウェアエンジニアリングは、コーディングだけでなく、技術的な統括力も必要であり、このベンチマークテストは、実世界のデータを使用してモデルを評価し、SWEの"テクニカルディレクター"の役割を果たします。

3、高度なフルスタックエンジニアリング評価能力を持っています。SWE-Lancerは、数百万の実際のユーザーを持つプラットフォームからのタスクを持つため、実世界のソフトウェアエンジニアリングを代表しています。

そのタスクには、モバイルおよびWebエンジニアリング、API、ブラウザーおよび外部アプリケーションとの相互作用、および複雑な問題の検証と再現が含まれています。

例えば、一部のタスクは信頼性を向上させるために250ドルかかります(ダブルトリガーのAPI呼び出しの問題を修正)、1000ドルかかって欠陥を修正します(権限の違いの問題を解決)、そして新機能を実現するために16000ドルかかります(ウェブ、iOS、Android、デスクトップアプリにアプリ内ビデオ再生のサポートを追加など)。

4、領域の多様性。74%のIC SWEタスクと76%のSWE管理タスクはアプリケーションロジックに関連しており、17%のIC SWEタスクと18%のSWE管理タスクはUI/UX開発に関連しています。

タスクの難易度に関しては、SWE-Lancerが選択したタスクは非常に難しく、オープンソースデータセットのタスクはGithubで解くのに平均26日かかります。

さらに、OpenAIは偏りのないデータ収集を行っており、Upworkから代表的なタスクサンプルを選択し、100人のプロのソフトウェアエンジニアを雇い、すべてのタスクについてエンドツーエンドのテストを書いて検証しました。

AIエンコーディング収益力PK

多くのテクノロジー業界の大物は、AIモデルが「低レベル」のエンジニアに取って代わることができると主張し続けていますが、企業が人間のソフトウェアエンジニアをLLMに完全に置き換えることができるかどうかについては、まだ大きな疑問符がついています。

最初のレビューの結果は、SWE-Lancerの完全なデータセットでは、現在のAIゴールドメダリストモデルのリターンが、潜在的な報酬総額である100万ドルをはるかに下回っていることを示しています。

全体的に見ると、すべてのモデルはSWE管理タスクでIC SWEタスクよりも優れたパフォーマンスを発揮しますが、IC SWEタスクはほとんど克服されておらず、現在、最高のパフォーマンスを発揮しているモデルは、OpenAIの競合企業であるAnthropicが開発したClaude 3.5 Sonnetです。

IC SWEのタスクでは、すべてのモデルの単一パス通過率と収益率が30%未満で、SWE管理タスクでは、最高のパフォーマンスを発揮するモデルClaude 3.5 Sonnetのスコアは45%です。

Claude 3.5 SonnetはIC SWEおよびSWE管理タスクで強力なパフォーマンスを発揮し、IC SWEタスクでは2番目に優れたモデルo1より9.7%高い結果を出し、SWE管理タスクでは3.4%高い結果を出しました。

収益に換算すると、トップパフォーマンスの Claude 3.5 Sonnet は、データセット全体で 400,000 ドル以上の総収益を上げました。

推論計算量が増えれば、「AIがお金を稼ぐ」のに大いに役立つことは注目に値します。

IC SWEのタスクでは、深い推論ツールを使用してo1モデルを実験した研究者によると、より高い推論計算量は、合格率を9.3%から16.5%に引き上げ、収益も1.6万米ドルから2.9万米ドルに増加し、収益率も6.8%から12.1%に向上します。

研究者は、最適なモデルClaude 3.5 Sonnetは、26.2%のIC SWE問題を解決しましたが、残りの解決策の大部分にはまだ誤りがあり、信頼性のある展開を実現するにはさらなる改善作業が必要です。次にo1があり、その後にGPT-4oがあり、タスクの単一通過率は通常、IC SWEタスクの2倍以上です。

これはまた、AIエージェントが人間のソフトウェアエンジニアに取って代わるというアイデアが非常に誇大宣伝されているにもかかわらず、企業はAIモデルがいくつかの「低レベル」のコーディングの問題をどのように解決できるかについて再考する必要があることを意味します。

現在の評価フレームワークはまだマルチモーダル入力をサポートしていません。さらに、研究者は「投資収益率」を評価していません。たとえば、フリーランサーに支払われる報酬とAPIの使用コストを比較することが、次の段階で重要な焦点になります。

"AI強化型"のプログラマーになる

現時点では、AIが人間のプログラマーを本当に置き換えるには、まだ長い道のりがあります。なぜなら、ソフトウェアエンジニアリングプロジェクトを開発することは、要求されたコードを生成するだけではないからです。

たとえば、プログラマーは、さまざまな技術原則、ビジネスロジック、およびシステムアーキテクチャを深く理解する必要がある、非常に複雑で抽象的であいまいな顧客要件に遭遇することがよくあります。

また、プログラミングは既存のロジックを実装するだけでなく、多くの創造力と革新的な考えが必要です。プログラマーは新しいアルゴリズムを考え、ユニークなソフトウェアインターフェースやインタラクション方法を設計する必要があります。このような本当に斬新な考え方や解決策はAIの短所です。

プログラマーは通常、チームメンバー、顧客、および他の利害関係者とコミュニケーションし、協力する必要があります。各当事者の要求と実現可能性を理解し、自分の意見を明確に表現し、他の人と協力してプロジェクトを完了する必要があります。また、人間のプログラマーは継続的な学習と新しい変化への適応能力を持っています。彼らは新しい知識やスキルを素早く習得し、実際のプロジェクトに適用することができます。一方、成功したAIモデルはさまざまなトレーニングテストが必要です。

また、ソフトウェア開発業界は、知的財産、データ保護、ソフトウェアライセンスなど、さまざまな法的および規制上の制約を受けており、AIはこれらの法的および規制要件を完全に理解して遵守するのに苦労し、法的リスクや責任紛争を引き起こす可能性があります。

長い目で見れば、AI技術の進歩がもたらすプログラマーのポジションの代替は依然として存在しますが、短期的には「AI強化プログラマー」が主流であり、最新のAIツールを使いこなすことは、優秀なプログラマーのコアスキルの1つです。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • 1
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)