Боротьба між фреймворками штучного інтелекту: Eliza, Rig, Daydreams - хто переможець?

Question

Автори: Шлок Кемані, Олівер Ярос Джерело: Decentralised.co Переклад: Шан Олівер, Gold Finance

Сьогоднішня стаття - це пояснення агентської рамки та наша оцінка їх розвитку. Це також запит на пропозиції, спрямований на засновників, які працюють у перетинній сфері Інтернет-валют (криптовалюта) та агентства.

Протягом минулого року Decentralised.co глибоко досліджувала перехрестя криптографії та штучного інтелекту. Ми навіть створили продукт, який використовує понад 70 000 людей для відстеження агентів штучного інтелекту та їх інфраструктури. Хоча нещодавно захват навколо цієї галузі трохи згас, вплив штучного інтелекту на технології та суспільство - це щось, чого ми не бачили з часів появи інтернету. Якщо криптовалюта стане майбутнім фінансовим треком, як ми передбачаємо, то взаємозв'язок з штучним інтелектом стане постійно повертаючоюся темою, а не одноразовим явищем.

Одним з цікавих типів проектів, які виникають із цієї хвилі, є криптонативні агентські фреймворки штучного інтелекту. Вони є захоплюючим експериментом, що внесло основні принципи блокчейну - безліцензійний перенос вартості, прозорість та однакові стимули - у розробку штучного інтелекту. Їх відкритий характер надає нам унікальну можливість краще зрозуміти їх внутрішню роботу, аналізувати не лише їх обіцянки, але й реальний спосіб їх функціонування.

У цій статті ми спочатку аналізуємо фактичне значення агентських фреймворків та їх важливість. Потім ми вирішуємо очевидну проблему: чому нам потрібно шифрувати вихідні фреймворки, коли існують вже вишукані варіанти, такі як LangChain? Для цього ми аналізуємо провідні шифровані вихідні фреймворки та їх переваги та обмеження в різних випадках використання. Наприкінці, якщо ви будуєте штучний інтелектований агент, ми допоможемо вам визначити, який фреймворк може відповідати вашим потребам, або чи варто вам взагалі користуватися фреймворком.

Давайте розглянемо це детальніше.

Абстракція

«Прогрес цивілізації полягає в розширенні числа важливих операцій, які ми можемо виконувати, не замислюючись». - Альфред Норт Вайтхед (англ.

Подумайте, як наші предки жили. Кожна родина повинна була вирощувати їжу, пошивати власний одяг, будувати власне житло. Вони витрачали безліч часу на базові завдання виживання, майже не мали часу на інші речі. Навіть два століття тому майже 90% людей працювали в сільському господарстві. Сьогодні ми купуємо їжу в супермаркеті, живемо в будинках, побудованих фахівцями, і носимо одяг, виготовлений на віддалених фабриках. Те, що колись було завданням, на виконання якого пішло кілька поколінь, перетворилося на простий обмін. Нині лише 27% населення світу займається сільським господарством (в розвинених країнах цей показник становить менше 5%).

Коли ми починаємо володіти новою технологією, з'являється знайомий шаблон. Спочатку ми розуміємо основні принципи - що є ефективним, що є неефективним, а також які шаблони постійно зустрічаються. Як тільки ці шаблони стають зрозумілішими, ми упаковуємо їх у більш прості, швидкі та надійні абстракції. Ці абстракції звільняють час та ресурси для вирішення більш різноманітних і значущих викликів. Так само відбувається побудова програмного забезпечення.

! cfpYG94rSxhzdHHC3T4K0tAk7UApcvUMQoqb5hCa.png

На прикладі веб-розробки. У ранні часи розробнику потрібно було писати все з нуля - обробляти запити HTTP, керувати станом та створювати користувацький інтерфейс - ці завдання були складними та часом затратними. Пізніше з'явилися фреймворки, такі як React, які, надаючи корисні абстракції, значно спростили ці виклики. Рух розвитку мобільних додатків також йшов аналогічним шляхом. Спочатку розробнику потрібні були глибокі знання, специфічні для платформи, аж до виникнення інструментів, таких як React Native і Flutter, що дозволили їм писати код один раз і розгортати його в будь-якому місці.

У машинному навчанні також з'явилися схожі абстракційні моделі. На початку 2000-х дослідники виявили потенціал GPU в робочих навантаженнях ML. Спочатку розробники повинні були боротися з графічними примітивами та мовами, такими як GLSL, подібні до OpenGL - ці інструменти не були побудовані для загального обчислення. У 2006 році NVIDIA представила CUDA, що робить програмування GPU більш доступним і розширює навчання ML на більш широке коло розробників, все змінилося.

З розвитком ML з'явилася спеціальна структура для абстрагування складності програмування GPU. TensorFlow та PyTorch дозволяють розробникам зосередитися на архітектурі моделі, а не занурюватися в кашу нижньорівневого коду GPU або деталей реалізації. Це прискорює ітерації архітектури моделі та швидкий прогрес в галузі штучного інтелекту/машинного навчання, який ми спостерігали в останні кілька років.

Ми зараз спостерігаємо, що агенти штучного інтелекту також пройшли схожий етап еволюції - це програмне забезпечення, яке може приймати рішення та діяти для досягнення мети, схоже на людського помічника або співробітника. Воно використовує великі мовні моделі як свій "мозок" та може використовувати різні інструменти, такі як пошук в мережі, виклик API або доступ до бази даних для виконання завдань.

Для того щоб побудувати агента з нуля, розробник повинен написати складний код для обробки кожного аспекту: як агент має думати, як вирішувати, які інструменти використовувати та коли, як взаємодіяти з цими інструментами, як пам'ятати контекст попередніх взаємодій та як розбивати великі завдання на керовані кроки. Кожен шаблон потрібно вирішувати окремо, що призводить до повторної роботи та неодноразових результатів.

Саме тут на допомогу приходить проксі-фреймворк зі штучним інтелектом. Подібно до того, як React спрощує веб-розробку, обробляючи складні частини оновлення інтерфейсу користувача та управління станами, ці фреймворки вирішують загальні проблеми у створенні агентів штучного інтелекту. Вони надають готові компоненти для ефективних моделей, які ми виявили, наприклад, як структурувати процес прийняття рішень агентом, інтегрувати різні інструменти та підтримувати контекст у багатьох взаємодіях.

За допомогою фреймворка розробники можуть зосередитися на зробленні їх агентів унікальними - їх конкретними функціями та випадками використання - замість перебудови цих основних компонентів. Вони можуть створити складних агентів штучного інтелекту протягом декількох днів або тижнів, а не кілька місяців, легше спробувати різні підходи та використовувати найкращі практики, виявлені іншими розробниками та спільнотою.

Для кращого розуміння важливості фреймворка розгляньте розробника, який будує агента для перегляду медичних звітів. Без фреймворка їм доведеться писати весь код з нуля: обробляти вкладення електронної пошти, видобувати текст з PDF, вводити текст в LLM у правильному форматі, керувати історією розмов для відстеження обговореного контенту та переконатися, що агент реагує належним чином. Для завдань, які не є унікальними для їх конкретного випадку використання, це велика кількість складного коду.

З використанням фреймворку агентів багато з цих будівельних блоків можна використовувати безпосередньо. Цей фреймворк обробляє читання електронної пошти та PDF, надає моделі для побудови медичних знань, керує потоком розмов та навіть допомагає відстежувати важливі деталі в кількох обмінах. Розробники можуть зосередитися на зробленні свого агента відмінним у певних аспектах, таких як налаштування медичних аналітичних підказок або додавання конкретних перевірок безпеки для діагностики, замість того, щоб винаходити загальні моделі. Те, що спочатку могло зайняти кілька місяців для побудови з нуля, тепер можна виконати за кілька днів завдяки прототипу.

LangChain став швейцарським армійським ножем розробки штучного інтелекту, надаючи гнучкий інструментарій для створення додатків на основі LLM. Незважаючи на те, що він не є суто проксі-фреймворком, він надає основні будівельні блоки, на яких побудовано більшість проксі-фреймворків, від ланцюжків для впорядкування викликів LLM до систем пам'яті для підтримки контекстів. Його широка екосистема інтеграцій і багата документація роблять його кращою відправною точкою для розробників, які прагнуть створювати практичні програми штучного інтелекту.

Потім є такі багатоагентні фреймворки, як CrewAI та AutoGen, які дозволяють розробникам будувати системи, в яких працюють разом кілька штучних інтелектів, кожен агент має свою унікальну роль та здатність. Ці фреймворки не просто виконують завдання послідовно, а наголошують на співпраці інтелектуальних агентів через діалог для спільного вирішення проблем.

! SXYgyuC4qnpplO0idJXnSanSo3OXAp1TMMrHtspG.png

Наприклад, при розподілі дослідницького звіту один агент може надати огляд його структури, інший може зібрати відповідну інформацію, а третій може прокоментувати та вдосконалити остаточний проект. Це схоже на формування віртуального колективу, де агенти штучного інтелекту можуть обговорювати, дискутувати та спільно вдосконалювати рішення. Такий спосіб співпраці для досягнення високорівневих цілей у багатоагентних системах зазвичай називається "кластером" агентів штучного інтелекту.

AutoGPT, хоча й не є традиційною рамкою, але він відкриває концепцію автономних агентів штучного інтелекту. Він демонструє, як штучний інтелект може приймати високорівневу мету, розкладати її на підзадачі та самостійно завершувати її при мінімальному втручанні людини. Незважаючи на його обмеження, AutoGPT спровокував хвилю інновацій у сфері автономних агентів та вплинув на подальше проектування більш структурованих рамок.

Але чому криптографія?

Всі ці контексти в кінцевому рахунку привели нас до зародження фреймворку нативного для криптографічного штучного інтелекту. У цей момент ви можете запитати, чому нам потрібен власний фреймворк для Web3, коли у нас вже є відносно зрілі фреймворки, такі як Langchain та CrewAI, в Web2? Звичайно, розробники можуть використовувати ці існуючі фреймворки для побудови будь-яких агентів, які вони хочуть? З урахуванням того, що ця галузь любить нав'язувати Web3 будь-якій та всім наративам, цей сумнів є виправданим.

Ми вважаємо, що існують три достатні причини існування фреймворку для агентів у специфічній області Web3.

Фінансовий посередник, який працює на ланцюжку

Ми вважаємо, що у майбутньому більшість фінансових угод будуть проводитися на шляху блокчейну. Це прискорює попит на певний тип штучних інтелектуальних агентів, які можуть аналізувати дані на ланцюжку, виконувати угоди на блокчейні та керувати цифровими активами через кілька протоколів та мереж. Від автоматизованих торгових роботів, які можуть виявляти арбітражні можливості, до портфельних менеджерів, які реалізують стратегії доходності, ці агенти залежать від глибокої інтеграції функцій блокчейну в їх основні робочі процеси.

! UgKQjpORqg52fRAWEK0NlemKNxv7W03vfqHNYVkj.png

Традиційні веб-фреймворки Web2 не надають вбудованих компонентів для цих завдань. Вам потрібно скласти сторонні бібліотеки для взаємодії з розумними контрактами, розбору подій ланцюжка та управління приватними ключами - вводячи складність та потенційні вразливості. Натомість, спеціалізовані веб-фреймворки Web3 можуть відразу обробляти ці функції, що дозволяє розробникам зосередитися на логіці та стратегії своїх агентів, а не боротьбі з низькорівневим блокчейн-каналом.

Оригінальна координація та стимулювання

Блокчейн – це не лише цифрові валюти. Вони забезпечують глобальну, мінімізовану довіру систему обліку з вбудованими фінансовими інструментами для покращення координації між кількома агентами. Замість того, щоб покладатися на офчейн-репутацію або розрізнені бази даних, розробники можуть використовувати ончейн-примітиви, такі як стейкінг, умовне депонування та пули заохочень, щоб координувати інтереси кількох агентів штучного інтелекту.

Уявіть собі групу агентів, які співпрацюють для виконання складного завдання (наприклад, маркування даних для навчання нової моделі). Виступ кожного агента можна відстежувати на ланцюжку та автоматично розподіляти винагороду в залежності від внеску. Прозорість та незмінність системи на основі блокчейну дозволяють справедливу оплату, потужне відстеження репутації та програми стимулювання в реальному часі.

Криптонативні фреймворки можуть явно вбудовувати ці функції, дозволяючи розробникам розробляти структури стимулювання за допомогою смарт-контрактів без необхідності переробляти колесо щоразу, коли брокеру потрібно довіряти або платити іншому агенту.

Нові можливості на ранньому ринку

Хоча фреймворки, подібні до LangChain, вже мають спільноту думок та мережеві ефекти, сфера штучного інтелекту ще знаходиться на початковому етапі. Наразі невідомо, яким буде кінцевий стан цих систем і немає жодного способу заблокувати ринок.

Економіка криптографії відкриває нові можливості для побудови, управління та монетизації у рамках стимулювання, які не можуть повністю відображатися на традиційній економіці SaaS або Web2. На цьому ранньому етапі експерименти можуть розблокувати нові стратегії монетизації для самої рамки, а не лише для побудови агентів на її основі.

Конкуренти

ElizaOS пов'язана з популярним проєктом AI16Z і є фреймворком, заснованим на TypeScript, призначеним для створення, розгортання та управління AI-агентами. Вона призначена для використання в операційних системах AI-агентів, що дружні до Web3, дозволяючи розробникам будувати агентів з унікальною індивідуальністю, гнучкі інструменти для взаємодії з блокчейном та легке розширення через багатоагентні системи.
Rig - це відкрите фреймворк для AI, розроблене компанією Playgrounds Analytics Inc., побудоване на мові програмування Rust, призначене для створення модульних та розширюваних AI агентів. Він пов'язаний з проектом AI Rig Complex (ARC). Daydreams - це фреймворк для генерації агентів, спочатку створений для створення автономних агентів у ланцюжкових іграх, але пізніше розширений на виконання завдань у ланцюжку.
Pippin - це фреймворк AI агента, розроблений засновником BabyAGI Йохеї Накаджіма, спрямований на допомогу розробникам у створенні модульних та автономних цифрових помічників. Спочатку Йохеї побудував незалежного агента, який потім був розширений до загального фреймворку.
ZerePy — це фреймворк Python з відкритим вихідним кодом, призначений для розгортання автономних агентів на кількох платформах і блокчейнах, з акцентом на творчий штучний інтелект та інтеграцію соціальних мереж. Як і Піппін, Zerepy починав як незалежне агентство Zerebro, яке з тих пір розширилося до структури.

стандарт

Щоб оцінити силу кожного фреймворку, давайте поставимо себе на місце розробників, які хочуть створювати агентів штучного інтелекту. Що їх хвилюватиме? Ми вважаємо, що корисно розділити оцінювання на три основні категорії: Core, Features та Developer Experience.

Ви можете розглядати ядро фреймворку як основу для побудови всіх інших агентів. Якщо ядро слабке, повільне або не постійно розвивається, то агенти, створені за допомогою цього фреймворку, будуть обмежені тими ж самими обмеженнями. Ядро можна оцінити за наступними критеріями:

Основний цикл мислення: мозок будь-якої агентної структури; як він вирішує проблеми. Міцна структура підтримує все, від базового вводу-виводу до складних моделей, таких як ланцюг думок. Якщо немає потужної логічної здатності, агент не може ефективно розбивати складні завдання або оцінювати кілька варіантів, щоб спростити їх до розкішних чат-ботів.
Механізм пам'яті: Агентам потрібна як короткочасна пам'ять для продовження розмови, так і довгострокове зберігання для отримання постійних знань. Хороші фреймворки не лише запам'ятовують - вони розуміють взаємозв'язки між різними даними і можуть визначати, які дані варто зберігати, а які - забути.
Вбудовування та підтримка RAG: Сучасні агенти повинні використовувати зовнішні знання, такі як документація та ринкові дані. Потужні фреймворки дозволяють легко вбудовувати цю інформацію та отримувати її контекстуально за допомогою RAG, базуючи відповіді на конкретних знаннях, а не покладаючись виключно на базове навчання моделей.
Конфігурація особистості: здатність формувати спосіб спілкування агентів (тон, етикет та особистість) має вирішальне значення для залучення користувачів. Хороший фреймворк дозволяє легко налаштувати ці характеристики, визнаючи, що особистість агента може значно вплинути на довіру користувачів.
Багатоагентність: Потужна структура надає вбудовані шаблони для співпраці агентів, чи це буде через структуровану розмову, делегування завдань або систему спільної пам'яті. Це дозволяє створити професійну команду, де кожен агент використовує свої унікальні здібності для спільного вирішення проблеми.

Окрім основної функціональності, реальна корисність фреймворку в значній мірі залежить від його функцій та інтеграції. Інструменти значно розширили фактичну функціональність агента. Агент з обмеженим доступом LLM може брати участь у розмові, але якщо надати йому доступ до веб-браузера, він зможе отримувати реальну інформацію. Підключивши його до вашого API календаря, він зможе назначати зустрічі. Кожен новий інструмент потрійно збільшує функціональність агента. З точки зору розробника, чим більше інструментів, тим більші можливості та експериментальний діапазон.

Ми оцінюємо функціональність криптовалютного фреймворку з трьох аспектів:

Підтримка та функції моделей штучного інтелекту: Потужний фреймворк пропонує вбудовану інтеграцію з кількома мовними моделями – від сімейства GPT від OpenAI до альтернатив з відкритим вихідним кодом, таких як Llama та Mistral. Але це не тільки LLM. Підтримка інших функцій штучного інтелекту, таких як перетворення тексту в мову, використання браузера, генерація зображень і висновування нативної моделі, може значно розширити можливості агентів. Потужна підтримка моделей стає обов'язковою для багатьох із цих фреймворків.
Підтримка інфраструктури Web3: Побудова криптовалютних агентів передбачає глибоку інтеграцію з інфраструктурою блокчейну. Це означає підтримку необхідних компонентів Web3, таких як гаманці для підписання транзакцій, RPC для ланцюжкового зв'язку та індексатори для доступу до даних. Потужний фреймворк повинен інтегруватися з основними інструментами та сервісами всього екосистеми, від NFT-ринку та DeFi-протоколів до рішень з питань ідентифікації та шарів доступності даних.
Покриття мережі: підтримка інфраструктури Web3 визначає, що можуть робити агенти, тоді як покриття мережі визначає, де вони можуть це робити. Криптоекосистема перетворюється на децентралізованого, багатоланцюгового гіганта, що підкреслює важливість широкого охоплення ланцюга.

Зрештою, навіть найпотужніші фреймворки можуть бути настільки хорошими, наскільки хороший досвід розробника. Фреймворк може похвалитися першокласною функціональністю, але він ніколи не буде широко прийнятий, якщо розробникам буде складно його ефективно використовувати.

Мова, яку використовує фреймворк, безпосередньо впливає на те, хто може його використовувати для побудови. Python займає лідируючі позиції в галузі штучного інтелекту та науки про дані, тому він природним чином стає вибором для фреймворків штучного інтелекту. Фреймворки, написані мовами з невеликою кількістю користувачів, можуть мати унікальні переваги, але можуть відокремити себе від широкої екосистеми розробників. JavaScript завдяки своїй поширеності в веб-розробці стає ще одним потужним конкурентом, особливо для фреймворків, що орієнтовані на веб-інтеграцію.
Чітка, всеосяжна документація є життєво важливою для розробників, які використовують новий фреймворк. Це не тільки посилання на API, хоча вони також є надзвичайно важливими. Потужна документація включає у себе огляд концепцій основних принципів, посібники по кроковій роботі, код з прикладами з коментарями, освітні посібники, посібники з усунення неполадок та встановлені шаблони.

Результат

Нижче наведена таблиця, яка узагальнює виступ кожної рамки за параметрами, що ми щойно визначили (рейтинг 1-5).

! QTbxg0nhpjbbKbgJdAE0VDDYvQN3qF5biJlLAxNq.png

Хоча обговорення причин кожної точки даних виходить за рамки цього тексту, але ось кілька вражень, які залишили кожен фреймворк в нас.

Eliza є найбільш високоякісним фреймворком у цьому списку. Оскільки фреймворк Eliza став ключовою точкою штурму штучного інтелекту в криптовалютній екосистемі в останніх хвилях, його особливістю є велика кількість підтримуваних функцій та інтеграцій.

! ZK8bWvOX185Ygh0O1vGd5JaLPrIjlTgHtKXkXlkm.png

Через свою популярність, кожен блокчейн та інструмент розробника поспішають інтегрувати себе в цю структуру (наразі у ньому підтримано майже 100 інтеграцій!). Водночас Eliza також привертає більше активностей розробників, ніж більшість інших структур. Eliza принаймні на короткий термін користується деякими дуже чіткими мережевими ефектами. Ця структура написана на TypeScript, що є зрілим мовою, якою користуються як початківці, так і досвідчені розробники, що сприяє подальшому її розвитку.

Еліза виділяється також своїм багатим навчальним контентом та посібниками для розробників, які використовують цю платформу.

Ми вже бачили ряд агентів, які використовують фреймворк Eliza, включаючи Spore, Eliza (агент) та Pillzumi. Нову версію фреймворку Eliza планується випустити протягом наступних кількох тижнів.

**Метод Rig зовсім не схожий на метод Eliza. Він виділяється на тлі маючи потужне, легке та високопродуктивне ядро. Він підтримує різноманітні режими мислення, включаючи ланцюжок підказок (послідовне застосування підказок), компонування (координація декількох агентів), умовну логіку та паралельність (одночасне виконання операцій).

Проте сам Rig не має такого різноманітного інтеграції. Навпаки, він використовує інший підхід, який команда називає «рукостисканням Arc». Тут команда Arc співпрацює з різними високоякісними командами з Web2 та Web3 для розширення функціоналу Rig. Деякі з цих співпраць включають розробку агентських особистостей у співпраці з Soulgraph, а також розробку функцій блокчейну у співпраці з Listen та Solana Agent Kit.

Незважаючи на це, Rig має два недоліки. По-перше, він написаний на Rust, і хоча має відмінну продуктивність, менше розробників знайомі з ним. Вдруге, ми бачили обмежену кількість агентів, які використовують Rig в реальних застосунках (AskJimmy є винятком), що ускладнює оцінку справжнього прийняття розробниками.

Перед тим, як почати Мрії наявності, засновник lordOfAFew був основним учасником у фреймворку Eliza. Це дало йому змогу ознайомитися з розвитком цього фреймворку, а ще важливіше - знайомство з деякими його недоліками. Відмінність Daydreams від інших фреймворків полягає в тому, що він фокусується на ланцюговому мисленні, щоб допомогти агентам досягти довгострокових цілей. Це означає, що при постановці високорівневої та складної мети агент проводитиме багатоетапне мислення, пропонуючи різні дії, приймаючи або відкидаючи їх в залежності від того, чи допомагають вони досягти мети, і продовжуватиме цей процес для досягнення прогресу. Це робить агентів, створених з використанням Daydreams, дійсно автономними.

Вплив досвіду з розробки ігрових проектів засновників відобразився на цьому підході. Ігри, особливо ланцюжкові ігри, є ідеальним середовищем для тренування агентів та перевірки їх здатностей. Не дивно, що деякі ранні застосування агента Daydreams були в іграх, таких як Pistols, Istarai та PonziLand.

Фреймворк також має потужну реалізацію робочого процесу для спільної роботи та оркестрування кількох агентів.

Схоже з Daydreams, Pippin також є наслідником у фреймворку гри. Ми докладно розглянемо його випуск у цій статті. Основною метою Йохея є зробити агентів "цифровими істотами", які здатні розумно та автономно функціонувати за допомогою доступу до правильних інструментів. Ця мета відображена в простому та елегантному ядрі Pippin. Завдяки всього кільком рядкам коду можна створити складного агента, який може автономно функціонувати навіть і писати код самостійно.

! MAHfGrrIS2Xy6VWc4t47Sxn3wWWKjZDbLKoRAGAb.png

Недоліком цієї структури є навіть відсутність таких базових функцій, як підтримка вбудованих векторів та робочий процес RAG. Вона також підтримує розробників у використанні сторонньої бібліотеки Composio для більшості інтеграцій. Порівняно з іншими обговорюваними структурами до цього часу вона зовсім не є достатньо зрілою.

Деякі з проксі-серверів, побудованих за допомогою Pippin, включають Ditto і Telemafia.

Zerepy має відносно просте ядро реалізації. Він ефективно вибирає одне завдання з набору налаштованих завдань і виконує його за потреби. Однак в ньому відсутні складні режими мислення, такі як цільове ведення або ланцюжкове планування.

Хоча він підтримує виклики до кількох LLM, він не має жодної вбудованої або реалізації RAG. Він також не має жодних мов для пам'яті або багатоагентної координації.

Ця відсутність основної функціональності та інтеграції відображається на узгодженні Zerepy. Ми ще не бачили жодного реального агента, який би використовував цю рамку.

! jfKrVvasyMpTHCKaLZGOL1iDN1UqQkngP4aTwhrw.png

Використовуйте рамку для побудови

Якщо все це звучить дуже технічно і теоретично, ми не звинувачуватимемо вас. Просте запитання - “Які агенти я можу побудувати за допомогою цих фреймворків, не пишучи власний код?”.

Для оцінки цих фреймворків на практиці ми визначили п'ять типів агентів, які розробники часто хочуть створити. Вони представляють різний рівень складності та тестують різні аспекти функціональності кожного фреймворку.

Документообіговий агент: Тестування основних функцій RAG, включаючи обробку документів, збереження контексту, точність цитування та управління пам'яттю. Цей тест показує здатність керування фреймворка між справжнім розумінням документів та простим відповіданням на шаблони.
Чат-бот: оцініть систему пам'яті та узгодженість дій. Ця структура повинна зберігати послідовність особистих рис, пам'ятати ключову інформацію у розмові та дозволяти налаштування особистості, фактично перетворюючи безстатевого чат-бота на постійну цифрову сутність.
Торговий робот на ланцюжку: шляхом обробки даних реального часу на ринку, виконання міжланцюжкових угод, аналізу соціального настрою та впровадження торгових стратегій для зовнішньої інтеграції проводяться тести на міцність. Це розкриває, як фреймворк впорається з складною інфраструктурою блокчейну та підключенням API.
NPC гри: Навіть як світ тільки почав звертати увагу на агентів в останній рік, агенти як некеровані персонажі гри (NPC) відіграли важливу роль протягом десятиліть. Агенти гри переходять від правилованих агентів до інтелектуальних агентів, які працюють на основі LLM, і залишаються ключовим випадком застосування фреймворку. Тут ми тестуємо здатність агентів розуміти середовище, самостійно мислити про сценарії та досягати довгострокових цілей.
Голосові помічники: оцінюйте обробку в реальному часі та взаємодію з користувачем за допомогою обробки голосу, швидкого часу відповіді та інтеграції з платформою обміну повідомленнями. Це перевіряє здатність фреймворку підтримувати по-справжньому інтерактивні додатки, які виходять за рамки простої моделі запит-відповідь.

Ми надали 5 балів для кожного фреймворку для кожного типу агента. Ось їхня продуктивність:

! texgEesLgKZk5FxG1Dv8uWFaehDt7zDrzfEzGeu1.png

Відкриті показники

! O8m4ShXL3jqjBDkDuKi9liuV2S1kBT3x5oqoX8dd.png

Під час оцінки цих каркасів більшість аналітиків дуже звертають увагу на показники GitHub, такі як зірочки та розгалуження. Тут ми швидко розглянемо, що ці показники означають і наскільки вони вказують на якість каркасу.

Зірки виступають найяскравішим сигналом популярності. По суті, це закладки, які розробники ставлять проектам, які їх вважають цікавими або хочуть відстежувати. Хоча велика кількість зірок свідчить про широке розповсюдження та інтерес, вона може бути вважана оманливою. Проекти іноді набирають зірки завдяки маркетингу, а не технічній цінності. Слід розглядати зірки як соціальне підтвердження, а не як критерій якості.

Кількість форків показує, скільки розробників створили власні копії кодової бази для відштовхування. Більша кількість форків зазвичай є ознакою того, що розробники активно використовують і розширюють проект. Тобто багато форків з часом відмовляються, тому початкова кількість форків вимагає контексту.

Кількість учасників вказує на те, скільки різних розробників фактично подали код у цей проект. Це зазвичай має більший зміст, ніж зірочки або відгалуження. Здорова кількість постійних учасників свідчить про те, що у проекті існує активна спільнота, яка його підтримує та поліпшує його.

Ми йдемо ще далі, створюючи власний показник — бал учасника. Ми оцінюємо публічну історію кожного розробника, включаючи їхні минулі внески в інші проекти, частоту активності та популярність їх облікового запису, щоб призначити кожному учаснику бал. Потім ми обчислюємо середнє значення всіх учасників проекту та вагуємо їх внесок залежно від кількості внесків.

Що ці цифри означають для нашої структури?

У більшості випадків кількість зірочок може бути ігнорована. Вони не є значущим показником у випадку участі. Виняток становить Eliza, яка колись була найбільшим трендовим репозиторієм на GitHub серед усіх проектів, що відповідає її статусу Шелінської точки в усьому криптосвіті. Крім того, відомі розробники, такі як 0xCygaar, також внесли свій внесок у цей проєкт. Це також відображено в кількості учасників - Eliza залучила учасників у 10 разів більше, ніж інші проекти.

Крім того, Daydreams цікавий нам просто тим, що приваблює висококласних розробників. Оскільки він запізнився на запуск після піку ажіотажу, він не виграв від мережевих ефектів Елізи.

Що далі?

Якщо ви розробник, ми сподіваємося, що ми принаймні надали вам стартову точку для вибору того фреймворку (якщо вам потрібно). Окрім цього, вам все одно потрібно докладати зусиль для тестування основної логіки та інтеграції кожного фреймворку з вашим використанням. Цього не уникнути.

З точки зору спостерігача важливо пам'ятати, що всі ці фреймворки штучного інтелекту ще не виповнили трьох місяців. (Так, здається, це триває довше.) Протягом цього часу вони перетворилися з високохайпових на так звані "палаци в повітрі". Ось в чому суть технології. Незважаючи на таку коливанливість, ми вважаємо, що ця галузь - це цікавий та стійкий новий експеримент у сфері криптографії.

Наступним важливим є те, як ці каркаси стануть дорослими у технічному та грошовому аспектах.

З технічної точки зору, рамка може створити найбільшу перевагу, яку вона може надати агентам, щоб вони могли взаємодіяти на ланцюжку безшовно. Це основна причина, чому розробники обирають шифровану вихідну рамку, а не загальну рамку. Крім того, технологія агентів та побудови агентів - це актуальна глобальна технічна проблема, яка щодня розвивається. Рамка також повинна постійно розвиватися та адаптуватися до цих змін.

Як фреймворк може зробити гроші більш цікавими. На цьому етапі створення платформи для запуску, натхненної Virtuals, є легким плодом проекту. Але ми вважаємо, що тут є багато місця для експериментів. Ми рухаємось у майбутнє з мільйонами агентів, які спеціалізуються на різних сегментах, які можна уявити. Інструменти, які допомагають їм ефективно координувати, можуть виловити велику вартість з комісій за угоди. Як портал для будівництва, фреймворк, звичайно ж, найкраще підходить для збагачення цієї вартості.

У той же час, монетизація фреймворків також маскується під проблему монетизації проектів з відкритим вихідним кодом і винагороди дописувачів, які історично виконували безкоштовну, невдячну роботу. Якщо команда зможе зламати код про те, як створити стійку економіку з відкритим вихідним кодом, зберігаючи при цьому її базовий дух, наслідки вийдуть далеко за рамки проксі-сервера.

Це теми, які ми сподіваємося дослідити протягом наступних кількох місяців.

ELIZA-4.76%

Переглянути оригінал