最高のAIツールを見つけ出しましょう

あらゆるタスクのための人工知

その他(4387)

Llm_Scavengerhunt

新しいベンチマークがLLMエージェントの探索任務に設定されました。

LLMエージェントの任務向けに設計されていますUC Berkeleyによって作成されました評価指標を提供します

Llm-Agent-Ask-For-Help

ベンチマークLLMエージェントによる早期タスク終了

LLMエージェントの早期タスク終了能力を評価順次タスク完了に焦点を当てるLLMエージェントの性能指標を提供

学習エージェントを評価するためのベンチマーク（言語フィードバックを使用）

学習エージェントを評価言語フィードバックを使用言語ベースのベンチマークング

オープンソースのRAG虚構検知ベンチマーク

RAGシステムにおける虚構を検知オープンソースのLLM評価を提供標準化された評価指標を提供

Level-Navi-Agent-Search

トレーニングなしのLLMフレームワークで深いクエリ理解。

大規模言語モデルを利用深いクエリ理解正確な検索結果

法的なLLMエージェントの能力のベンチマーク

法的な能力を評価LLMエージェント向け法的なベンチマークを提供

LLMエージェントの改善のためのAuto-Enhanceメタベンチマーク。

LLMエージェントの改善を測定ベンチマークを自動的に向上させる他のLLMエージェントを改善

Hosting-7B-Llm-On-Google-Cloud

Google Cloud VMsでllama.cppを使って7B LLMsをベンチマークする

さまざまなgcloud VMでのスピードテストllama.cppを使ったLLMホスティング異なる設定のパフォーマンス比較

Goodai-Ltm-Benchmark

ベンチマークLLMエージェントの長期記憶と継続学習を評価します。

LLMの長期記憶をテストします継続学習を評価しますベンチマークツールを提供します

LLMのゲーム能力をマルチエージェント環境で評価

ゲームシナリオでのLLMの評価マルチエージェント環境の焦点オープンソースプロジェクト

ワークフロー指導を用いたLLMベースエージェントのベンチマークング

ワークフローガイドドプランニングの再訪LLMエージェントのベンチマークングEMNLP 2024で発表

Embodied-Agent-Interface.Github.Io

エンブodied デシジョンで LLM をベンチマークするためのウェブサイト。

AI ツールディレクトリ

プロジェクトのウェブサイト論文の詳細LLM のベンチマーク

ディプロマシーゲームの結果を使用した公開LLMベンチマーク。

ディプロマシーゲームにおけるLLMエージェントのベンチマーク公開されているLLMのパフォーマンスデータAI外交戦略の比較分析

LLMベースのマルチエージェント協力のためのレストランシミュレーションベンチマーク

マルチエージェント協力テストLLM統合レストランシミュレーション環境

マルチエージェントディベートでLLMを評価して真実性を測定する。

マルチエージェントディベートシステム言語モデルの評価質疑応答における真実性の評価

ComfyUIでAIシステム設計のためのLLMエージェントのベンチマークング。

ベンチマークングLLMベースのエージェント自律的な設計能力ComfyUIの実装

Chat-Agent-Evalution

複数のベンチマークでLLMチャットエージェントを評価している。

LLMチャットエージェントを評価する複数のベンチマークを使用するパフォーマンスメトリクスを提供する

ベンチマークングとLLM拡張エージェントのオーケストレーション

LLM拡張エージェントのベンチマークングLLM拡張エージェントのオーケストレーションLLMの性能評価

人工知能（AGI）へのコード生成のベンチマーク。

コード生成モデルを評価標準化されたデータセットを提供AGIに関する研究を支援

ゲームにおけるエージェント型LLMとVLMの推論のベンチマークング。

エージェント型LLMの推論のベンチマークングエージェント型VLMの推論のベンチマークングゲームシナリオに焦点を当てる

Appworld-Leaderboard

AppWorldアプリエージェントベンチマークのランキング

インタラクティブコーディングエージェントのベンチマークAppWorldランキングリポジトリACL2024発表

AppWorld: コーディングエージェントベンチマークのためのコントロール可能なアプリ環境。

コントロール可能なアプリ世界人間とのインタラクションベンチマークツール

オープンソースフレームワークで、様々なタスクでウェブエージェントを開発します。

ウェブエージェントの開発エージェントのテストとベンチマーク拡張可能な設計

Introduction to Agentic Memory

LLMにおける自律的記憶について、高度なAIシステムを学びます。

LLMエージェント記憶に焦点を当てます記憶メカニズムをカバーしますLLMオペレーティングシステムの一部です

Page 136 of 183