AI Awesome
ホーム
最高のAIツールを見つけ出しましょう
あらゆるタスクのための人工知
Search
その他
(4387)
L
unknown
Llm_Scavengerhunt
新しいベンチマークがLLMエージェントの探索任務に設定されました。
その他
LLMエージェントの任務向けに設計されています
UC Berkeleyによって作成されました
評価指標を提供します
L
unknown
Llm-Agent-Ask-For-Help
ベンチマークLLMエージェントによる早期タスク終了
その他
LLMエージェントの早期タスク終了能力を評価
順次タスク完了に焦点を当てる
LLMエージェントの性能指標を提供
L
unknown
Llf-Bench
学習エージェントを評価するためのベンチマーク(言語フィードバックを使用)
その他
学習エージェントを評価
言語フィードバックを使用
言語ベースのベンチマークング
L
unknown
LibreEval
オープンソースのRAG虚構検知ベンチマーク
その他
RAGシステムにおける虚構を検知
オープンソースのLLM評価を提供
標準化された評価指標を提供
L
unknown
Level-Navi-Agent-Search
トレーニングなしのLLMフレームワークで深いクエリ理解。
その他
大規模言語モデルを利用
深いクエリ理解
正確な検索結果
L
unknown
Lawful-Good
法的なLLMエージェントの能力のベンチマーク
その他
法的な能力を評価
LLMエージェント向け
法的なベンチマークを提供
I
unknown
Impact-Academy
LLMエージェントの改善のためのAuto-Enhanceメタベンチマーク。
その他
LLMエージェントの改善を測定
ベンチマークを自動的に向上させる
他のLLMエージェントを改善
H
open source
Hosting-7B-Llm-On-Google-Cloud
Google Cloud VMsでllama.cppを使って7B LLMsをベンチマークする
その他
さまざまなgcloud VMでのスピードテスト
llama.cppを使ったLLMホスティング
異なる設定のパフォーマンス比較
G
unknown
Goodai-Ltm-Benchmark
ベンチマークLLMエージェントの長期記憶と継続学習を評価します。
その他
LLMの長期記憶をテストします
継続学習を評価します
ベンチマークツールを提供します
G
unknown
Gamabench
LLMのゲーム能力をマルチエージェント環境で評価
その他
ゲームシナリオでのLLMの評価
マルチエージェント環境の焦点
オープンソースプロジェクト
F
unknown
Flowbench
ワークフロー指導を用いたLLMベースエージェントのベンチマークング
その他
ワークフローガイドドプランニングの再訪
LLMエージェントのベンチマークング
EMNLP 2024で発表
E
open source
Embodied-Agent-Interface.Github.Io
エンブodied デシジョンで LLM をベンチマークするためのウェブサイト。
AI ツール ディレクトリ
プロジェクトのウェブサイト
論文の詳細
LLM のベンチマーク
D
open source
Diplomacy-Llm
ディプロマシーゲームの結果を使用した公開LLMベンチマーク。
その他
ディプロマシーゲームにおけるLLMエージェントのベンチマーク
公開されているLLMのパフォーマンスデータ
AI外交戦略の比較分析
D
unknown
Dinersim
LLMベースのマルチエージェント協力のためのレストランシミュレーションベンチマーク
その他
マルチエージェント協力テスト
LLM統合
レストランシミュレーション環境
D
unknown
Debatellm
マルチエージェントディベートでLLMを評価して真実性を測定する。
その他
マルチエージェントディベートシステム
言語モデルの評価
質疑応答における真実性の評価
C
open source
Comfybench
ComfyUIでAIシステム設計のためのLLMエージェントのベンチマークング。
その他
ベンチマークングLLMベースのエージェント
自律的な設計能力
ComfyUIの実装
C
unknown
Chat-Agent-Evalution
複数のベンチマークでLLMチャットエージェントを評価している。
その他
LLMチャットエージェントを評価する
複数のベンチマークを使用する
パフォーマンスメトリクスを提供する
B
unknown
Bolaa
ベンチマークングとLLM拡張エージェントのオーケストレーション
その他
LLM拡張エージェントのベンチマークング
LLM拡張エージェントのオーケストレーション
LLMの性能評価
B
open source
Bigcodebench
人工知能(AGI)へのコード生成のベンチマーク。
その他
コード生成モデルを評価
標準化されたデータセットを提供
AGIに関する研究を支援
B
unknown
Balrog
ゲームにおけるエージェント型LLMとVLMの推論のベンチマークング。
その他
エージェント型LLMの推論のベンチマークング
エージェント型VLMの推論のベンチマークング
ゲームシナリオに焦点を当てる
A
unknown
Appworld-Leaderboard
AppWorldアプリエージェントベンチマークのランキング
その他
インタラクティブコーディングエージェントのベンチマーク
AppWorldランキングリポジトリ
ACL2024発表
A
unknown
Appworld
AppWorld: コーディングエージェントベンチマークのためのコントロール可能なアプリ環境。
その他
コントロール可能なアプリ世界
人間とのインタラクション
ベンチマークツール
A
unknown
Agentlab
オープンソースフレームワークで、様々なタスクでウェブエージェントを開発します。
その他
ウェブエージェントの開発
エージェントのテストとベンチマーク
拡張可能な設計
I
unknown
Introduction to Agentic Memory
LLMにおける自律的記憶について、高度なAIシステムを学びます。
その他
LLMエージェント記憶に焦点を当てます
記憶メカニズムをカバーします
LLMオペレーティングシステムの一部です
Previous
Page 136 of 183
Next