AI Awesome
ホーム
最高のAIツールを見つけ出しましょう
あらゆるタスクのための人工知
Search
その他
(4387)
A
open source
Abstractive-Summarizer-On-Cnn_Dailymail-Dataset.
T5 LLM で CNN/DM データセットの要約にファインチューニングされたもの。
その他
ファインチューニングされた T5 モデル
CNN/DM データセット
テキスト要約
A
unknown
Aart-Ai-Safety-Dataset
AARTデータセットは、多様なデータでAIセキュリティレッドチームングに使用されます。
その他
LLMアプリケーション向けに多様なデータを生成します
AI支援レッドチームングをサポートします
AIセキュリティテストを強化します
W
open source
Weblinx
会話型ウェブナビゲーションエージェントのベンチマーク
その他
ウェブナビゲーションエージェントを構築します
会話機能
AIベンチマーク
U
unknown
Usability-Benchmarking-Framework-Project
LLM GUIエージェントを使用してソフトウェアマニュアルを評価し、利用可能性ベンチマークを行う。
その他
ソフトウェアマニュアルの評価
LLMで駆動されるGUIエージェント
利用可能性ベンチマークフレームワーク
U
open source
Unixagentbench
UnixタスクにおけるLLMエージェントのベンチマークング。
AI ツール ディレクトリ
LLMエージェントベンチマークングを実行する
Unix環境に焦点を当てる
パフォーマンスメトリクスを提供する
T
unknown
Theagentcompany
シミュレートされたソフトウェア会社でのタスクを含むエージェントベンチマーク。
その他
エージェントベンチマーク
シミュレートされたソフトウェアタスク
AIエージェントテスト環境
S
unknown
Stream-Bench
ストリーミングシナリオにおけるLLMエージェントの改善のためのベンチマーク。
その他
LLMエージェントを時間の経過にわたって評価
ストリーミングシナリオに焦点を当てる
革新的なベンチマークアプローチ
S
unknown
Sphnx
LLMプライバシー管理のためのモジュラーなベンチマークスイート。
その他
LLMプライバシーを評価
プライバシーケース能力を向上
モジュラー設計
S
unknown
Sop-Bench
現実世界のSOP(標準作業手順)で評価するllmエージェントのベンチマーク。
その他
標準作業手順でllmエージェントを評価
現実世界のシナリオテスト
性能評価ツール
S
unknown
Smartplay
ゲームを使用してLLMの主要な能力をテストするベンチマークです。
その他
ゲームを使用してLLMの能力をテストします
エージェントの性能に焦点を当てます
マイクロソフトのAIイニシアティブの一部です
S
unknown
Sim-Court
LLMベースのエージェントを使用した法廷シミュレーションのベンチマークおよびフレームワーク。
その他
法廷シミュレーションベンチマーク
LLMベースのエージェントフレームワーク
法的手法AIの研究ツール
S
unknown
Shortcutsbench
現実世界のAPIベースのエージェントのための大規模なベンチマーク。
その他
APIベースのエージェントの性能を評価
現実世界のデータセットが含まれる
研究のためのオープンソース
S
unknown
Shampoosalesagent
最小限のLLM販売エージェントフレームワークで、迅速なデプロイメントとベンチマークが可能です。
その他
OpenAIモデルをサポート
Claudeをサポート
HuggingFaceモデルをサポート
S
unknown
Safeagentbench
安全なタスク計画のためのエンブodied LLMエージェントのベンチマーク。
その他
安全なタスク計画ベンチマーク
研究論文のためのコード
エンブodied LLMエージェント評価
R
unknown
R-Judge
LLMエージェントの安全リスク認識のベンチマークング。
その他
安全リスク認識のベンチマークング
LLMエージェント評価
EMNLP Findings 2024
P
open source
Pharmasimtext-Os-Llms
JEDM 2025 AI研究のためのベンチマークとエージェント。
その他
ベンチマークデータセットを含む
AIエージェントを特徴付ける
JEDM 2025のレビュー中
O
open source
Overcooked_Ai_Llm
OvercookedAIでLLMを使用した多代理体計画の研究プロジェクト。
その他
LLMベースの多代理体計画
OvercookedAIベンチマーク統合
AI協力に関する研究
O
unknown
Osworld
リアルなコンピュータ環境におけるオープンエンドタスクのための多模態エージェントのベンチマークング。
その他
多模態エージェントベンチマークング
オープンエンドタスクテスト
リアルなコンピュータ環境統合
M
open source
Multiagent-Collab-Scenario-Benchmark
LLMマルチエージェント協力システムのためのベンチマークツール。
その他
ベンチマークデータを提供
協力スクリプトを含む
AWS Bedrock Agents Scienceチームから
M
open source
Mobilebench
LLMベースのモバイルエージェントのための評価ベンチマーク
オープンソース AI モデル
LLMベースのモバイルエージェントを評価
標準化されたテストを提供
モバイルに焦点を当てたAIパフォーマンス分析
M
unknown
Ml-Research-Agent-Tasks
AIエージェントのベンチマークとして、研究開発を加速させるもの。
その他
AIエージェントの能力を評価する
AI研究を加速する
アルゴリズミックリサーチグループによって開発された
M
open source
Ml-Research-Agent-Public
MLリサーチベンチマークおよび評価のための公開エージェント。
その他
MLエージェントの比較のための基盤
機械学習リサーチの評価
公開可能なリサーチツール
L
unknown
Llmtaskplanning
LLMタスクプランナーのバーチャルエージェントのためのベンチマークング。
その他
言語指向のタスクプランニング
バーチャルエージェントベンチマークング
ICLR 2024プレゼンテーション
L
unknown
Llmagentoodgym
BrowserGymとAgentLabを使用したLLMエージェントのためのOODベンチマーク研究
その他
BrowserGymとAgentLabに基づく
LLMエージェントのためのOODベンチマーク
GitHubリポジトリが利用可能
Previous
Page 135 of 183
Next