最高のAIツールを見つけ出しましょう

あらゆるタスクのための人工知

その他(4387)

Abstractive-Summarizer-On-Cnn_Dailymail-Dataset.

T5 LLM で CNN/DM データセットの要約にファインチューニングされたもの。

ファインチューニングされた T5 モデルCNN/DM データセットテキスト要約

Aart-Ai-Safety-Dataset

AARTデータセットは、多様なデータでAIセキュリティレッドチームングに使用されます。

LLMアプリケーション向けに多様なデータを生成しますAI支援レッドチームングをサポートしますAIセキュリティテストを強化します

会話型ウェブナビゲーションエージェントのベンチマーク

ウェブナビゲーションエージェントを構築します会話機能AIベンチマーク

Usability-Benchmarking-Framework-Project

LLM GUIエージェントを使用してソフトウェアマニュアルを評価し、利用可能性ベンチマークを行う。

ソフトウェアマニュアルの評価LLMで駆動されるGUIエージェント利用可能性ベンチマークフレームワーク

UnixタスクにおけるLLMエージェントのベンチマークング。

AI ツールディレクトリ

LLMエージェントベンチマークングを実行するUnix環境に焦点を当てるパフォーマンスメトリクスを提供する

Theagentcompany

シミュレートされたソフトウェア会社でのタスクを含むエージェントベンチマーク。

エージェントベンチマークシミュレートされたソフトウェアタスクAIエージェントテスト環境

ストリーミングシナリオにおけるLLMエージェントの改善のためのベンチマーク。

LLMエージェントを時間の経過にわたって評価ストリーミングシナリオに焦点を当てる革新的なベンチマークアプローチ

LLMプライバシー管理のためのモジュラーなベンチマークスイート。

LLMプライバシーを評価プライバシーケース能力を向上モジュラー設計

現実世界のSOP（標準作業手順）で評価するllmエージェントのベンチマーク。

標準作業手順でllmエージェントを評価現実世界のシナリオテスト性能評価ツール

ゲームを使用してLLMの主要な能力をテストするベンチマークです。

ゲームを使用してLLMの能力をテストしますエージェントの性能に焦点を当てますマイクロソフトのAIイニシアティブの一部です

LLMベースのエージェントを使用した法廷シミュレーションのベンチマークおよびフレームワーク。

法廷シミュレーションベンチマークLLMベースのエージェントフレームワーク法的手法AIの研究ツール

現実世界のAPIベースのエージェントのための大規模なベンチマーク。

APIベースのエージェントの性能を評価現実世界のデータセットが含まれる研究のためのオープンソース

Shampoosalesagent

最小限のLLM販売エージェントフレームワークで、迅速なデプロイメントとベンチマークが可能です。

OpenAIモデルをサポートClaudeをサポートHuggingFaceモデルをサポート

安全なタスク計画のためのエンブodied LLMエージェントのベンチマーク。

安全なタスク計画ベンチマーク研究論文のためのコードエンブodied LLMエージェント評価

LLMエージェントの安全リスク認識のベンチマークング。

安全リスク認識のベンチマークングLLMエージェント評価EMNLP Findings 2024

Pharmasimtext-Os-Llms

JEDM 2025 AI研究のためのベンチマークとエージェント。

ベンチマークデータセットを含むAIエージェントを特徴付けるJEDM 2025のレビュー中

Overcooked_Ai_Llm

OvercookedAIでLLMを使用した多代理体計画の研究プロジェクト。

LLMベースの多代理体計画OvercookedAIベンチマーク統合AI協力に関する研究

リアルなコンピュータ環境におけるオープンエンドタスクのための多模態エージェントのベンチマークング。

多模態エージェントベンチマークングオープンエンドタスクテストリアルなコンピュータ環境統合

Multiagent-Collab-Scenario-Benchmark

LLMマルチエージェント協力システムのためのベンチマークツール。

ベンチマークデータを提供協力スクリプトを含むAWS Bedrock Agents Scienceチームから

LLMベースのモバイルエージェントのための評価ベンチマーク

オープンソース AI モデル

LLMベースのモバイルエージェントを評価標準化されたテストを提供モバイルに焦点を当てたAIパフォーマンス分析

Ml-Research-Agent-Tasks

AIエージェントのベンチマークとして、研究開発を加速させるもの。

AIエージェントの能力を評価するAI研究を加速するアルゴリズミックリサーチグループによって開発された

Ml-Research-Agent-Public

MLリサーチベンチマークおよび評価のための公開エージェント。

MLエージェントの比較のための基盤機械学習リサーチの評価公開可能なリサーチツール

Llmtaskplanning

LLMタスクプランナーのバーチャルエージェントのためのベンチマークング。

言語指向のタスクプランニングバーチャルエージェントベンチマークングICLR 2024プレゼンテーション

BrowserGymとAgentLabを使用したLLMエージェントのためのOODベンチマーク研究

BrowserGymとAgentLabに基づくLLMエージェントのためのOODベンチマークGitHubリポジトリが利用可能

Page 135 of 183