Discover the Best AI Tools

Your ultimate directory for finding the right artificial intelligence solutions for any task.

기타(4387)

Abstractive-Summarizer-On-Cnn_Dailymail-Dataset.

T5 LLM을 CNN/DM 데이터셋 요약을 위해 미세조정(fine-tuned)했습니다.

미세조정된 T5 모델CNN/DM 데이터셋텍스트 요약

Aart-Ai-Safety-Dataset

다양한 데이터를 활용한 AI 안전성 레드팀링 AART 데이터셋

LLM 응용 프로그램용 다양한 데이터 생성AI 보조 레드팀링 지원AI 안전성 테스트 향상

대화형 웹 네비게이션 에이전트를 구축하기 위한 벤치마크

text generationwriting toolsNLP utilities

Usability-Benchmarking-Framework-Project

LLM GUI 에이전트를 사용하여 소프트웨어 매뉴얼을 평가하고 사용성 벤치마킹을 수행합니다.

usability testing frameworkAI writing evaluation

Unix 작업에서 LLM 에이전트를 벤치마킹합니다.

AI 도구 디렉토리

performance testingAI agent evaluationcomparison

Theagentcompany

시뮬레이션된 소프트웨어 회사에서의 작업을 포함한 에이전트 벤치마킹.

에이전트 벤치마킹시뮬레이션된 소프트웨어 작업AI 에이전트 테스트 환경

스트리밍 시나리오에서 LLM 에이전트의 개선을 위한 벤치마크입니다.

시간에 따라 LLM 에이전트를 평가합니다스트리밍 시나리오에 중점을 둡니다초기적인 벤치마크 접근 방식입니다

LLM 프라이버시 관리를 위한 모듈식 벤치마크 세트.

generates product descriptionsbased on GitHub repository

실제 세계의 SOP(표준 운영 절차)에 대한 llm 에이전트 평가를 위한 벤치마크입니다.

표준 운영 절차에 대한 llm 에이전트 평가실제 세계 시나리오 테스트성능 평가 도구

게임을 사용하여 핵심 기능을 테스트하는 LLM의 벤치마크입니다.

게임을 사용하여 LLM 기능을 테스트합니다에이전트 성능에 중점을 둡니다마이크로소프트의 AI 이니셔티브의 일부입니다

LLM 기반 에이전트를 사용한 법원 시뮬레이션을 위한 벤치마크 및 프레임워크.

story generationcharacter developmentplot creation

실제 세계 API 기반 에이전트를 위한 대규모 벤치마크.

API 기반 에이전트 성능 평가실제 세계 데이터셋 포함연구를 위한 오픈 소스

Shampoosalesagent

최소한의 LLM 판매 에이전트 프레임워크로 빠른 배포 및 벤치마킹을 지원합니다.

generates detailed shampoo descriptionscustomizable contentoptimized for sales

엠비디드 LLM 에이전트의 안전한 작업 계획의 벤치마크.

안전한 작업 계획 벤치마크연구 논문용 코드엠비디드 LLM 에이전트 평가

LLM 에이전트의 안전 위험 인식을 평가합니다.

안전 위험 인식 평가LLM 에이전트 평가EMNLP 결과 2024

Pharmasimtext-Os-Llms

JEDM 2025 AI 연구를 위한 벤치마크와 에이전트.

벤치마크 데이터셋을 포함합니다AI 에이전트를 특징으로 합니다JEDM 2025를 위해 검토 중

Overcooked_Ai_Llm

OvercookedAI에서 LLMs를 사용한 다중 에이전트 계획을 위한 연구 프로젝트.

LLM 기반 다중 에이전트 계획OvercookedAI 벤치마크 통합AI 협력에 대한 연구

실제 컴퓨터 환경에서의 개방형 작업을 위한 다중 모달 에이전트 벤치마킹.

다중 모달 에이전트 벤치마킹개방형 작업 테스트실제 컴퓨터 환경 통합

Multiagent-Collab-Scenario-Benchmark

LLM 다중 에이전트 협업 시스템을 위한 벤치마킹 도구.

벤치마킹 데이터 제공협업 스크립트 포함AWS Bedrock Agents Science 팀에서 제공

LLM 기반 모바일 에이전트용 평가 벤치마크

오픈 소스 AI 모델

LLM 기반 모바일 에이전트를 평가합니다표준화된 테스트를 제공합니다모바일 중심 AI 성능 분석

Ml-Research-Agent-Tasks

AI 에이전트의 연구 및 개발을 가속화하기 위한 벤치마크.

AI 에이전트 능력 평가AI 연구 가속화알고리즘 연구 그룹에서 개발됨

Ml-Research-Agent-Public

ML 연구 벤치마킹 및 평가를 위한 공공 대리인.

ML 에이전트 비교를 위한 기초머신 러닝 연구 평가공개 가능한 연구 도구

Llmtaskplanning

엔티티 에이전트를 위한 LLM 작업 플래너 벤치마킹.

언어 지향적 작업 플래너엔티티 에이전트 벤치마킹ICLR 2024 발표

BrowserGym과 AgentLab을 사용한 LLM 에이전트의 OOD 벤치마크 연구.

BrowserGym과 AgentLab을 기반으로 함LLM 에이전트용 OOD 벤치마크GitHub 저장소 제공 가능

Page 135 of 183