AIAwesome
홈
Discover the Best AI Tools
Your ultimate directory for finding the right artificial intelligence solutions for any task.
Search
기타
(4387)
A
open source
Abstractive-Summarizer-On-Cnn_Dailymail-Dataset.
T5 LLM을 CNN/DM 데이터셋 요약을 위해 미세조정(fine-tuned)했습니다.
기타
미세조정된 T5 모델
CNN/DM 데이터셋
텍스트 요약
A
unknown
Aart-Ai-Safety-Dataset
다양한 데이터를 활용한 AI 안전성 레드팀링 AART 데이터셋
기타
LLM 응용 프로그램용 다양한 데이터 생성
AI 보조 레드팀링 지원
AI 안전성 테스트 향상
W
open source
Weblinx
대화형 웹 네비게이션 에이전트를 구축하기 위한 벤치마크
기타
text generation
writing tools
NLP utilities
U
unknown
Usability-Benchmarking-Framework-Project
LLM GUI 에이전트를 사용하여 소프트웨어 매뉴얼을 평가하고 사용성 벤치마킹을 수행합니다.
기타
usability testing framework
AI writing evaluation
U
open source
Unixagentbench
Unix 작업에서 LLM 에이전트를 벤치마킹합니다.
AI 도구 디렉토리
performance testing
AI agent evaluation
comparison
T
unknown
Theagentcompany
시뮬레이션된 소프트웨어 회사에서의 작업을 포함한 에이전트 벤치마킹.
기타
에이전트 벤치마킹
시뮬레이션된 소프트웨어 작업
AI 에이전트 테스트 환경
S
unknown
Stream-Bench
스트리밍 시나리오에서 LLM 에이전트의 개선을 위한 벤치마크입니다.
기타
시간에 따라 LLM 에이전트를 평가합니다
스트리밍 시나리오에 중점을 둡니다
초기적인 벤치마크 접근 방식입니다
S
unknown
Sphnx
LLM 프라이버시 관리를 위한 모듈식 벤치마크 세트.
기타
generates product descriptions
based on GitHub repository
S
unknown
Sop-Bench
실제 세계의 SOP(표준 운영 절차)에 대한 llm 에이전트 평가를 위한 벤치마크입니다.
기타
표준 운영 절차에 대한 llm 에이전트 평가
실제 세계 시나리오 테스트
성능 평가 도구
S
unknown
Smartplay
게임을 사용하여 핵심 기능을 테스트하는 LLM의 벤치마크입니다.
기타
게임을 사용하여 LLM 기능을 테스트합니다
에이전트 성능에 중점을 둡니다
마이크로소프트의 AI 이니셔티브의 일부입니다
S
unknown
Sim-Court
LLM 기반 에이전트를 사용한 법원 시뮬레이션을 위한 벤치마크 및 프레임워크.
기타
story generation
character development
plot creation
S
unknown
Shortcutsbench
실제 세계 API 기반 에이전트를 위한 대규모 벤치마크.
기타
API 기반 에이전트 성능 평가
실제 세계 데이터셋 포함
연구를 위한 오픈 소스
S
unknown
Shampoosalesagent
최소한의 LLM 판매 에이전트 프레임워크로 빠른 배포 및 벤치마킹을 지원합니다.
기타
generates detailed shampoo descriptions
customizable content
optimized for sales
S
unknown
Safeagentbench
엠비디드 LLM 에이전트의 안전한 작업 계획의 벤치마크.
기타
안전한 작업 계획 벤치마크
연구 논문용 코드
엠비디드 LLM 에이전트 평가
R
unknown
R-Judge
LLM 에이전트의 안전 위험 인식을 평가합니다.
기타
안전 위험 인식 평가
LLM 에이전트 평가
EMNLP 결과 2024
P
open source
Pharmasimtext-Os-Llms
JEDM 2025 AI 연구를 위한 벤치마크와 에이전트.
기타
벤치마크 데이터셋을 포함합니다
AI 에이전트를 특징으로 합니다
JEDM 2025를 위해 검토 중
O
open source
Overcooked_Ai_Llm
OvercookedAI에서 LLMs를 사용한 다중 에이전트 계획을 위한 연구 프로젝트.
기타
LLM 기반 다중 에이전트 계획
OvercookedAI 벤치마크 통합
AI 협력에 대한 연구
O
unknown
Osworld
실제 컴퓨터 환경에서의 개방형 작업을 위한 다중 모달 에이전트 벤치마킹.
기타
다중 모달 에이전트 벤치마킹
개방형 작업 테스트
실제 컴퓨터 환경 통합
M
open source
Multiagent-Collab-Scenario-Benchmark
LLM 다중 에이전트 협업 시스템을 위한 벤치마킹 도구.
기타
벤치마킹 데이터 제공
협업 스크립트 포함
AWS Bedrock Agents Science 팀에서 제공
M
open source
Mobilebench
LLM 기반 모바일 에이전트용 평가 벤치마크
오픈 소스 AI 모델
LLM 기반 모바일 에이전트를 평가합니다
표준화된 테스트를 제공합니다
모바일 중심 AI 성능 분석
M
unknown
Ml-Research-Agent-Tasks
AI 에이전트의 연구 및 개발을 가속화하기 위한 벤치마크.
기타
AI 에이전트 능력 평가
AI 연구 가속화
알고리즘 연구 그룹에서 개발됨
M
open source
Ml-Research-Agent-Public
ML 연구 벤치마킹 및 평가를 위한 공공 대리인.
기타
ML 에이전트 비교를 위한 기초
머신 러닝 연구 평가
공개 가능한 연구 도구
L
unknown
Llmtaskplanning
엔티티 에이전트를 위한 LLM 작업 플래너 벤치마킹.
기타
언어 지향적 작업 플래너
엔티티 에이전트 벤치마킹
ICLR 2024 발표
L
unknown
Llmagentoodgym
BrowserGym과 AgentLab을 사용한 LLM 에이전트의 OOD 벤치마크 연구.
기타
BrowserGym과 AgentLab을 기반으로 함
LLM 에이전트용 OOD 벤치마크
GitHub 저장소 제공 가능
Previous
Page 135 of 183
Next