AIAwesome
홈
Discover the Best AI Tools
Your ultimate directory for finding the right artificial intelligence solutions for any task.
Search
기타
(4387)
L
unknown
Llm_Scavengerhunt
새로운 벤치마크가 탐색 임무에서 LLM 에이전트를 위한 것입니다.
기타
LLM 에이전트 임무를 위해 설계되었습니다
캘리포니아 대학교 버클리에서 만들었습니다
평가 지표를 제공합니다
L
unknown
Llm-Agent-Ask-For-Help
Early task quitting을 위한 Benchmark LLM agents를 평가합니다.
기타
LLM agents의 일을 조기에 중단하는 능력을 평가합니다
연속적인 작업 완료에 초점을 맞춥니다
LLM agents의 성능 지표를 제공합니다
L
unknown
Llf-Bench
언어 피드백을 사용한 학습 에이전트 평가 벤치마크
기타
학습 에이전트를 평가합니다
언어 피드백을 사용합니다
언어 기반 벤치마킹
L
unknown
LibreEval
RAG 환각 탐지를 위한 오픈 소스 벤치마크
기타
RAG 시스템에서 환각을 탐지합니다
오픈 소스 LLM 평가를 제공합니다
표준화된 평가 지표를 제공합니다
L
unknown
Level-Navi-Agent-Search
No-training LLM 프레임워크 for deep query understanding.
기타
큰 언어 모델을 활용
deep query understanding
정확한 검색 결과
L
unknown
Lawful-Good
법적 LLM 에이전트 능력의 벤치마크
기타
법적 능력을 평가
LLM 에이전트용
법적 벤치마킹을 제공
I
unknown
Impact-Academy
LLM 에이전트 개선을 위한 Auto-Enhance 메타-벤치마크.
기타
AI-powered writing assistance
educational resources
community-driven
H
open source
Hosting-7B-Llm-On-Google-Cloud
Google Cloud VMs에서 llama.cpp를 사용하여 7B LLMs를 벤치마킹합니다.
기타
다양한 gcloud VM에서의 속도 테스트
LLM 호스팅에 llama.cpp 사용
다양한 구성의 성능 비교
G
unknown
Goodai-Ltm-Benchmark
Benchmark LLM agents' long-term memory and continual learning.
기타
Tests LLM long-term memory
Assesses continual learning
Provides benchmarking tools
G
unknown
Gamabench
다중 에이전트 환경에서 LLMs의 게임 능력을 평가
기타
게임 시나리오에서 LLMs를 평가
다중 에이전트 환경 중심
오픈 소스 프로젝트
F
unknown
Flowbench
워크플로우 가이드와 함께 LLM 기반 에이전트를 벤치마킹
기타
워크플로우 가이드된 계획을 다시 방문
LLM 에이전트를 벤치마킹
EMNLP 2024에서 발표
E
open source
Embodied-Agent-Interface.Github.Io
엄폐된 결정에 대한 LLM을 평가하기 위한 웹사이트.
AI 도구 디렉토리
curated list of AI projects
community-driven
open-source tools
D
open source
Diplomacy-Llm
디플로메니 제 게임 결과를 이용한 공개 LLM 벤치마크.
기타
디플로메니 게임에서 LLM 에이전트 벤치마킹
공개 가능한 LLM 성능 데이터
AI 외교 전략의 비교 분석
D
unknown
Dinersim
LLM 기반 다중 에이전트 협력을 위한 레스토랑 시뮬레이션 벤치마크
기타
다중 에이전트 협력 테스트
LLM 통합
레스토랑 시뮬레이션 환경
D
unknown
Debatellm
다중 에이전트 토론에서 LLMs를 평가하여 진실성을 측정합니다.
기타
다중 에이전트 토론 시스템
언어 모델 평가
질의응답에서의 진실성 평가
C
open source
Comfybench
ComfyUI에서 AI 시스템 설계를 위한 LLM 에이전트를 벤치마킹합니다.
기타
LLM 기반 에이전트 벤치마킹
자율 설계 능력
ComfyUI 구현
C
unknown
Chat-Agent-Evalution
다양한 벤치마크에서 LLM 챗 에이전트를 평가합니다.
기타
LLM 챗 에이전트를 평가합니다
다양한 벤치마크를 사용합니다
성능 지표를 제공합니다
B
unknown
Bolaa
Benchmarking과 LLM-augmented Agents의 오케스트레이션
기타
generates product descriptions
AI-powered writing
B
open source
Bigcodebench
인공 일반 지능(Artificial General Intelligence)을 향한 코드 생성 벤치마킹.
기타
코드 생성 모델을 평가합니다
표준화된 데이터셋을 제공합니다
AGI 연구를 지원합니다
B
unknown
Balrog
게임에 대한 에ージ엔트 LLM 및 VLM 추론 벤치마킹.
기타
에ージ엔트 LLM 추론 벤치마킹
에ージ엔트 VLM 추론 벤치마킹
게임 시나리오에 집중
A
unknown
Appworld-Leaderboard
AppWorld 앱 에이전트 벤치마킹용 레이더보드
기타
performance tracking
leaderboard comparisons
AI writing tools
A
unknown
Appworld
AppWorld: 코드 에이전트 벤치마크를 위한 조절 가능한 앱 환경.
기타
조절 가능한 앱 세계
사람과의 상호작용
벤치마킹 도구
A
unknown
Agentlab
다양한 작업에 대한 웹 에이전트 개발을 위한 오픈 소스 프레임워크.
기타
open-source
writing assistance
customizable
I
unknown
Introduction to Agentic Memory
고급 AI 시스템용 LLM에서의 주도적 기억에 대해 배우세요.
기타
LLM 에이전트 기억에 중점을 둡니다
기억 메커니즘을 다룹니다
LLM 운영 체제의 일부입니다
Previous
Page 136 of 183
Next