Discover the Best AI Tools

Your ultimate directory for finding the right artificial intelligence solutions for any task.

기타(4387)

Llm_Scavengerhunt

새로운 벤치마크가 탐색 임무에서 LLM 에이전트를 위한 것입니다.

LLM 에이전트 임무를 위해 설계되었습니다캘리포니아 대학교 버클리에서 만들었습니다평가 지표를 제공합니다

Llm-Agent-Ask-For-Help

Early task quitting을 위한 Benchmark LLM agents를 평가합니다.

LLM agents의 일을 조기에 중단하는 능력을 평가합니다연속적인 작업 완료에 초점을 맞춥니다LLM agents의 성능 지표를 제공합니다

언어 피드백을 사용한 학습 에이전트 평가 벤치마크

학습 에이전트를 평가합니다언어 피드백을 사용합니다언어 기반 벤치마킹

RAG 환각 탐지를 위한 오픈 소스 벤치마크

RAG 시스템에서 환각을 탐지합니다오픈 소스 LLM 평가를 제공합니다표준화된 평가 지표를 제공합니다

Level-Navi-Agent-Search

No-training LLM 프레임워크 for deep query understanding.

큰 언어 모델을 활용deep query understanding정확한 검색 결과

법적 LLM 에이전트 능력의 벤치마크

법적 능력을 평가LLM 에이전트용법적 벤치마킹을 제공

LLM 에이전트 개선을 위한 Auto-Enhance 메타-벤치마크.

AI-powered writing assistanceeducational resourcescommunity-driven

Hosting-7B-Llm-On-Google-Cloud

Google Cloud VMs에서 llama.cpp를 사용하여 7B LLMs를 벤치마킹합니다.

다양한 gcloud VM에서의 속도 테스트LLM 호스팅에 llama.cpp 사용다양한 구성의 성능 비교

Goodai-Ltm-Benchmark

Benchmark LLM agents' long-term memory and continual learning.

Tests LLM long-term memoryAssesses continual learningProvides benchmarking tools

다중 에이전트 환경에서 LLMs의 게임 능력을 평가

게임 시나리오에서 LLMs를 평가다중 에이전트 환경 중심오픈 소스 프로젝트

워크플로우 가이드와 함께 LLM 기반 에이전트를 벤치마킹

워크플로우 가이드된 계획을 다시 방문LLM 에이전트를 벤치마킹EMNLP 2024에서 발표

Embodied-Agent-Interface.Github.Io

엄폐된 결정에 대한 LLM을 평가하기 위한 웹사이트.

AI 도구 디렉토리

curated list of AI projectscommunity-drivenopen-source tools

디플로메니 제 게임 결과를 이용한 공개 LLM 벤치마크.

디플로메니 게임에서 LLM 에이전트 벤치마킹공개 가능한 LLM 성능 데이터AI 외교 전략의 비교 분석

LLM 기반 다중 에이전트 협력을 위한 레스토랑 시뮬레이션 벤치마크

다중 에이전트 협력 테스트LLM 통합레스토랑 시뮬레이션 환경

다중 에이전트 토론에서 LLMs를 평가하여 진실성을 측정합니다.

다중 에이전트 토론 시스템언어 모델 평가질의응답에서의 진실성 평가

ComfyUI에서 AI 시스템 설계를 위한 LLM 에이전트를 벤치마킹합니다.

LLM 기반 에이전트 벤치마킹자율 설계 능력ComfyUI 구현

Chat-Agent-Evalution

다양한 벤치마크에서 LLM 챗 에이전트를 평가합니다.

LLM 챗 에이전트를 평가합니다다양한 벤치마크를 사용합니다성능 지표를 제공합니다

Benchmarking과 LLM-augmented Agents의 오케스트레이션

generates product descriptionsAI-powered writing

인공 일반 지능(Artificial General Intelligence)을 향한 코드 생성 벤치마킹.

코드 생성 모델을 평가합니다표준화된 데이터셋을 제공합니다AGI 연구를 지원합니다

게임에 대한 에ージ엔트 LLM 및 VLM 추론 벤치마킹.

에ージ엔트 LLM 추론 벤치마킹에ージ엔트 VLM 추론 벤치마킹게임 시나리오에 집중

Appworld-Leaderboard

AppWorld 앱 에이전트 벤치마킹용 레이더보드

performance trackingleaderboard comparisonsAI writing tools

AppWorld: 코드 에이전트 벤치마크를 위한 조절 가능한 앱 환경.

조절 가능한 앱 세계사람과의 상호작용벤치마킹 도구

다양한 작업에 대한 웹 에이전트 개발을 위한 오픈 소스 프레임워크.

open-sourcewriting assistancecustomizable

Introduction to Agentic Memory

고급 AI 시스템용 LLM에서의 주도적 기억에 대해 배우세요.

LLM 에이전트 기억에 중점을 둡니다기억 메커니즘을 다룹니다LLM 운영 체제의 일부입니다

Page 136 of 183