AI Awesome
主页
发现最出色的 AI 工具
为您寻找解决任何合适 AI 方案的终极导航目录。
Search
其他
(4318)
L
unknown
LLM Testing Guide
LLM 测试和行为分析的全面指南
其他
全面的测试策略
行为分析技术
由 Kolena 提供
T
unknown
TruLens for LLMs
有效评估和跟踪LLM应用。
其他
评估LLM性能
跟踪应用使用情况
监控LLM应用
E
unknown
Evaluation of LLMs - Part 2
探索LLM评估技术及其在AI集成中的重要性。
其他
评估LLM性能
理解评估方法
在AI项目中的重要性
L
unknown
Large Language Model Evaluation in 2024: 5 Methods
2024年使用五种方法评估大型语言模型。
其他
成对偏好评估
人类判断对齐
最新的LLM评估技术
H
unknown
How to Evaluate Large Language Model Outputs: Current Best Practices | FinetuneDB
评估LLM输出的指南及最佳实践
其他
全面的LLM评估方法
当前的实践最佳做法
专家见解
H
unknown
How to Evaluate LLM Applications: The Complete Guide - Confident AI
有效评估LLM应用的指南
其他
全面的LLM评估方法
指标和最佳实践
AI应用评估技术
L
unknown
LLM Evaluation: Everything You Need To Run, Benchmark Evals
LLM产品评估的全面指南
其他
运行和基准LLM评估
LLM产品评估的终极指南
LLM评估所需的一切
I
unknown
ianarawjo/ChainForge
用于测试与大型语言模型交互的可视化工具
其他
可视化编程环境
实战测试提示
大型语言模型集成
E
unknown
Evaluating Large Language Models
使用方法、最佳实践和工具评估LLM
大型语言模型 (LLM)
LLM评估方法
LLM最佳实践
LLM评估工具
R
unknown
Reward Bench Leaderboard - a Hugging Face Space by allenai
LiveBench:一个无污染的具有挑战性的LLM基准测试。
其他
具有挑战性的LLM基准测试
无污染的测试
Hugging Face Space实现
L
unknown
LLM Benchmarks: MMLU, HellaSwag, BBH, and Beyond - Confident AI
探索用于AI评估的LLM基准测试,如MMLU、HellaSwag和BBH。
其他
提供LLM基准测试数据集
包含MMLU、HellaSwag和BBH测试
提供AI性能评估工具
C
unknown
confident-ai/deepeval
使用综合框架评估LLM。
其他
自动LLM评估
指标和基准
易于与LLM集成
M
unknown
Multi-Agent Research Outline
基于LLM的多智能体系统研究的交互式电子书
其他
编译大量研究论文
交互式电子书格式
专注于多智能体系统
M
unknown
microsoft/TinyTroupe
基于大型语言模型的多人智能体模拟,用于创意和商业分析。
其他
多人智能体角色模拟
想象力增强
商业洞察
A
unknown
AgentGPT
直接在您的浏览器中部署自主AI代理。
其他
组装AI代理
配置代理
在浏览器中部署代理
A
unknown
AI Agent Basics: Let’s Think Step By Step - by Jon Stokes
使用 Hugging Face 的 Transformers Agent 学习 AI 代理基础知识
其他
自然语言 API
基于 Hugging Face 的 transformers 构建
分步学习
F
unknown
Fine-Tuner.ai
无需代码即可轻松构建 AI 代理
其他
无需代码构建 AI 代理
用户友好的界面
可定制的代理
C
unknown
ChatArena
为LLM创建多智能体环境
其他
构建多智能体环境
专为LLM设计
促进复杂的AI交互
B
unknown
BrainstormGPT
用于复杂问题解决的AI多智能体系统
其他
多智能体协作
问题解决能力
AI驱动解决方案
I
unknown
Introducing AACP | SuperAGI
AACP是一种代理到代理的通信协议。
其他
代理到代理的通信
协议设计
AI协作
G
unknown
GPT Researcher
用于洞察和研究的人工智能代理
其他
生成人工智能代理
提供洞察
支持研究
A
unknown
AgentBench: Evaluating LLMs as Agents
用于评估大型语言模型的基准
其他
评估大型语言模型代理
基于Hugging Face的研究
提供性能指标
A
unknown
AI Town
一个供AI角色聊天和社交的虚拟城镇
其他
AI角色居住在虚拟城镇
角色聊天和社交
创建AI社交环境
A
open source
a16z-infra/ai-town
可部署的AI城镇构建入门套件
人工智能模型
可定制的AI角色
虚拟城镇环境
MIT许可
Previous
Page 58 of 180
Next