探索最佳AI工具

您尋找適合任何任務的人工智能解決方案的終極目錄。

其他(4387)

Large Language Model Evaluation in 2024: 5 Methods

在2024年使用五種方法評估大型語言模型。

成對偏好評估人類判斷對齊最新的LLM評估技術

How to Evaluate Large Language Model Outputs: Current Best Practices | FinetuneDB

評估大型語言模型輸出的指南與最佳實踐。

全面的LLM評估方法當前的最佳實踐專家見解

How to Evaluate LLM Applications: The Complete Guide - Confident AI

有效評估大型語言模型應用的指南。

全面的 LLM 評估方法指標與最佳實踐AI 應用評估技術

LLM Evaluation: Everything You Need To Run, Benchmark Evals

LLM 產品評估的全面指南。

執行和基準 LLM 評估LLM 產品評估的終極指南LLM 評估所需的一切

ianarawjo/ChainForge

用於測試與大型語言模型互動的視覺工具

視覺化程式設計環境經過戰鬥測試的提示大型語言模型整合

Evaluating Large Language Models

使用方法、最佳實踐和工具評估大型語言模型

大型語言模型 (LLM)

大型語言模型評估方法大型語言模型最佳實踐大型語言模型評估工具

Reward Bench Leaderboard - a Hugging Face Space by allenai

LiveBench：一個挑戰性的 LLM 基準測試，無污染。

generates product descriptionsuses AI for writing assistance

LLM Benchmarks: MMLU, HellaSwag, BBH, and Beyond - Confident AI

探索 LLM 基準測試如 MMLU、HellaSwag 和 BBH 以進行 AI 評估。

提供 LLM 基準測試數據集包含 MMLU、HellaSwag 和 BBH 測試提供 AI 性能評估工具

confident-ai/deepeval

使用全面的框架評估大型語言模型。

自動化大型語言模型評估指標和基準輕鬆與大型語言模型整合

Multi-Agent Research Outline

基於大語言模型的多人代理系統研究互動式電子書。

generates structured outlinescustomizable templatesintegrates with research tools

microsoft/TinyTroupe

由大型語言模型驅動的多智能體模擬，用於創意和商業分析。

多智能體人格模擬想像力增強商業洞見

在您的瀏覽器中直接部署自主 AI 代理。

組裝 AI 代理設定代理在瀏覽器中部署代理

AI Agent Basics: Let’s Think Step By Step - by Jon Stokes

使用 Hugging Face 的 Transformers Agent 學習 AI 代理基礎知識。

自然語言 API基於 Hugging Face 的 transformers 建立而成逐步學習

輕鬆無需代碼建立 AI 代理程式。

無需代碼的 AI 代理程式建立友善用戶介面可自訂的代理程式

為大型語言模型創建多代理環境

建立多代理環境專為大型語言模型設計促進複雜的人工智能互動

用於複雜問題解決的 AI 多智能體系統。

content generationwriting assistancecreative writing support

Introducing AACP | SuperAGI

AACP 是一種代理到代理的通訊協議。

代理到代理的通訊協議設計AI 協作

AI 代理供洞察和研究之用

產生 AI 代理提供洞察支援研究

AgentBench: Evaluating LLMs as Agents

用於評估大型語言模型作為代理的基準

evaluates LLMs in agent rolesprovides performance metricsassesses decision-making capabilities

一個供 AI 角色聊天和社交的虛擬鎮。

AI 角色居住在虛擬鎮中角色聊天和社交創建一個 AI 社交環境

a16z-infra/ai-town

可部署的開始套件，用於建立 AI 鎮。

人工智慧模型

可自訂的 AI 角色們虛擬鎮區環境MIT 授權

Practices for Governing Agentic AI Systems

為了確保 AI 代理的安全與負責任而實行的實踐。

提供安全代理操作的實踐專注於代理的負責任提供治理自主式 AI 的指導原則

自動化無聊的任務，無需編程或使用新工具

自動化重複性任務無需編程無需使用新工具

開源 AI 聊天機器人建立工具，支援大型語言模型和社交媒體。

建立 AI 聊天機器人/代理整合大型語言模型連接社交媒體頻道

Page 61 of 183