Together AI

AI API 快速推理 LLM 开源模型微调

Together AI

Together AI 是一个综合性的 AI 平台，为推理、微调和模型训练提供高性能基础设施。该平台专门提供卓越的速度和成本效益，同时保持高准确性，通过统一的 API 接口提供超过 200 个开源模型的访问。

主要特性

超快速推理

Together AI 的专有推理引擎提供行业领先的性能，速度比 vLLM 和其他流行的推理解决方案快达 4 倍。这使得开发者能够在全精度下实现极高的吞吐量，使用如 Llama 3 这样的模型，达到每秒 400 个 token。

广泛的模型库

该平台提供访问超过 200 个最先进的开源模型，涵盖各种类别，包括：

大型语言模型 (Llama, DeepSeek, Qwen, Mistral)
视觉模型 (Llama Vision, Qwen-VL)
图像生成 (FLUX)
嵌入和重排序模型
音频和语音模型

模型微调

Together AI 提供全面的微调功能，允许用户使用自己的数据自定义模型，同时保持对生成模型的完全所有权。该平台支持完全微调和 LoRA（低秩适应）方法，以实现高效的适应。

专用端点

对于需要一致性能的生产工作负载，Together AI 提供可配置自动扩展且具有高达 99.9% SLA 保证的专用端点。这些端点可以部署在 Together Cloud 或客户的 VPC 内，以增强安全性。

GPU 集群

Together 提供高性能的 GPU 集群，由 NVIDIA GB200、H200 和 H100 GPU 驱动，适用于大规模训练和推理任务。这些集群具有高速 InfiniBand 互连，并优化了定制 CUDA 内核以实现最大吞吐量。

用例

基于 AI 的应用程序
- 构建响应式聊天机器人和虚拟助手
- 开发内容生成平台
- 创建结合文本、图像和音频的多模态应用程序
企业解决方案
- RAG（检索增强生成）系统
- 文档分析和摘要
- 客户服务自动化
模型开发
- 针对特定领域的模型微调
- 从头开始训练自定义模型
- 实验最先进的架构
高性能计算
- 需要大量计算资源的研究
- 大规模模型训练
- 性能关键的推理部署

定价和计划

免费层 (2025)

$1 学分用于尝试各种模型
免费访问选择的模型：
- Llama 3.3 70B Instruct Turbo Free
- DeepSeek R1 Distilled Llama 70B Free
- Llama 3.2 11B Vision Free
- FLUX.1 [schnell] Free
免费层的速率限制：
- 聊天/语言模型：60 RPM 和 60,000 TPM
- 嵌入模型：3,000 RPM 和 1,000,000 TPM
- 图像模型：每分钟 60 张图像（FLUX.1 [schnell] 为 10 张）
与许多竞争对手不同，没有每日速率限制

建设层

按照 token 使用情况按需付费定价
定价因模型大小和复杂性而异
根据使用情况增加速率限制：
- 第 1 层（$25 已支付）：600 RPM，180,000 TPM
- 第 5 层（$1,000 已支付）：6,000 RPM，2,000,000 TPM
访问所有 200+ 模型
按需部署专用端点

企业

自定义速率限制，无 token 限制
VPC 部署选项
99.9% SLA 和区域冗余
优先访问高级硬件
专属支持和成功代表

集成

Together AI 提供与 OpenAI 兼容的 API，便于从其他提供商迁移：

from together import Together

# 初始化客户端
client = Together()

# 使用模型生成文本
response = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
    messages=[
        {"role": "user", "content": "用简单的术语解释量子计算"}
    ]
)

print(response.choices[0].message.content)

该平台持续扩展其能力，通过以研究为驱动的基础设施和模型产品改进，始终处于 AI 创新的前沿。

菜单

Together AI

Together AI

主要特性

超快速推理

广泛的模型库

模型微调

专用端点

GPU 集群

用例

定价和计划

免费层 (2025)

建设层

企业

集成

快速信息