Together AI
Together AI 是一个综合性的 AI 平台,为推理、微调和模型训练提供高性能基础设施。该平台专门提供卓越的速度和成本效益,同时保持高准确性,通过统一的 API 接口提供超过 200 个开源模型的访问。
主要特性
超快速推理
Together AI 的专有推理引擎提供行业领先的性能,速度比 vLLM 和其他流行的推理解决方案快达 4 倍。这使得开发者能够在全精度下实现极高的吞吐量,使用如 Llama 3 这样的模型,达到每秒 400 个 token。
广泛的模型库
该平台提供访问超过 200 个最先进的开源模型,涵盖各种类别,包括:
- 大型语言模型 (Llama, DeepSeek, Qwen, Mistral)
- 视觉模型 (Llama Vision, Qwen-VL)
- 图像生成 (FLUX)
- 嵌入和重排序模型
- 音频和语音模型
模型微调
Together AI 提供全面的微调功能,允许用户使用自己的数据自定义模型,同时保持对生成模型的完全所有权。该平台支持完全微调和 LoRA(低秩适应)方法,以实现高效的适应。
专用端点
对于需要一致性能的生产工作负载,Together AI 提供可配置自动扩展且具有高达 99.9% SLA 保证的专用端点。这些端点可以部署在 Together Cloud 或客户的 VPC 内,以增强安全性。
GPU 集群
Together 提供高性能的 GPU 集群,由 NVIDIA GB200、H200 和 H100 GPU 驱动,适用于大规模训练和推理任务。这些集群具有高速 InfiniBand 互连,并优化了定制 CUDA 内核以实现最大吞吐量。
用例
-
基于 AI 的应用程序
- 构建响应式聊天机器人和虚拟助手
- 开发内容生成平台
- 创建结合文本、图像和音频的多模态应用程序
-
企业解决方案
- RAG(检索增强生成)系统
- 文档分析和摘要
- 客户服务自动化
-
模型开发
- 针对特定领域的模型微调
- 从头开始训练自定义模型
- 实验最先进的架构
-
高性能计算
- 需要大量计算资源的研究
- 大规模模型训练
- 性能关键的推理部署
定价和计划
免费层 (2025)
- $1 学分用于尝试各种模型
- 免费访问选择的模型:
- Llama 3.3 70B Instruct Turbo Free
- DeepSeek R1 Distilled Llama 70B Free
- Llama 3.2 11B Vision Free
- FLUX.1 [schnell] Free
- 免费层的速率限制:
- 聊天/语言模型:60 RPM 和 60,000 TPM
- 嵌入模型:3,000 RPM 和 1,000,000 TPM
- 图像模型:每分钟 60 张图像(FLUX.1 [schnell] 为 10 张)
- 与许多竞争对手不同,没有每日速率限制
建设层
- 按照 token 使用情况按需付费定价
- 定价因模型大小和复杂性而异
- 根据使用情况增加速率限制:
- 第 1 层($25 已支付):600 RPM,180,000 TPM
- 第 5 层($1,000 已支付):6,000 RPM,2,000,000 TPM
- 访问所有 200+ 模型
- 按需部署专用端点
企业
- 自定义速率限制,无 token 限制
- VPC 部署选项
- 99.9% SLA 和区域冗余
- 优先访问高级硬件
- 专属支持和成功代表
集成
Together AI 提供与 OpenAI 兼容的 API,便于从其他提供商迁移:
from together import Together
# 初始化客户端
client = Together()
# 使用模型生成文本
response = client.chat.completions.create(
model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
messages=[
{"role": "user", "content": "用简单的术语解释量子计算"}
]
)
print(response.choices[0].message.content)
该平台持续扩展其能力,通过以研究为驱动的基础设施和模型产品改进,始终处于 AI 创新的前沿。