Together AI

AI API быстрая инференция LLM модели с открытым исходным кодом тонкая настройка

Together AI

Together AI — это комплексная AI-платформа, предоставляющая высокопроизводительную инфраструктуру для вывода моделей, дообучения и тренировки моделей. Платформа специализируется на обеспечении исключительной скорости и экономичности при сохранении высокой точности, предоставляя доступ к более чем 200 моделям с открытым исходным кодом через унифицированный API-интерфейс.

Основные характеристики

Ультрабыстрый вывод

Собственный движок вывода Together AI обеспечивает лидирующую в отрасли производительность, достигая скорости в 4 раза выше, чем у vLLM и других популярных решений для вывода. Это позволяет разработчикам достигать исключительно высокой пропускной способности с моделями, такими как Llama 3, до 400 токенов в секунду при полном уровне точности.

Обширная библиотека моделей

Платформа предоставляет доступ к более чем 200 современным моделям с открытым исходным кодом в различных категориях, включая:

Крупные языковые модели (Llama, DeepSeek, Qwen, Mistral)
Визуальные модели (Llama Vision, Qwen-VL)
Генерация изображений (FLUX)
Модели для создания эмбеддингов и повторного ранжирования
Модели для аудио и речи

Дообучение моделей

Together AI предлагает полноценные возможности для дообучения моделей, позволяя пользователям кастомизировать модели на собственных данных при полном контроле и владении результирующими моделями. Платформа поддерживает как полное дообучение, так и подход LoRA (Low-Rank Adaptation) для эффективной адаптации.

Выделенные эндпоинты

Для производственных нагрузок, требующих стабильной производительности, Together AI предоставляет выделенные эндпоинты с настраиваемым автоскалингом и гарантией SLA до 99,9%. Эти эндпоинты можно развернуть как в Together Cloud, так и в VPC клиента для повышения безопасности.

GPU-кластеры

Together предлагает высокопроизводительные GPU-кластеры на базе NVIDIA GB200, H200 и H100 для крупных задач по обучению и выводу моделей. Кластеры оснащены высокоскоростными interconnect InfiniBand и оптимизированы с использованием кастомных CUDA-ядер для максимальной пропускной способности.

Сценарии использования

AI-приложения
- Создание отзывчивых чат-ботов и виртуальных ассистентов
- Разработка платформ для генерации контента
- Создание мультимодальных приложений, сочетающих текст, изображение и аудио
Корпоративные решения
- Системы RAG (Retrieval-Augmented Generation)
- Анализ и суммаризация документов
- Автоматизация службы поддержки клиентов
Разработка моделей
- Дообучение моделей для конкретных доменов
- Обучение кастомных моделей с нуля
- Эксперименты с современными архитектурами
Высокопроизводительные вычисления
- Исследования, требующие масштабных вычислительных ресурсов
- Обучение моделей в больших масштабах
- Развертывание вывода с критичными требованиями к производительности

Тарифы и планы

Бесплатный уровень (2025)

$1 кредит для тестирования различных моделей
Бесплатный доступ к выбранным моделям:
- Llama 3.3 70B Instruct Turbo Free
- DeepSeek R1 Distilled Llama 70B Free
- Llama 3.2 11B Vision Free
- FLUX.1 [schnell] Free
Лимиты по скорости для бесплатного уровня:
- Чат/языковые модели: 60 запросов в минуту (RPM) и 60,000 токенов в минуту (TPM)
- Модели эмбеддингов: 3,000 RPM и 1,000,000 TPM
- Модели генерации изображений: 60 изображений в минуту (10 для FLUX.1 [schnell])
Нет дневных лимитов, в отличие от многих конкурентов

Build Tier

Оплата по факту использования, основанная на количестве использованных токенов
Стоимость зависит от размера и сложности модели
Увеличивающиеся лимиты на запросы в зависимости от использования:
- Уровень 1 ($25 предоплаты): 600 RPM, 180,000 TPM
- Уровень 5 ($1,000 предоплаты): 6,000 RPM, 2,000,000 TPM
Доступ ко всем 200+ моделям
Развёртывание выделенных эндпоинтов по требованию

Enterprise

Индивидуальные лимиты без ограничений по токенам
Варианты развертывания в VPC
SLA 99,9% с гео-репликацией
Приоритетный доступ к современному оборудованию
Выделенная поддержка и менеджер по успеху

Интеграция

Together AI предоставляет OpenAI-совместимый API, что упрощает миграцию с других провайдеров:

from together import Together

# Инициализация клиента
client = Together()

# Генерация текста с помощью модели
response = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
    messages=[
        {"role": "user", "content": "Объясните квантовые вычисления простыми словами"}
    ]
)

print(response.choices[0].message.content)

Платформа продолжает расширять свои возможности, оставаясь на переднем крае AI-инноваций благодаря улучшениям инфраструктуры и предложению моделей, основанным на исследованиях.

Меню

Together AI

Together AI

Основные характеристики

Ультрабыстрый вывод

Обширная библиотека моделей

Дообучение моделей

Выделенные эндпоинты

GPU-кластеры

Сценарии использования

Тарифы и планы

Бесплатный уровень (2025)

Build Tier

Enterprise

Интеграция

Краткая информация