Buttress サーバーはDocumentation Index
Fetch the complete documentation index at: https://docs.bricks.tools/llms.txt
Use this file to discover all available pages before exploring further.
--config で渡された 1 つの TOML ファイルを読み込みます。各セクションは任意で、省略するとデフォルトが使われます。
最小サンプル
[server]
| キー | 型 | デフォルト | 説明 |
|---|---|---|---|
port | number | 2080 | HTTP/WebSocket ポート |
log_level | string | "info" | debug、info、warn、error のいずれか |
id | string | buttress-<machineId> | バインドと検出に使う安定したサーバー ID |
name | string | 自動生成 | BRICKS Controller に表示される表示名 |
max_body_size | number または string | 52428800(50 MB) | 最大アップロードサイズ。"50MB"、"1GB" などの記法も可 |
session_timeout | number または string | 60000(1 分) | WebSocket のアイドルタイムアウト。"1m"、"30s" も可 |
temp_file_dir | string | <os-tmpdir>/.buttress | STT 音声アップロードなど一時ファイル用ディレクトリ |
[runtime]
サーバーがダウンロードしたモデルを保存する場所。
| キー | デフォルト | 説明 |
|---|---|---|
cache_dir | ~/.buttress/models | ダウンロードされたモデルファイルの場所 |
huggingface_token | "" | Hugging Face 認証トークン。空の場合は HF_TOKEN 環境変数にフォールバック |
[runtime.session_cache]
ggml-llm generator では、リクエスト間で KV cache の状態をディスクに保持し、同じ prompt 接頭辞を持つ後続の completion で prompt 処理をスキップできます。
| キー | デフォルト | 説明 |
|---|---|---|
enabled | true | 永続 KV cache を有効化 |
max_size_bytes | "10GB" | ディスク総予算。"500MB"、"50GB" または数値 |
max_entries | 1000 | キャッシュ最大件数(LRU 削除) |
{cache_dir}/.session-state-cache/ に保存されます。
[[generators]]
各 [[generators]] ブロックでサーバーがホストする 1 つのモデルを宣言します。複数モデルを提供したい場合はブロックを繰り返してください。
LLM(llama.cpp / GGML)
LLM(MLX、Apple Silicon 専用)
音声認識(Whisper / GGML)
| キー | 説明 |
|---|---|
type | ggml-llm、mlx-llm、ggml-stt のいずれか |
backend.variant_preference | バックエンドバリアントの優先順。LLM は cuda、vulkan、snapdragon、default。STT は coreml、default |
model.repo_id | Hugging Face のリポジトリ ID |
model.filename | リポジトリ内の特定ファイル(STT のみ) |
model.quantization | リポジトリに対応する量子化タグ(LLM のみ) |
model.n_ctx | コンテキストウィンドウの長さ(トークン数、LLM のみ) |
[autodiscover]
サーバーは UDP 8089 で自身を通知し、同じ LAN の Foundation デバイスから検出可能にします。自動検出はデフォルトで有効です。
[autodiscover] = false に設定すると検出が完全に無効になります。プロトコルの詳細は自動検出リファレンスを参照してください。
[env]
起動時に適用する環境変数。ただしシステム環境にまだ設定されていない場合のみ反映されます。システム変数とコマンドラインの export が優先されます。
互換エンドポイント
これらのエンドポイントは実験的機能です。スキーマ、エラー形式、CORS デフォルトは変更される可能性があります。
| エンドポイント | 設定フラグ |
|---|---|
POST /oai-compat/v1/chat/completions | [openai_compat] enabled = true |
GET /oai-compat/v1/models | [openai_compat] enabled = true |
POST /anthropic-messages/v1/messages | [anthropic_messages] enabled = true |
POST /anthropic-messages/v1/messages/count_tokens | [anthropic_messages] enabled = true |
ENABLE_OPENAI_COMPAT_ENDPOINT=1 または ENABLE_ANTHROPIC_MESSAGES_ENDPOINT=1。
次のステップ
ワークスペースバインディング
サーバーを BRICKS ワークスペースとペアリングして認証を有効化します。
LAN 自動検出
Foundation デバイスが LAN 上でサーバーを見つける仕組み。