Buttress サーバーは npm から提供され、Documentation Index
Fetch the complete documentation index at: https://docs.bricks.tools/llms.txt
Use this file to discover all available pages before exploring further.
bricks-buttress という単一の実行ファイルを公開します。macOS、Linux、Windows で動作します。Linux で GPU アクセラレーションを使用する場合は、サーバー起動前に CUDA または Vulkan のドライバーをインストールしてください。
ハードウェア
| リソース | 推奨 |
|---|---|
| GPU | NVIDIA(CUDA)、AMD/Intel(Vulkan)、Apple Silicon(Metal) |
| RAM | 読み込みたい最大モデルサイズの 2 倍以上 |
| ディスク | ダウンロードする全モデルを保存できる cache_dir の空き容量 |
| ネットワーク | 有線 LAN — UDP ブロードキャストが Foundation デバイスに届く必要があります |
npm からインストール
Node.js 22+(または Bun)が必要です。bricks-buttress バイナリが PATH にインストールされます。
サーバーを起動
設定ファイルなしの場合、ポート2080 で妥当なデフォルト値を使って起動します:
CLI フラグ
| フラグ | 説明 |
|---|---|
-p, --port <port> | 待ち受けポート(デフォルト:2080) |
-c, --config <path|toml> | TOML ファイルへのパス、またはインライン TOML 文字列 |
-v, --version | サーバーのバージョンを表示 |
-h, --help | ヘルプを表示 |
--port フラグ → TOML 内の [server] port → デフォルト 2080。
環境変数
| 変数 | 効果 |
|---|---|
NODE_ENV | development に設定で詳細ログ |
ENABLE_OPENAI_COMPAT_ENDPOINT | 1 で OpenAI 互換エンドポイントを有効化 |
ENABLE_ANTHROPIC_MESSAGES_ENDPOINT | 1 で Anthropic messages エンドポイントを有効化 |
HF_TOKEN | 制限付きモデルをダウンロードするための Hugging Face トークン |
[env] セクションの値を上書きします。
macOS の GPU メモリ
Apple Silicon Mac では既定で GPU はシステムメモリの約 70% までしか使えません。大きいモデルを読み込む前に上限を引き上げるには:動作確認
サーバー起動時に LAN から到達可能な URL(例:Visit http://<ip>:2080/status to see status via LAN.)が表示されます。その URL、またはローカルから http://localhost:2080/status を開くとステータスダッシュボードが表示されます。
ダッシュボードはバックエンド(GGML-LLM、GGML-STT、MLX-LLM)ごとに以下を表示します:
- 読み込まれている generator の一覧と、現在アクティブなモデル context を保持しているもの
- STT の並列スロット使用状況とキューに溜まったリクエスト
- 直近のモデルロード履歴、completion/文字起こし履歴(折りたたみ可能)
/status には認証がありません — サーバーは信頼された LAN でのみ公開してください。
機械可読な形式が必要な場合は、JSON エンドポイントを直接叩いてください:
/buttress/info は Foundation デバイスが HTTP フォールバック検出で読み取るエンドポイントです — LAN 自動検出を参照してください。
次のステップ
設定
generator、キャッシュ、互換エンドポイントを設定します。
ワークスペースバインディング
サーバーをワークスペースとペアリングして JWT 認証を有効化します。