インストール

Buttress サーバーは npm から提供され、bricks-buttress という単一の実行ファイルを公開します。macOS、Linux、Windows で動作します。Linux で GPU アクセラレーションを使用する場合は、サーバー起動前に CUDA または Vulkan のドライバーをインストールしてください。

ハードウェア

リソース	推奨
GPU	NVIDIA（CUDA）、AMD/Intel（Vulkan）、Apple Silicon（Metal）
RAM	読み込みたい最大モデルサイズの 2 倍以上
ディスク	ダウンロードする全モデルを保存できる `cache_dir` の空き容量
ネットワーク	有線 LAN — UDP ブロードキャストが Foundation デバイスに届く必要があります

GPU なしでも動作しますが、スループットは大きく低下し、能力スコアでもこのホストは優先度の低いバックエンドとして扱われます。

npm からインストール

Node.js 22+（または Bun）が必要です。

npm install -g @fugood/buttress-server

これにより bricks-buttress バイナリが PATH にインストールされます。

新品の Apple Silicon Mac では Bun（bun add -g @fugood/buttress-server）を使うとコールドスタートが速く、メモリオーバーヘッドも低くなります。

サーバーを起動

設定ファイルなしの場合、ポート 2080 で妥当なデフォルト値を使って起動します：

bricks-buttress

TOML 設定を指定する場合：

bricks-buttress --config ./config.toml

同じフラグでパスではなくインライン TOML 文字列を渡すこともできます：

bricks-buttress --config '[server]
port = 3000

[[generators]]
type = "ggml-llm"
[generators.model]
repo_id = "ggml-org/gemma-3-270m-qat-GGUF"'

完全なスキーマは設定リファレンスを参照してください。

CLI フラグ

フラグ	説明
`-p, --port <port>`	待ち受けポート（デフォルト：`2080`）
`-c, --config <path\|toml>`	TOML ファイルへのパス、またはインライン TOML 文字列
`-v, --version`	サーバーのバージョンを表示
`-h, --help`	ヘルプを表示

ポートは次の順で解決されます：--port フラグ → TOML 内の [server] port → デフォルト 2080。

環境変数

変数	効果
`NODE_ENV`	`development` に設定で詳細ログ
`ENABLE_OPENAI_COMPAT_ENDPOINT`	`1` で OpenAI 互換エンドポイントを有効化
`ENABLE_ANTHROPIC_MESSAGES_ENDPOINT`	`1` で Anthropic messages エンドポイントを有効化
`HF_TOKEN`	制限付きモデルをダウンロードするための Hugging Face トークン

システム環境変数は TOML の [env] セクションの値を上書きします。

macOS の GPU メモリ

Apple Silicon Mac では既定で GPU はシステムメモリの約 70% までしか使えません。大きいモデルを読み込む前に上限を引き上げるには：

# 128 GB ホストで GPU が最大 128 GB 使えるよう許可
sudo sysctl iogpu.wired_limit_mb=137438

# デフォルトに戻す
sudo sysctl iogpu.wired_limit_mb=0

動作確認

サーバー起動時に LAN から到達可能な URL（例：Visit http://<ip>:2080/status to see status via LAN.）が表示されます。その URL、またはローカルから http://localhost:2080/status を開くとステータスダッシュボードが表示されます。ダッシュボードはバックエンド（GGML-LLM、GGML-STT、MLX-LLM）ごとに以下を表示します：

読み込まれている generator の一覧と、現在アクティブなモデル context を保持しているもの
STT の並列スロット使用状況とキューに溜まったリクエスト
直近のモデルロード履歴、completion／文字起こし履歴（折りたたみ可能）

ページ上の Refresh ボタンで同じデータを再取得できます。/status には認証がありません — サーバーは信頼された LAN でのみ公開してください。機械可読な形式が必要な場合は、JSON エンドポイントを直接叩いてください：

# サーバー ID、能力、generator 一覧、認証ステータス
curl http://localhost:2080/buttress/info

# generator／キュー／履歴のリアルタイムスナップショット（ダッシュボードと同じ）
curl http://localhost:2080/buttress/status

/buttress/info は Foundation デバイスが HTTP フォールバック検出で読み取るエンドポイントです — LAN 自動検出を参照してください。

次のステップ

設定

generator、キャッシュ、互換エンドポイントを設定します。

ワークスペースバインディング

サーバーをワークスペースとペアリングして JWT 認証を有効化します。

​ハードウェア

​npm からインストール

​サーバーを起動

​CLI フラグ

​環境変数

​macOS の GPU メモリ

​動作確認

​次のステップ

設定

ワークスペースバインディング

ハードウェア

npm からインストール

サーバーを起動

CLI フラグ

環境変数

macOS の GPU メモリ

動作確認

次のステップ