メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.bricks.tools/llms.txt

Use this file to discover all available pages before exploring further.

Buttress サーバーは npm から提供され、bricks-buttress という単一の実行ファイルを公開します。macOS、Linux、Windows で動作します。Linux で GPU アクセラレーションを使用する場合は、サーバー起動前に CUDA または Vulkan のドライバーをインストールしてください。

ハードウェア

リソース推奨
GPUNVIDIA(CUDA)、AMD/Intel(Vulkan)、Apple Silicon(Metal)
RAM読み込みたい最大モデルサイズの 2 倍以上
ディスクダウンロードする全モデルを保存できる cache_dir の空き容量
ネットワーク有線 LAN — UDP ブロードキャストが Foundation デバイスに届く必要があります
GPU なしでも動作しますが、スループットは大きく低下し、能力スコアでもこのホストは優先度の低いバックエンドとして扱われます。

npm からインストール

Node.js 22+(または Bun)が必要です。
npm install -g @fugood/buttress-server
これにより bricks-buttress バイナリが PATH にインストールされます。
新品の Apple Silicon Mac では Bun(bun add -g @fugood/buttress-server)を使うとコールドスタートが速く、メモリオーバーヘッドも低くなります。

サーバーを起動

設定ファイルなしの場合、ポート 2080 で妥当なデフォルト値を使って起動します:
bricks-buttress
TOML 設定を指定する場合:
bricks-buttress --config ./config.toml
同じフラグでパスではなくインライン TOML 文字列を渡すこともできます:
bricks-buttress --config '[server]
port = 3000

[[generators]]
type = "ggml-llm"
[generators.model]
repo_id = "ggml-org/gemma-3-270m-qat-GGUF"'
完全なスキーマは設定リファレンスを参照してください。

CLI フラグ

フラグ説明
-p, --port <port>待ち受けポート(デフォルト:2080
-c, --config <path|toml>TOML ファイルへのパス、またはインライン TOML 文字列
-v, --versionサーバーのバージョンを表示
-h, --helpヘルプを表示
ポートは次の順で解決されます:--port フラグ → TOML 内の [server] port → デフォルト 2080

環境変数

変数効果
NODE_ENVdevelopment に設定で詳細ログ
ENABLE_OPENAI_COMPAT_ENDPOINT1 で OpenAI 互換エンドポイントを有効化
ENABLE_ANTHROPIC_MESSAGES_ENDPOINT1 で Anthropic messages エンドポイントを有効化
HF_TOKEN制限付きモデルをダウンロードするための Hugging Face トークン
システム環境変数は TOML の [env] セクションの値を上書きします。

macOS の GPU メモリ

Apple Silicon Mac では既定で GPU はシステムメモリの約 70% までしか使えません。大きいモデルを読み込む前に上限を引き上げるには:
# 128 GB ホストで GPU が最大 128 GB 使えるよう許可
sudo sysctl iogpu.wired_limit_mb=137438

# デフォルトに戻す
sudo sysctl iogpu.wired_limit_mb=0

動作確認

サーバー起動時に LAN から到達可能な URL(例:Visit http://<ip>:2080/status to see status via LAN.)が表示されます。その URL、またはローカルから http://localhost:2080/status を開くとステータスダッシュボードが表示されます。 ダッシュボードはバックエンド(GGML-LLM、GGML-STT、MLX-LLM)ごとに以下を表示します:
  • 読み込まれている generator の一覧と、現在アクティブなモデル context を保持しているもの
  • STT の並列スロット使用状況とキューに溜まったリクエスト
  • 直近のモデルロード履歴、completion/文字起こし履歴(折りたたみ可能)
ページ上の Refresh ボタンで同じデータを再取得できます。/status には認証がありません — サーバーは信頼された LAN でのみ公開してください。 機械可読な形式が必要な場合は、JSON エンドポイントを直接叩いてください:
# サーバー ID、能力、generator 一覧、認証ステータス
curl http://localhost:2080/buttress/info

# generator/キュー/履歴のリアルタイムスナップショット(ダッシュボードと同じ)
curl http://localhost:2080/buttress/status
/buttress/info は Foundation デバイスが HTTP フォールバック検出で読み取るエンドポイントです — LAN 自動検出を参照してください。

次のステップ

設定

generator、キャッシュ、互換エンドポイントを設定します。

ワークスペースバインディング

サーバーをワークスペースとペアリングして JWT 認証を有効化します。