Buttress 伺服器透過 npm 發行,並提供單一執行檔Documentation Index
Fetch the complete documentation index at: https://docs.bricks.tools/llms.txt
Use this file to discover all available pages before exploring further.
bricks-buttress。可在 macOS、Linux 與 Windows 上執行;若要在 Linux 上使用 GPU 加速,請先安裝 CUDA 或 Vulkan 驅動程式。
硬體需求
| 資源 | 建議規格 |
|---|---|
| GPU | NVIDIA(CUDA)、AMD/Intel(Vulkan)或 Apple Silicon(Metal) |
| RAM | 至少為您預計載入最大模型大小的 2 倍 |
| 磁碟 | cache_dir 中需有足夠空間存放所有要下載的模型 |
| 網路 | 有線區域網路 — UDP broadcast 必須能抵達 Foundation 裝置 |
從 npm 安裝
需要 Node.js 22+(或 Bun)。bricks-buttress 執行檔安裝至您的 PATH。
啟動伺服器
無設定檔時,伺服器會以合理的預設值在連接埠2080 啟動:
CLI 旗標
| 旗標 | 說明 |
|---|---|
-p, --port <port> | 監聽的連接埠(預設 2080) |
-c, --config <path|toml> | TOML 檔案路徑或內嵌的 TOML 字串 |
-v, --version | 顯示伺服器版本 |
-h, --help | 顯示說明 |
--port 旗標 → TOML 中的 [server] port → 預設 2080。
環境變數
| 變數 | 效果 |
|---|---|
NODE_ENV | 設為 development 以輸出詳細記錄 |
ENABLE_OPENAI_COMPAT_ENDPOINT | 設為 1 以啟用 OpenAI 相容端點 |
ENABLE_ANTHROPIC_MESSAGES_ENDPOINT | 設為 1 以啟用 Anthropic messages 端點 |
HF_TOKEN | 用於下載受限模型的 Hugging Face token |
[env] 區段的值。
macOS GPU 記憶體
Apple Silicon Mac 預設僅允許 GPU 使用約 70% 的系統記憶體。在載入大型模型前,可先放寬上限:確認運作
伺服器啟動時會印出可從區域網路連線的網址,例如Visit http://<ip>:2080/status to see status via LAN.。開啟該網址(或在本機開啟 http://localhost:2080/status)即可載入狀態儀表板。
儀表板針對每個後端(GGML-LLM、GGML-STT、MLX-LLM)顯示:
- 已載入的 generator 清單,以及目前持有 active 模型 context 的項目
- STT 的平行 slot 使用率與排隊請求
- 最近的模型載入記錄、completion / 轉錄記錄(可折疊)
/status 沒有認證 — 僅於受信任的區域網路上提供伺服器。
如需機器可讀格式,請直接查詢 JSON 端點:
/buttress/info 是 Foundation 裝置在 HTTP 回退探索時讀取的內容 — 請參閱區域網路自動探索。
下一步
設定
設定 generator、快取與相容性端點。
工作區繫結
將伺服器與工作區配對並啟用 JWT 認證。