Skip to content

Microsoft 新 MAI 模型發布觀察

原文連結:https://simonwillison.net/2026/Jun/2/microsofts-new-models/#atom-everything

文章說明

這篇文章整理 Microsoft 在 2026 年 6 月初公布的兩個新模型:MAI-Thinking-1 與 MAI-Code-1-Flash,並聚焦在模型規模、授權資料與發布敘事之間的落差。作者同時公開更正了自己第一時間對參數規模的誤讀。

內容介紹

文章先指出,Microsoft 在官方說法中強調新模型兼顧效能與成本,並且將 MAI-Code-1-Flash 導入 GitHub Copilot 與 VS Code 等實際產品場景。這代表模型發布不再只談 benchmark,而是直接綁定開發者工具的落地體驗。

作者原先將 MoE 的 active parameters 誤認為總參數,後續透過 model card 與 technical paper 更正:MAI-Code-1-Flash 為 137B(5B active),MAI-Thinking-1 則是 1T(35B active)。這段修正凸顯了閱讀模型文件時,對 MoE 指標定義需要特別謹慎。

另一個重點是資料來源與授權。Microsoft 公告提到「clean and appropriately licensed data」,但技術文件進一步揭示訓練仍大量使用自有網頁爬取資料與 Common Crawl,只是經過過濾、去重與阻擋清單處理。作者因此質疑這是否真的解決了產業長期存在的授權爭議。

從工程管理角度看,這篇文章最有價值的地方在於把「行銷敘事、模型卡細節、訓練資料實際來源」放在同一個視角比較,提醒讀者不要只看新聞標題,而要回到技術文件與限制條件本身。

你可以帶走的重點

  • 模型發布資訊要交叉比對新聞稿、model card 與 technical paper,避免誤讀參數指標。
  • MoE 模型的「總參數」與「啟用參數」差異會直接影響成本與能力判讀。
  • 「乾淨授權資料」敘事未必代表完全避開公開網頁資料訓練。
  • 企業模型策略正在加速與產品入口(如 Copilot)深度綁定。

適合誰閱讀

  • 需要評估企業級 LLM 採購與風險的技術決策者。
  • 關注模型授權、資料治理與法務合規的團隊。
  • 在開發者工具鏈導入 AI 的產品與平台工程師。

由 Wo9Fei 製作