AI 時代,非工程師的工作會如何被重組?
2026 May 03 AI 實戰筆記
這篇文章寫給誰
常在用 Claude、ChatGPT、Gemini,不會每天追 AI 業內新聞,對於 AI 會帶來什麼改變,有種好像會發生什麼值得期待的事,又隱隱約約擔心又害怕的感覺。每個關鍵詞首次出現時我會做個說明,目標是你讀起來不需要先做功課。
hi 大家今天 AI 用得開心嗎?有玩了什麼新花樣,有什麼新的賺錢方式嗎?
過去 18 個月我們看過很多 AI 大佬的訪談,有些令人印象深刻,有些聽起來厲害,但暫時還不知道跟自己有什麼直接關係。
我想到近期看到不少 Anthropic 公司員工、高管的受訪,不管是設計流程已死,或是產品人要有品味,工程師說他從去年 11 月後就沒有寫 Code,都給我一種看到未來的真正緊張感:
有人在那邊了,我還不是,但在那邊的人讓我看到一些片段。
我想看更多,更全的未來,所以去挖了 Lenny's Podcast 的訪談 transcripts 庫,去翻了中國的各種討論、知識部落格,乃至 GitHub。
如果很多人想看(例如這篇有 500 個人的閱讀量),那我試著再多寫幾篇,預計總共有 3-5 篇跟工作方法論有關的文章。總之,每個人紓解焦慮的方法不同,有人隨手轉發文章,有人動手做 Agent。我是查完資料,試著想清楚,然後寫下來,邀請你一起思考。
把工作方法本身做成資產
前兩個月我看到 Anthropic 設計主管 Jenny Wen 講「設計流程死了」(the design process is dead)的時候,我第一個反應是好奇:為什麼要講這麼引起爭議的話?
每次 AI 有新發展,外行人開開心心地說:我們不再需要設計師了。總是馬上引起設計圈內人的反擊。現在居然是 AI 公司的人自己跑出來說,設計流程已死。
講這麼爭議的話還不只 Jenny 一個人。這一年來,Anthropic 公司不同職位的人輪流在 Lenny's Podcast(矽谷最具影響力的產品 podcast)受訪。每一個都帶著自己的職位跟具體話題:
- Jenny Wen(設計主管):「設計流程死了」
- Cat Wu(產品主管):「PM 不寫 PRD,改寫 evals」
- Amol Avasare(成長主管):「不像傳統成長團隊主要著重在小幅優化,我們把 70% 資源投到 Big test」
- Boris Cherny(工程師):「11 月之後我沒手寫過一行程式碼,但產能翻 3 倍」
每段都曾在我的臉書牆引起一陣漣漪,每段都像在炫技。但仔細想想會發現,他們其實在做同一件事。其實是七個人,除了上面提到的,還有產品長、離職研究員、共同創辦人。
把工作方法本身做成 Anthropic 的對外資產。
為什麼一家年輕公司要這樣做?
這是個有意思的問題。一家年輕公司,不用執行長高調曝光、不做大型技術推廣,要怎麼跟手上握著現成入口的玩家競爭:Google 有搜尋、Microsoft 有 Office、Meta 有 FB 跟 IG,這些公司新產品塞進去就有用戶。連 OpenAI 都有 Sam Altman 的高調曝光。
Anthropic 沒有這個東西,你甚至想不起來他們創辦人叫什麼名字(7 個從 OpenAI 出走的員工,其中兩個是雙 D 兄妹,Dario Amodei 和 Daniela Amodei)。
他們的答案是把自家的工作方法本身做成品牌:讓業界覺得「想學 AI 怎麼做產品就要看 Anthropic」的位置。當你沒有通路、創辦人光環也還沒有跨出業界小圈圈的時候,把工作方法做成可被別人抄的資產,是一條慢但走得遠的路。
對照組:DeepSeek 走的是同一條路,但用不同貨幣
中國這邊有一家公司在做幾乎一樣的事,但用不同方式:DeepSeek。
一家來自杭州的中國 AI 公司,2025 年初因為用矽谷十分之一的成本訓練出能對打 GPT-4 的模型,讓 NVIDIA 股價單日下跌 17%,市值蒸發近 6,000 億美元,是美國企業史上最大單日市值損失紀錄。
DeepSeek 的執行長梁文鋒很少公開受訪。整家公司的對外資產是模型、論文、GitHub、API 文檔,它不發 PR、不開大會、不做 launch event,它發 paper、開 source、把 API 寫得乾淨。
聽起來跟 Anthropic 完全相反,但其實是同一個邏輯的兩種表達:
| Anthropic | DeepSeek | |
|---|---|---|
| 對外資產 | 員工的工作敘事(podcast) | 工程作品(論文 / 開源) |
| 信任貨幣 | 我們怎麼想 | 我們怎麼做 |
| 學習對象 | 全產業 PM 跟設計師 | 全產業工程師 |
兩家都選擇把「研究 / 工作本身」當對外溝通。差別是 Anthropic 把工作敘事人格化、DeepSeek 把工程作品開源化。
那我呢?
其實我一直在問自己:怎樣把自己的工作判斷力,變成可複製的東西?
我做了多年 BI(商業分析),累積了一些「怎樣的分析夠好」的內在標準。這些標準長在我身上,走進我對同事的每次指導、影響我跟業務單位的每次對話。但這些標準如果只長在我身上,它就跟著我下班、跟著我老去。
最近我開始把這些資產寫成教材,也許不久將來還公開跟大家分享?這就是 craft(工藝)的另一面。craft 累積到一個程度,會變成你的競爭優勢。但 craft 如果只留在你身上,它也會變成你的天花板。
你工作裡有什麼判斷力,是只有你會做、但你說不清楚的?把它說清楚的這個過程,就是 craft 的累積。
把直覺判斷拆成可測試的指標
OpenAI 產品長 Kevin Weil 在 Lenny's Podcast 上講:「Writing evals is going to become a core skill for product managers. It's like unit tests for models.」(寫 evals 會變成 PM 的核心技能,就像給模型的單元測試。)
同一段時間,Anthropic 產品主管 Cat Wu 接受訪問時說:「我們這裡的 PM 不寫 PRD(產品需求文件),改寫 evals。」
兩家在 AI 產品上最受關注的公司,幾乎同一時間,一個用實踐的語氣、一個用專業描述的語氣,在講同一件事。
什麼是 evals?
名詞說明
evals 是 evaluations 的簡稱,中文叫「AI 評估指標」。用最白話的方式講:你以前覺得「這份分析報告寫得好不好」是個感覺,現在你必須拆成「有沒有提到 KPI A」「有沒有用對的時間範圍」「有沒有給可執行的下一步」這幾個可以一個一個打勾的問題。
然後讓 AI 跑一百次。每次都用這幾個打勾問題去檢查。一百次裡面有幾次通過?這個比例就是這個 AI 在這個任務上的 evals 成績。
這個方法論在外溢
我查到甚至還有 evals 的線上課,是 Hamel Husain 跟 Shreya Shankar 在線上課程平台 Maven 開的,學員來自 OpenAI、Anthropic、Google 大量團隊。一年下來,evals 已經從少數公司的內部術語,變成整個 AI 產業共用的工作方法。
那我呢?
我看自己的資深屬下每天每週打開看儀表板,幾秒就能感覺出「這個圖表方向不對」。但如果同事或 PM 問他們「為什麼不對?」,得花幾分鐘才能講清楚。如果是新人或剛調職的同事問,可能要花一小時,而且不見得講得完整。
這個落差就是他們的隱藏 evals。它存在,它在影響我團隊每一次工作判斷的效能,但它沒有被寫下來。
對非工程師來說,evals 思維的入門版本不需要寫程式。它只需要問三個問題:
- 我做這份東西的時候,腦子裡在打勾哪幾件事?(把感覺拆成檢查項)
- 這幾件事,AI 或同事能不能照著打勾?(測試這份標準能不能被複製)
- 這個月跑了 10 份產出,幾份過了我的標準?(建立持續追蹤)
craft 是「我能做得更好」,evals 是「我能說清楚為什麼這個比那個好」。前者是個人能力,後者是團隊共用標準。
用工具堆疊取代等更強的模型
每次 Claude 或 ChatGPT 出新版本,社群上總有兩種人。一種人興奮地說「終於可以做 X 了」,另一種人冷靜地說「還是不行,AI 還沒有取代人」。看似不同,但其實都在等。等模型變強。
但我整理這份素材發現,所有第一線的團隊,都不等了。他們在做另一件事:用工具堆疊,讓現有模型更有效地解更複雜的問題。
Google DeepMind 的官方文件裡有個概念叫 product scaffolding(產品鷹架)。意思是不只訓練更強的模型,還在模型周圍堆檢索、工具調用、grounding(資料接地,讓 AI 回答前先去查可信來源避免亂編)這些工具。
名詞說明
scaffolding 的邏輯是:與其等到 AI 強到不會出錯(不知道要等多久),不如在它旁邊放一些檢查機制,讓它出錯時能被攔下來。例如先去資料庫查最新數據再回答(避免它編造)、回答完後讓另一個模型檢查邏輯一致性(避免它矛盾)、輸出格式不對就重跑(避免它跳針)。
Kimi 的 Formula 是同一個邏輯的另一種長相
我比較不熟悉的 Kimi(Moonshot 月之暗面,中國公司)做了一個概念叫 Formula。Kimi 是去年靠著「能讀超長文件」(百萬字級)紅起來的 AI 助理,台灣知名度很低,但在中國白領圈是僅次於豆包的第二大 AI 應用。
它讓開發者把一段 Python 程式碼包成一個「可被 AI 一鍵觸發的瞬態工具」。AI 工作中遇到需要算數、查資料、跑分析的時候,可以直接調用這個工具,不用自己硬算。算完工具會自動回收,不佔資源。
DeepMind 講的是「在模型周圍堆機制」,Kimi 講的是「給模型一個工具櫃」。兩家都在說:與其讓單一模型扛所有事,不如讓模型學會使用工具。
那我呢?
這個方法論對非工程師最直接的啟示是:你不需要等更強的 AI,也不需要寫程式。你需要的是停止「給 AI 一個大任務、期待它一次完成」,改成「給 AI 一個小任務、配上對應的工具、然後組合起來」。
我自己在做產業研究時的調整方式:
- 第一步,跟 AI 討論問題,對焦目的、框架、目標客群、一般的猜想與假設等等。
- 第二步,讓 AI 去找資料驗證或否證假設,資料有時候支持有時候打臉,總之是調整一下。
- 第三步,開始試著草擬結論與論證,還有根據資料支持點。
- 第四步,草擬大綱後開始撰寫第一版。
- 第五步,找另一個 AI 檢驗以上的討論有沒有任何邏輯矛盾。修改。
不是讓一個全能助理幫你做完所有事,而是設計一條分工流水線。差異只在設計與調度的是我還是 Agent。
設計 group work 而不是 solo work
去年 Anthropic 工程師 Boris Cherny 講過當時我很疑惑的話:「我同時跑 5 個 agents(AI 代理人),有時候他們互相吵架,但都在替我幹活。」
那時候我覺得這聽起來像未來感的炫耀。直到我看到月之暗面 Kimi 的數據,才意識到這已經不是未來感。
Kimi K2.6 的 Agent Swarm(代理群)功能可以把一個複雜任務分解成 300 個 sub-agents(子代理)並行,端到端延遲降 80%。Boris Cherny 跑 5 個已經算激進,Kimi 直接拉到 300。
這數字一開始看是工程奇觀,但回頭想想,它說的其實是工作的形狀變了。過去一個工作流要一個人從頭做到尾。現在一個工作流可以由多個 agent 分工,人類只在關鍵節點介入。
字節 Seed 官方博客把這件事講得直白:
「使用者需求正從『獲得建議、查資訊』轉向『讓模型直接執行複雜工作流』。」
— 字節 Seed 官方博客,Seed1.8 發布說明
翻譯成職場語言是:以前你問 AI「幫我查」,現在你叫 AI「幫我做」。
那我呢?
這個轉變對非工程師最關鍵的影響,是你的工作會從 solo work 變成 group work,而你變成 group 的設計者,AI Agents 就是那個 group。
我想找時間做的實驗:把固定要寫的業務週報拆成幾個 agent,撈數據、找差異、寫分析。我只做兩件事:在每個 agent 的 prompt 裡定義清楚標準(這就是上面講的 evals 思維),然後最後檢查草稿。
最主要的目的不是效率,而是標準化作業。這些 agent 的 prompt 寫下來之後,新人接手就有東西可以看。我的「怎麼寫這份週報」從綁在我或資深同事身上的隱藏資產,變成了團隊都能用的工具。
寫了很多,其實是同一件事的不同層次:「把判斷力變成可被複製的東西」是 Why,「用 evals 把判斷力拆成可測試的指標」是 How,「用 group work 把標準執行起來」是 What。三件事連在一起,才是一個完整的動作。
原生 AI 世代的年輕人,比你想像中更值得信任
除了跟 AI 協作外,我們這些前 AI 時代長大的人還有個功課:跟原生 AI 世代的年輕人協作。
字節 Seed 的官方招募頁面寫得很具體:員工 C、員工 Z、實習生 R 各自參與了哪些核心專案,預訓練架構、後訓練資料、評測閉環、HybridFlow / COMET 這些字節對外開源的關鍵基礎設施,都有他們的署名。實習生 R 做的事,是 HybridFlow 的核心開發。這在傳統大廠是不會發生的。
DeepSeek 走得更極端
DeepSeek 全公司約 140 人,以年輕研究員為主力,幾乎全是清華北大博士。梁文鋒講過:「對於顯卡和人的調動是不設上限的,每個人隨時可以調用訓練集群的顯卡無需審批。」
GPU 一張一個月幾千美金。一家公司願意讓年輕研究員無審批調用,意思是這家公司的年輕人的判斷力值得這個成本。
那我呢?
如果你是團隊主管,你可能正在猶豫要不要把某個重要案子交給比較年輕的同事。你的猶豫通常不是「他做不到」,是「他做不到的時候我兜不住」。
這個猶豫合理,但 AI 時代有個變數:年輕同事跟 AI 工具的協作能力,可能比你想的還強。他們不是用過去十年累積的判斷力做事,他們是用 AI 工具放大他們現有的判斷力做事。這兩件事的天花板不一樣。
如果你不是主管,是被觀察的那個年輕人:你能不能讓主管覺得「給你授權的成本是合理的」?這跟你會不會用 AI 工具有關,但更跟你的工作方法寫的多清楚有關。能寫清楚的人,主管才放心放手。
用講得清楚的工作方法而非資歷與位置換授權,這是 8 家 AI 公司給我的又一件事。
背景脈絡:他們各自在拼什麼
寫到這裡你可能隱隱有感覺:這 8 家公司的工作方法好像不太一樣?Anthropic 拚 craft、Google DeepMind 拼 AI 工具組、DeepSeek 拚開源、字節拚規模?還有來不及講到的三間公司:OpenAI 跟 xAI 拼速度,以及美團拚場景?
不是他們各自決定要長這樣,是他們各自在拼不同的未來。工作方法是拼法的結果。我把 8 家放在一起,隱約看出一個光譜:
| 方向 | 公司 |
|---|---|
| 偏押下個世代 | DeepSeek(不做應用層,純研究+開源)、Anthropic(mission first,但 API 商業化中)、DeepMind(science first,靠 Google 補貼) |
| 兩邊都要 | OpenAI(高曝光、兩邊都要被信)、xAI(Elon Musk 個人賭注靠執行力)、Kimi(Agent+開發者商業化雙線) |
| 偏賺今天 | 字節豆包(內部 50+ 場景商業化+Coze 開源戰略)、美團王興(中國本地生活服務龍頭,類似 Uber Eats+Klook+大眾點評的綜合體) |
「兩邊都要」還有人相信,是稀缺位置,不是常態。OpenAI 之所以被全產業關注,是因為 Sam Altman 能把「兩邊都要」這個極不穩定的策略撐住。其他試圖兩邊都要的公司,要嘛被資本市場逼著選邊,要嘛被組織內部撕裂。
王興(美團創辦人)全資收購 AI 新創光年之外、雷軍做小米汽車加端側 AI,這些都是押下個世代。但他們建過自己的金雞母,所以他們懂金雞母怎麼壞掉。他們對 AI 的押注永遠帶著「這是不是會幹掉我既有業務」的算計。
如果你對美團這條線有興趣,我寫了一篇番外篇詳細講這個對照:矽谷的願景在天邊的小店落地了嗎?吳恩達 2022 TED 與 2026 美團現實。
跨週期記憶 vs chat 模式
那我們呢?
我這代前 AI 時代長大的職場人,多了好幾個跨週期記憶。看過 PC 時代、互聯網時代、行動網路時代的工作流如何被重組、誰賭錯了、誰賭對了。這個記憶本身就是判斷力。
但我們也缺少原生世代的直覺與本能。我用 AI 的本能,還常停在 chat 模式,當自己還是個消費者,沒進到協作模式的工作者。
寫完這 5 個方法論章節,我自己拿到的是這個結構:
- 把判斷力變成資產(craft)
- 把標準寫清楚(evals)
- 用工具堆疊代替等更強的模型(scaffolding)
- 設計 group work 而不是 solo work(multi-agent)
- 信任年輕人(高授權)
如果這篇有 500 個人讀,我會繼續寫後面幾篇,可能是 Anthropic 七人組受訪精髓,也可能是「把這些方法直接拿到工作裡用」的實作篇,把每個方法的入門步驟、會遇到的卡關、卡關時怎麼解,寫成可以照著做的版本。
有些文章我寫起來只是為了自己,沒啥人看,就像石頭丟到深淵裡面。但我知道回音是有的:你在讀,就是那個回音。
🤝 想聊聊你工作裡的 AI 戰略?
如果你正在思考自己團隊的工作流要怎麼重組、哪些事情該交給 AI、哪些評估指標需要設計,歡迎直接寫信到 erica.yojuhsu@gmail.com 聊聊。
如想留言評分,請先 登入會員!