别被 demo 骗了：AI 落地的真实水位

AI 落地观察 · 第 1 篇

demo 的 5 分钟，和生产的 5 个月

过去一年半，我看了不下 200 个 AI demo。自动生成 PRD、一句话搭网站、AI 客服 30 秒解决投诉……每个都让你觉得"明天就能取代人类"。

然后呢？

我认识一个电商团队的 CTO，2025 年 3 月就立项了 AI 客服。到现在，线上跑的还是 3 个人的纯人工客服 + 一个只敢在后台做"话术推荐"的 RAG 系统。

他跟我说了一句话，我记到现在：

demo 到上线，中间隔了 100 个 corner case。

不是 AI 不行。是真实世界太乱了——用户打字带方言、一句话问三个问题、截图当文字发。每一个边缘情况都足够让一个 95 分的 demo 在上线第三天被打到 60 分。

我用 2025 年下半年到现在的观察画一个四象限：

代码补全 / 代码审查。 GitHub Copilot、Cursor、Claude Code 这类工具，程序员已经离不开了。原因很简单：代码有编译器兜底，错了好修。
文档翻译 / 摘要。 跨境电商和多语言 SaaS，AI 翻译 + 人工校对已经成了标准管道。
客服话术推荐。 人工客服打字时，AI 在侧边栏实时推荐回复。这比全自动客服靠谱得多——最后一公里还是人走。

AI 搜索 / 知识库问答。 效果好不好只有一个分水岭：数据干不干净。我见过一个金融团队，RAG 上线后准确率 87%，结果发现那 13% 的错误里有一半是源文档本身就写错了。
AI 面试 / AI 简历筛选。 合规风险太大。欧美 2026 年已经有几个城市的法规要求标注"本环节使用了 AI"。

我自己帮 3 个团队做过 AI 相关的落地咨询，踩过的坑高度一致。

这是被低估最多的一环。一个团队花两周就能跑通一个 LangChain demo，然后花三个月清洗知识库、去重、补缺失、统一格式。LLM 本身不是瓶颈，你喂给它的东西才是瓶颈。

给你一个真实的数字：我朋友团队 2025 年 9 月上了 AI 辅助审单系统，推荐的审核结果准确率 94%。但是——运营团队前两个月基本不敢点"一键采纳"，硬是自己再查一遍。

原因很简单：AI 对了 94 次没人夸，错 1 次全组通报。没人想当那个"被 AI 坑了"的人。

到 2026 年 3 月，采纳率从 2% 慢慢涨到了 40%。不是因为模型变好了，是人看久了、看顺眼了。

不少团队上 AI，需求不是从业务里长出来的，是老板说"我们要有 AI"然后硬找了一个场景。这种情况下 AI 项目 80% 的结果：demo 做完、汇报完、亮个相、然后没有人真的在用。

我不会说"每个企业都需要 AI"。坦白讲，有些场景用 Excel + 规则还更稳。

但以下 3 个信号出现时，AI 通常是划算的：

2025 到 2026，AI 行业最大的变化不是模型能力，是大家的预期在回归。

去年大家都在找"AI 能干什么"。今年大家开始问"AI 在我这真的值吗"。

这种冷静，我觉得是好事。

你们团队在 AI 落地上踩过什么坑？欢迎留言聊聊。

📌 下一篇：AI 开发者工具的真实体验报告