2026-04-18 · 面试准备

AI 产品经理面试问答集

HelloTalk 活动运营 PM（AI 向）× 字节跳动 AI PM 面经 · 候选人：刘思航（12 年策划 + 4 年 AI 实战）

候选人刘思航 · 35

AI 实战4 年

题库50+ 题

期望薪资40–60K

面试心态与节奏

开场前先校准：你是谁、节奏怎么控、遇到陌生问题怎么办。

核心原则 "策划人 + 资深 AI 实践者" vs "AI 向活动产品经理"。你不是 0 产品经验转型者，是把 AI 嵌入业务流程的一线操盘者。不自贬，不装。

时长节奏 每题 60–120 秒。关键数字必须清晰说出：15 天→4 天 / 12,000+ 对话 / 4 年 AI 实践。

叙述方式 讲"流程→问题→动作→结果"，不讲概念。遇到不懂的技术，诚实说"这个我没深入做过，但我的理解是……"。

HelloTalk 岗位深度解读

把 JD 和你的经验一一对上号。

JD 拆解

关键词 × 匹配点映射

JD 原文	他们真正要的	你的匹配证据
带领团队运用 AI 搭建活动工具、管线、模版	会教团队用 AI、会搭工作流	已搭 Claude Code + MCP + Skills 工作流，方案周期 15 天 → 4 天
高效生成视觉元素和玩法逻辑	视觉资产 AI 化、玩法批量产出	MJ 提示词工程 4 年；GPTs Store 产品 12,000+ 对话；Nanobanana / ComfyUI 熟练
跨板块全平台活动、跨文化节日主题	平台视角做统筹	策展人 6 年（跨文化艺术展统筹）+ 文旅总策划（跨业务板块落地）
把有价值活动沉淀为产品固定玩法	产品化思维	已把策划经验沉淀为 Skills / 模板系统，"经验产品化"实战案例
对数字敏感、理工科加分	能跑数据、拆目标	金融学 + 电子信息工程双学位；策划项目预算 / ROI 盘点 12 年

产品功课

HelloTalk 产品侧知识点

HelloTalk 是语言交换 + 跨文化社交；扭蛋玩法是"长期开放 + 养成系"结构。

展开 / 折叠

必提 1 · 扭蛋活动用户用 HT 币买扭蛋获得装扮，装扮 3 天有效期，5 件一套点亮后可分享。含累计进度奖励 + 图鉴收集双机制。

必提 2 · 产品底色HelloTalk 是语言交换 + 跨文化社交，用户天然跨语言、跨时区、跨文化。活动必须有"连接感"。

叙述提示面试中主动提扭蛋玩法——显示做过功课。

用户理解

HelloTalk 用户画像

三类用户（工具型 / 关系型 / 表达型）× 三痛点（靠谱语伴 / 破冰由头 / 不冒犯交流）。

展开 / 折叠

三类用户

语言学习者（工具型）：活动要有"学到东西"的感觉
跨文化社交者（关系型）：活动要能触发对话与连接
语言输出爱好者（表达型）：活动要能提供表达舞台

核心痛点

找到靠谱、活跃、愿意长期交流的语伴
有主动搭话的由头（破冰门槛）
在异国文化里不冒犯、能共情地交流

个人介绍（开场）

开场90–120 秒

自我介绍

策划人 + 4 年 AI 实践 + GPT Store 产品 + 内部 AI 工作流（15 天→4 天），想全面投入 AI。

展开完整话术

完整话术您好，我叫刘思航，目前在深圳市森科思有限公司担任总策划师，主导文旅和展厅两大业务板块，过往的工作经历也一直以策划与设计为主线。停顿

让我区别于传统策划人的，是过去四年持续深入的 AI 实践。

2021 年底 Midjourney V3 刚发布，我就开始系统研究提示词工程。2022 年 GPT-3.5 和 MJ V4 推出后，我正式将 AI 引入日常工作流；GPT-4 时代，我把文档分析、大纲撰写、文案输出等核心策划环节迁移到了 GPTs 上，同时把自己沉淀的 Midjourney 提示词方法论整理成工具，上架到了 GPT Store。停顿

之后我一直跟着技术前沿迭代——大模型应用层从 Dify、n8n 到 Skill、MCP，再到 Vibe Coding；图像生成从 Stable Diffusion、ComfyUI 工作流，到目前主力使用的 Nanobanana。每次新工具出现，我都会第一时间评估它能否真正解决业务问题。

去年深入 Vibe Coding 之后，我做了一件对公司意义比较大的事：把"策划到 PPT 输出"的完整链路统一到同一个平台上，形成团队可复用的标准化工作流，显著提升了交付效率。停顿

AI 现在既是我工作的主线，也是我最大的个人兴趣所在。所以我希望下一段职业生涯能完全投入到 AI 相关的方向里。

叙述要点

开头一句话说清"我是谁"
"四年 AI 实践"要重音——护城河
GPT Store / 15 天→4 天数字清楚说
结尾"下一段职业生涯完全投入 AI"——眼神接触

HelloTalk 必答 · 6 题

岗位核心筛选题。每题 60–120 秒版 + 20 秒 elevator 版。

必答 Q175 秒

你怎么理解 HelloTalk 这个岗位？

核心不是"做一个活动"，而是持续提升活动生产效率 × 玩法创新 × 业务结果。

展开完整答案

核心思路

不是传统 AI PM，也不是单纯活动执行，是 AI 驱动的 C 端活动玩法产品
两条线：AI 提效系统 × 平台视角统筹玩法
把有效活动 沉淀为长期产品能力

完整话术我理解这不是传统 AI PM 岗位，也不是单纯活动执行，它更像是一个"AI 驱动的 C 端活动玩法产品岗"。

一方面要把 AI 用在活动生产上，包括视觉素材、玩法模板、活动管线这些提效系统；另一方面要站在平台视角，把不同场景和板块联动起来，围绕节日、热点和跨文化主题做活动，把有效活动沉淀成长期可复用的产品能力。

所以核心不是"做一个活动"，而是持续提升活动生产效率、玩法创新能力和业务结果。这一点和我过去做的事情很像——把复杂的创意流程结构化、产品化，再推动落地。

必答 Q2120 秒

你做过哪些 AI 生产管线？结果是什么？

不是装个 AI 工具，是把流程拆开、AI 替换关键环节、落成团队稳定用的系统——15 天 → 4 天。

展开完整答案

完整话术我做过一个最有代表性的案例，是把公司原来高度依赖人工经验的策划前期流程，做成了一套 AI 驱动的标准化工作流。

原来的问题是，每接一个新项目，团队都要从零做功课——研究甲方背景、行业资料、场地信息、需求拆解、方案大纲、视觉预演，前期周期平均 15 天。

我做的不是简单加个 AI 工具，而是先把业务流程拆开，找出最适合 AI 介入的环节，最后做成三个核心模块：文档分析（企业资料→结构化画像）、大纲生成（模糊需求→方案框架）、分步式内容输出（降低长文本生成质量衰减）。

最终周期从 15 天压缩到 4 天，不是 demo，是团队真实在用、在迭代、能稳定交付结果的系统。这件事让我积累了从流程设计、Agent 编排到落地验证的完整经验。

可能追问

技术栈？ → Claude Code + MCP + Skills，配 MJ / Nanobanana
怎么保证质量？ → 分步式生成 + 人工校验节点 + 模板约束
团队配合？ → 给同事配过 CLI + Skills，瓶颈是没有 Web 界面

必答 Q390 秒

怎么把一次活动沉淀成固定玩法？

主题可变、机制可复用——五层框架（入口 / 路径 / 激励 / 模板 / 指标）。

展开完整答案

完整话术先区分一次活动里哪些是"主题"，哪些是"机制"。

主题会变（节日、热点、文化内容），机制有效就可以复用。我会先复盘活动里真正有效的部分——用户为什么会进来、为什么会参与、为什么会留下来——然后把这些环节抽象成固定能力。

具体拆成五层：入口怎么触发，参与路径怎么设计，激励机制是什么，内容模板怎么复用，指标怎么判断有效。

五层稳定复用，就不是一次 campaign，而是一个玩法。

加分动作主动用扭蛋举例："比如 HelloTalk 的扭蛋，入口是 HT 币门槛、路径是抽 1/5/10 次、激励是装扮 + 图鉴、模板是套装、指标是参与率和分享率。岗位要做的就是持续给它换新主题，同时探索新的'玩法原型'。"

必答 Q490 秒

你怎么判断一个活动值不值得做？

三把尺子：目标对齐 × ROI × 可沉淀性——缺一就要砍或换。

展开完整答案

完整话术我用三把尺子来衡量。

第一是目标对齐——拉新、促活、留存还是变现？说不清目标的活动基本不值得做。
第二是 ROI——不只看钱，要算团队工时。成本 vs 产出不合格，就砍需求或换玩法。
第三是可沉淀性——做完能留下来什么？能沉淀成模板就值得做；纯一次性烧完就没，哪怕数据好也要慎重，长期在消耗团队产能。

具体操盘上，我习惯小样本先验证再放量——先跑 MVP，数据立得住再全平台铺。

必答 Q590 秒

你没有内容社区背景，为什么还适合？

承认短板 + 策划本质就是"用户参与感设计" + GPTs 12K+ 实战——三个月能补齐。

展开完整答案

完整话术说老实话，我没在纯粹内容社区做过 PM，这确实是我的短板，我不回避。

但三点能补齐：
第一，策划的本质就是用户参与感设计。12 年策展 / 文旅，我日常解决的是"怎么让用户进来、停留、分享"——和社区运营相通，只不过我的"场"是线下空间。
第二，我有 C 端产品实战。GPT Store 上架 MidJourney 提示词工具，12,000+ 对话，4.4 评分，100+ 条评价，类目榜首。走过一遍完整的 PM 闭环。
第三，转型方向非常聚焦。半年 JD 调研 + 产品体验，HelloTalk 扭蛋也研究过。岗位最核心的"AI 嵌入业务流程"能力我已经具备，内容社区 know-how 三个月内能补齐。

必答 Q6120 秒

如果做一个跨文化节日活动，怎么设计？

节日不能贴皮，要成为"两种文化用户连接的理由"——双人机制 + AI 管线 + 双向转化率为核心指标。

展开完整答案

完整话术原则：节日活动不能是"给产品贴个节日皮肤"。HelloTalk 核心是语言交换 + 跨文化社交，节日必须成为"两种文化用户产生连接的理由"。

举例春节主题——"跨文化新年祝福"玩法：
入口：母语推送"你的中国语伴今天在过春节，要不要学一句祝福送给他？"
路径：AI 生成拼音指导 + 语音示范，用户录音发给语伴；对方可回赠一句外语祝福。
激励：双方得"跨文化祝福卡"（AI 生成两国节日元素融合海报），收藏进跨文化图鉴（复用扭蛋图鉴机制）。
分享：图鉴满自动生成 UGC 内容卡片。

AI 加持：Nanobanana / MJ 生成视觉；AI TTS 生成地方口音语音；大模型生成多语言祝福模板。

指标：参与率、双向转化率（核心，证明"连接"真的发生）、分享率。双向转化率立得住 → 复用到圣诞、开斋节、排灯节，做成 HelloTalk 的"跨文化节日标准玩法"。

HelloTalk 深度追问 · 6 题

JD 强相关 / 面试常考，每题 60–90 秒。

深度 Q790 秒

从 0 搭一套视觉资产 AI 管线，怎么做？

三层架构：输入层（规则）→ 生成层（工具矩阵）→ 交付层（资产包 + 设计师协作）。

展开完整答案

完整话术视觉资产 AI 管线不是"装个 MJ 就完事"。要解决三个问题：风格一致性、批量产能、可交付性。

输入层：建立品牌视觉参考库（主色、字体、IP 风格、禁用元素），沉淀为统一 style reference 提示词模板。谁来生成风格都一致。
生成层：按活动类型用不同工具。主视觉海报用 MJ / Nanobanana，批量素材用 ComfyUI 工作流，UI 元素用 GPT-4o / Recraft，品牌 IP 用 LoRA 微调。工具各司其职。
交付层：AI 生成只是原料。接设计师审核（放大效率而非替代）+ 尺寸适配 + 命名规范 + 资产归档。输出不是一堆图，是可直接用的资产包。

这个架构我在森科思跑通过，替换规则层就能迁移到 HelloTalk。

深度 Q875 秒

怎么带团队用 AI？同事不懂技术怎么办？

不是教工具，是让工具迁就人——提示词模板 → Skills 封装 → 内部平台。

展开完整答案

完整话术核心理念：不能指望每个人都懂技术，要让工具主动迁就人。

我在森科思走过这条路。一开始让同事直接用 Claude，学习曲线差异很大——有的快速上手，有的两周还在问基础问题。统一门槛不现实，必须分层。

三个梯度：
提示词模板——高频场景做成可复制粘贴的包，照着填空就能用。
Skills 封装——复杂工作流打包成一键调用，"分析这份甲方资料"就是一个命令。
内部平台——给完全不懂技术的同事做 Web 界面，像用 SaaS 一样用 AI（Vibe Coding）。

在 HelloTalk 会先判断团队能力画像，分层推进，不一刀切。

深度 Q975 秒

讲一个你做失败的事 / 最大的坑

AI 不是替代思考，是辅助思考——失败直接推动了整套分步式工作流的诞生。

展开完整答案

完整话术去年初，我第一次尝试让 AI 完全接管方案撰写。当时觉得 GPT-4 够强，直接把甲方需求丢给模型从头到尾生成。结果看起来很专业，但全是空话——结构对、辞藻漂亮，但没理解甲方业务。那次方案被总监直接打回。

学到三个东西：
AI 不是替代思考，是辅助思考。自己没想清楚，丢给 AI 只会得到更精致的"错误答案"。
长链路任务必须分步。后来拆成 5-7 个短任务，每步有人工校验节点，质量才稳定。
用 AI 前先做好"人的部分"。先手写极简版大纲，再让 AI 展开。顺序不能反。

这件事直接推动了我整套分步式工作流的设计。那次失败是整个方法论的起点。

深度 Q1090 秒

怎么设计一个活动的指标体系？

北极星 × 过程 × 防御，三层指标——"防御指标"是加分点。

展开完整答案

完整话术 三层结构：

北极星指标——活动最核心要拉动什么？新增、活跃、留存、付费？一个活动只能有一个北极星。
过程指标——漏斗：入口曝光率 → 点击率 → 活动页 → 完成参与 → 分享率。告诉我用户在哪一步流失。
防御指标——活动不能损害其他关键指标。高激励活动可能拉高参与率，但让次日留存下降、DAU 被稀释。

具体例子——跨文化祝福活动：北极星 = 双向交换完成 UV；过程 = 入口点击率 → 录音完成率 → 对方回应率 → 图鉴分享率；防御 = 次日留存不下降、非参与用户 DAU 不受影响。既看到效果，也守住健康度。

深度 Q1190 秒

全年活动日历怎么规划？

战略 × 节奏 × 资源三轴——留 20-30% 机动给突发热点。

展开完整答案

完整话术 三轴规划：

战略轴——明确主战略目标。战略决定取舍标准。没战略，日历就是日程表。
节奏轴——四个季度：Q1 春节 + 情人节；Q2 母亲节 + 毕业季；Q3 暑期 + 独立日；Q4 圣诞 + 跨年。每季分大 / 中 / 小三档。
资源轴——对齐团队产能，留 20-30% 机动给突发热点。日历排太满，就做不了热点了。

HelloTalk 具体：全球主要节日扫一遍，按"跨文化连接度 × 用户覆盖度"打分，选 Top 12——不是中国视角也不是欧美视角，是"HelloTalk 用户语对"视角。

深度 Q1275 秒

怎么看 Duolingo 的活动体系？

Duolingo 是单机游戏化，HelloTalk 应该做双人养成——护城河方向。

展开完整答案

完整话术 Duolingo 最好的是游戏化——连胜、联赛、皮肤养成、每日任务，把枯燥行为变得有黏性。这是它的护城河。

但 Duolingo 模式不能直接复制：Duolingo 是单机学习，游戏化是解决"一个人怎么坚持"；HelloTalk 是社交交换，核心是"两个人怎么发生连接"。

HelloTalk 应该借鉴 Duolingo 的养成感 + 进度感，但机制要双人 / 多人化。比如扭蛋加"和好友集齐同一套装"，连胜改"和语伴一起打卡"，让每个游戏化机制自带社交触点。

不做单机养成，做双人养成——这是 HelloTalk 的护城河方向。

HelloTalk 补充题 · 8 题

不一定会问，但问到要答得上来。

补充

你了解 HelloTalk 这个产品吗？

全球语言交换社区 · 体验过扭蛋 · 产品在从工具 → 社区演进。

展开

HelloTalk 是全球语言交换社区，核心是让母语者互相学习。我体验了最近的扭蛋活动——HT 币抽扭蛋、5 件一套点亮、图鉴收集机制，"长期开放 + 养成系"。产品也在尝试 Moments 内容社区、AI 陪练等方向，路径从语言工具 → 跨文化社区演进。

补充

为什么选择 HelloTalk？

岗位 AI 向精准匹配 × 跨文化属性呼应经验 × 规模合理。

展开

三个原因。第一，"AI 向"活动玩法岗和我四年实战路径精准匹配——不是来学 AI，是把 AI 落地业务。第二，HelloTalk 的跨文化属性和我的跨文化策展经验呼应。第三，深圳本地、B 轮、规模合理，既有发挥空间又不至于体系太沉重。

补充

最大优势 / 最大短板？

优势：AI 完整实战 + 流程标准化；短板：AB 测试深度——三个月能补齐。

展开

优势：AI 实践的完整性——从提示词到 Agent 编排到 Vibe Coding，一线操盘。把复杂流程标准化的能力，12 年策划训练出来的。

短板：纯互联网产品的数据驱动经验比策划行业少，尤其是大规模 AB 测试 / 漏斗分析的实操深度。三个月内能补齐。

补充

三年规划？

1 年证明 → 2 年带团队扩大 → 3 年成 AI × 增长方向负责人。

展开

第 1 年：理解 HelloTalk 用户和活动体系，把 AI 视觉管线 + 玩法模板搭起来，拿出 2–3 个跨文化活动标杆案例。
第 2 年：带团队扩大 AI 驱动节奏，从人工 → AI 辅助 + 数据驱动。
第 3 年：从"活动 PM"成长为"AI × 用户增长"方向负责人。

补充

期望薪资？

40–60K 月薪——说完停住，不心虚，不加"可能""大概"。

展开

我了解过深圳市场区间，结合 AI 实践深度和业务量级，期望 40–60K 月薪，最终看整体 package（股票、奖金、职级）。具体可以谈。

补充

为什么从森科思离开？

只讲"想去哪"（互联网 / 规模化 / 快反馈），不讲"为什么走"。

展开

两层原因。方向：做 AI 越深越意识到战场在互联网产品，不在文旅乙方。森科思是项目制天花板，想去规模化触达用户的地方。节奏：希望进入能持续迭代、快速看到数据反馈的环境。

补充

AI 工具突然不可用怎么办？

不把交付押在单一工具——备用链路 + 人工校验兜底。

展开

AI 工具不确定性是常态，不是例外。不把活动押在单一工具——备用链路：MJ 不行切 Nanobanana，GPT 不行切 Claude，本地 ComfyUI 兜底。人工校验：AI 生成必须过 QA 再上线，不追求 100% 自动化。

补充

怎么保持玩法创新 / 灵感从哪来？

三输入源：横向竞品 + 纵向游戏行业 + 用户反馈。

展开

横向：每周扫全球头部内容 / 社交产品（IG、TikTok、小红书、Discord、Reddit）。纵向：游戏行业——机制创新领先产品圈 3-5 年。用户侧：看反馈、评论、差评——用户骂什么就是下一个玩法机会。玩法不是拍出来的，是扫描出来的。

HelloTalk 反问环节

面试官问"还有什么想问我的"——必须准备 3–5 个。沉默 = 不感兴趣。

反问 1

团队结构 · 业务边界

团队组成？配合角色？汇报关系？

展开

这个岗位目前团队是怎么组成的？活动 PM 主要和哪些角色配合——更偏产品线协作还是偏设计技术侧？汇报关系是直接向产品总监汇报吗？

反问 2

当前痛点 · 期望突破

活动体系最大卡点？希望 3-6 个月先推进什么？

展开

HelloTalk 目前活动体系最大的卡点是什么？产能不足、玩法创新乏力、还是AI 工具化落地？新 PM 进来希望 3–6 个月先推进哪些事？

反问 3

AI 工具链现状

单点工具 / 内部平台 / 成熟管线？团队对 MCP · Agent 接受度？

展开

公司目前的 AI 工具链大概在什么阶段？是单点工具、内部平台，还是已有成熟管线？团队对 MCP / Agent 编排这类新范式的接受度如何？

反问 4

岗位成功标准

一年后做得好的标志是什么？

展开

如果一年后我在这个岗位上做得很好，您心目中会是什么样的标志性结果？是具体的指标数字，还是某类能力的沉淀？

反问 5

下一步流程（最后问）

流程 + 反馈时间 · 表达意向推进流程。

展开

感谢您今天的时间，我对这个机会挺感兴趣的。想问接下来的流程安排是怎样的？大概什么时候会有反馈？

字节跳动 AI 产品经理面经 · 完整问答

字节 AI PM 全流程（1h45min · 一面 45-60min 基础 · 二面 60min 深度 · 三面 45min 综合）。26 题全配自适配答案。

📁 一面 · 基础能力摸底 9 题 · 45-60min

字节一面 1-175 秒

评价最喜欢的 AI 产品（豆包 / ChatGPT / Cursor）及优缺点

对比思维——不只夸一个，指出各自定位；别堆术语，说具体使用体感。

展开完整答案

完整话术我日常用得最多的是 Claude，主要场景是业务工作流——文档分析、方案结构化、Agent 编排。

Claude 的优势两点：长上下文处理稳定，我经常把几十万字甲方资料直接丢进去；Claude Code + MCP 生态成熟，能真正把 AI 嵌入日常工作流，不是停留在"聊天机器人"。缺点也明显：国内访问不友好、响应速度比豆包慢、中文文案略逊 GPT-4o。

对比看：ChatGPT 生态最全、GPTs Store 成熟，但迭代节奏放缓；豆包中文理解和抖音 / 头条生态整合最强，适合 C 端轻度用户；Cursor 是"AI 深度嵌入单一场景"的标杆——这种深度嵌入业务的思路，正是我理解 AI 产品的关键方向。

破题要点对比思维 + 技术平实化 + 连接到自己的实操经验

字节一面 1-275 秒

大模型发展趋势？Decoder only 为何成主流？

坦诚不堆术语——说核心逻辑（生成效率高 + 拟合任意文本分布）。

展开完整答案

完整话术坦诚说，我不是做底层的，理解更多从产品应用层来。

趋势三个方向：上下文窗口从 4K 到百万 token；多模态融合（文字 / 图像 / 语音 / 视频走向统一）；从被动对话到主动 Agent（能调工具、执行任务）。

Decoder only 为何成主流——Encoder-Decoder 适合翻译这种"输入-输出"边界清晰的任务；但 LLM 要做的是拟合任意文本分布，Decoder only 结构简洁、生成效率高、scaling 更容易。Transformer + 自回归 + 足够数据和算力，就能覆盖大部分生成任务。

所以不是"技术最优"，而是"在追求规模化生成时，最简洁有效"。

字节一面 1-390 秒

对标某款 AI 产品做竞品分析，方法论是什么？

四层框架：定位 → 功能 → 数据 → 体验——强调亲自走流程。

展开完整答案

完整话术我有一套四层框架：

定位层——先搞清对标产品解决什么问题、服务什么人群。很多分析一上来对比 feature，错了，用户不一样功能对比无意义。
功能层——对齐核心功能的广度和深度。广度是覆盖多少场景，深度是每个场景做到什么程度。
数据层——能查就查：下载量、DAU、用户评价、评分分布。重点看差评，差评里藏着真实痛点。
体验层——亲自用，走 3-5 个典型场景完整流程。很多优缺点只有真正用过才能发现。

四层拼起来，得出的不是"feature 对比表"，是"战略差异 + 落地能力差异"的判断。

字节一面 2-1120 秒

介绍最有成就感的 AI 项目，你的角色？

STAR 完整 + 量化结果（15 天→4 天）+ owner 角色 + 具体动作。

展开完整答案

完整话术最有成就感是把公司的策划前期工作流 AI 化。

背景：每接一个文旅项目，团队从 0 做功课——甲方研究、行业调研、需求拆解、方案大纲，要 15 天。
角色：从 0 规划到落地的完整 owner——流程拆解、AI 介入点识别、Agent 架构设计、Skills 封装、团队推广。
具体动作：
1. 流程拆解：把 15 天拆成 7 个关键节点，每个评估"是否适合 AI 介入 / 人工校验点"。
2. 架构搭建：基于 Claude Code + MCP + Skills 搭一套可复用工作流，每个 Skill 对应一个高频场景。
3. 团队推广：先跑通 3 个完整项目，做内训，配 CLI 和模板。
结果：周期从 15 天压缩到 4 天，团队真实在用、在迭代、能稳定交付。

字节一面 2-290 秒

如何评估 AIGC 质量？核心指标？

两层指标：通识类（BLEU、ROUGE、准确性）+ 体验类（回复时长、打断率、留存）+ Bad Case 库。

展开完整答案

完整话术 两层指标：

通识性指标（可量化、可批量评测）：
· 文本：BLEU、ROUGE、perplexity
· 图像：FID、CLIP Score、人工主观评分
· 代码：pass@k、编译通过率

产品体验指标（用户真实感受）：
· 对话类：回复时长、用户打断率、多轮留存、主动退出率
· 生成类：用户修改率、二次生成率、最终采纳率
· 创作类：满意度、分享率、复用率

通识指标说"模型行不行"，体验指标说"用户真的愿意用吗"。两者必须结合，不然会出现"BLEU 高但用户不用"。

最后一定要有 Bad Case 库——真实投诉沉淀成回归测试集，每次迭代都跑。

字节一面 2-390 秒

要提升一款 AI 产品的 DAU，从哪些维度入手？

三维度：新增 × 留存 × 回流 + 漏斗思维 + MVP 验证。

展开完整答案

完整话术 三维度：

新增：
· 渠道端——ROI 高的渠道加码投放
· 产品端——Onboarding 流畅度，3 分钟内给到 aha moment
· 内容端——设计天然可分享的输出物（AI 产品靠用户晒成品拉新）

留存：
· 习惯养成——高频使用场景
· 能力成长——个性化记忆，越用越懂
· 社交绑定——多人协作 / 分享 / 社区化

回流：
· 沉默召回——推送 / 邮件 / Push 时机内容
· 新功能刺激——重大迭代定向唤醒

具体操盘：先拉漏斗看哪一步流失最严重，资源集中优化那个节点，MVP 验证立得住再放量。

字节一面 3-190 秒

Prompt / RAG / SFT 的区别和联系？

从轻到重递进：Prompt（灵活零成本）→ RAG（外挂知识库）→ SFT（改造模型）。

展开完整答案

完整话术大白话说：

Prompt 是最轻——不动模型，只在输入端"教模型怎么做"。优点：灵活、零成本、迭代快。缺点：受上下文长度限制，知识不持久。

RAG（检索增强生成）是"外挂知识库"——送给模型前先从外部库检索相关资料，塞进 Prompt。优点：解决"不知道最新 / 私有数据"问题，知识更新无需重训。缺点：检索质量决定上限。

SFT（监督微调）是"重训模型"——用高质量标注数据改造模型本身。优点：能力焊死、效果稳定。缺点：成本高、迭代慢、数据质量要求极高。

关系：从轻到重递进——先试 Prompt，不够上 RAG，再不行才 SFT。实际项目常组合：SFT 训领域基座 + RAG 补实时知识 + Prompt 做场景适配。

字节一面 3-290 秒

大模型"幻觉"怎么处理？

技术层 + 产品层双管齐下——幻觉是特性不是 bug，要让用户能识别和纠正。

展开完整答案

完整话术幻觉是 LLM 固有问题，不是 bug 是特性。技术 + 产品双层处理：

技术层：
· 引入 RAG，让模型"有据可查"
· Prompt 明确约束——"只回答文档中有的内容，没有就说不知道"
· 关键事实做二次校验（另一个模型或规则检查引用真实性）
· 降低 temperature、用更确定的参数

产品层：
· UI 显性标注不确定性——"此内容由 AI 生成，请核实"
· 用户反馈通道——每个输出可点赞/踩，积累 Bad Case
· 高风险场景（医疗、法律、金融）强制人工审核，AI 只做初稿
· 让用户能追溯来源——引用给出具体出处

底层原则：技术只降低幻觉概率，产品决定用户能否接受幻觉的存在。不要追求 0 幻觉，要让用户知道哪里可能有问题、怎么快速识别。

字节一面 3-375 秒

了解最近新的 AI 技术或算法吗（GRPO / MCP）？

MCP 我日常在用不只是了解；关注技术是为了判断"哪些会改变产品形态"。

展开完整答案

完整话术我不是做底层的专家，但会跟进能改变产品形态的新技术。说两个我实操过的：

MCP（Model Context Protocol）——我不只了解，日常在用。核心价值是给大模型提供统一"工具调用协议"，让 LLM 连本地文件、数据库、外部 API。我在森科思的工作流就是基于 Claude Code + MCP——这让 AI 不再是"聊天框"，是能真正执行任务的 Agent。

GRPO 这类新训练范式——从 RLHF 到 DPO 到 GRPO，核心在降低对齐成本、提升推理能力。对 PM 的意义：未来推理模型会越来越便宜、越来越普及，很多"要博士做"的复杂逻辑会下沉到产品层。所以设计时要提前想：模型推理足够强时，哪些产品会被重构？

关注不是为了秀术语，是判断"哪些技术会改变产品形态"——这是 AI PM 的核心敏感度。

📈 二面 · 深度场景与迁移能力 8 题 · 60min

字节二面 1-1120 秒

为抖音 / 电商设计 AI 导购助手，怎么规划？

全链路闭环：需求确认 → 技术选型 → Bad Case → 效果评估，承认情感决策边界。

展开完整答案

完整话术按全链路规划，从需求到评估闭环。

需求确认：本质目标是什么？GMV？退货率？客单价？停留时长？目标决定设计——追 GMV 和追留存产品形态完全不一样。

技术选型：
· 通用对话层用大模型底座
· 商品知识用 RAG——商品信息实时变动，不能 SFT
· 用户画像 + 历史行为走推荐系统跟 LLM 打通
· 高情感决策商品（婚纱、奢侈品）留人工接入点

Bad Case 处理：上线前建立 Bad Case 库——"用户问 A 推 B"、"过度营销"、"商品信息错误"——持续 fine-tune Prompt。

效果评估：业务指标（GMV、转化率）+ 体验指标（对话满意度、放弃率、主动提问率）。

核心难点：
· 平衡"推销感 vs 服务感"——节奏和语气是关键
· 商品知识时效性——百万 SKU 每天变动，RAG 检索质量决定一切
· 情感决策边界——承认 AI 局限，高决策成本商品必须人工介入

字节二面 1-290 秒

设计 AI 自动生成 SQL / 代码的工具？核心优势和边界？

优势明确 + 边界感强（适合 / 慎用 / 禁用）+ 人在环 + 可解释。

展开完整答案

完整话术虽不是开发出身，但 Vibe Coding 实操过，从产品视角聊：

核心优势：降低技术门槛（非技术岗查数据）；提效（工程师让 AI 写样板代码）；快速 POC（自然语言 demo 验证思路）。

技术选型：
· 固定 Schema 的 SQL——RAG + Schema 注入 + few-shot 覆盖 80%
· 复杂业务逻辑——SFT 在公司代码库领域微调
· 配代码执行沙箱——AI 生成后隔离环境跑一遍，语法错自动 retry

应用边界：
· 适合：查询类、报表类、样板代码、单文件小功能
· 慎用：复杂业务逻辑、跨服务协作、高性能要求
· 禁用：生产库写操作、安全敏感代码、核心算法

关键设计：AI 生成 + 人工审核 + 可撤销三件套；让用户看得懂结果（注释 + 解释）；错误可解释。

字节二面 1-390 秒

教育 / 客服场景如何让大模型文本丰富不单调？

三层：Prompt 策略 + 采样参数 + 内容层（素材库 + 上下文记忆）。

展开完整答案

完整话术这是典型的生成质量控制问题。三层解决：

Prompt 策略：
· 多样性引导词——"用不同句式、比喻、切入角度"
· 角色多元化——区分温暖型、专业型、简洁型，按用户画像匹配
· 避免模板化——禁止固定开头（"好的，我理解你的问题……"）

采样参数：适度调高 temperature 和 top_p（但不能过高）；用 frequency_penalty / presence_penalty 惩罚重复词。

内容层：
· 建立话术素材库——高质量回答沉淀为"句型卡 + 案例卡 + 类比卡"随机组合
· 上下文记忆——记住用户本轮用过的比喻和用词，下一轮避免重复
· 人设一致性 × 风格多样性——用户要的是"同一个客服每次有新鲜感"，不是"每次换个人"，基础人设稳定，细节表达多样

教育场景额外加难度自适应——按学生年龄 / 能力动态调整表达。

字节二面 2-190 秒

模型评测集效果不达预期，你怎么优化？

分层归因：数据 → 策略 → 模型 → 基建。80% 根因在数据 / Prompt，别跳过直接怪模型。

展开完整答案

完整话术用分层归因思路排查，不能一上来怪模型。

数据层：评测集本身有问题吗？标注标准一致吗？脏数据？评测集和线上真实分布差距大不大？样本量够不够？

策略层：Prompt 有优化空间吗？加 few-shot 能提升吗？CoT 能让模型推理更准吗？Prompt 做过 A/B 对比吗？

模型层：当前模型 capacity 够吗？要不要换更强底座？预算允许考虑 SFT；用 RAG 补缺失知识。

基建层：token 被截断？上下文窗口不够？采样参数不合理？线上和评测环境一致吗？

关键心态：不要跳过数据层直接怪模型。我的经验，80% 的"模型效果差"根因在数据或 Prompt。动模型本身是最后的手段。

字节二面 2-290 秒

从规则引擎切换到大模型，核心挑战是什么？

四挑战：确定性认知 / 评测重建 / 兜底机制 / 成本结构——迁移要分层并行。

展开完整答案

完整话术我在森科思有部分规则引擎式策划流程迁移到 AI 驱动的经验，踩过坑。四个挑战：

确定性 vs 概率性的认知转换——规则引擎 100% 可预测，AI 是概率输出。相关方的心理预期必须同步调整，这是最难的一步，不是技术问题是认知问题。

评测体系重建——规则是对错二元；AI 是"大部分对、偶尔错、偶尔惊喜"。需要新指标：准确率阈值、容错率、用户满意度、Bad Case 覆盖率。

回滚和兜底机制——AI 坏了怎么办？设计降级方案：AI 不可用时切回规则引擎、模板填充兜底。

成本结构变化——规则一次开发几乎零成本；AI 每次调用都花钱。提前评估 token 成本，设计 cache 策略。

迁移思路：不是一把切换，分层并行——核心路径保留规则兜底，边缘场景先上 AI，成熟了再替换。

字节二面 2-390 秒

技术团队觉得需求成本太高，怎么说服他们？

三步：先听（具体贵在哪）→ 拆需求（MVP / P1 / P2）→ 摆 ROI。研发不是敌人是合作伙伴。

展开完整答案

完整话术不硬推——研发说贵大概率有他们看到的问题。三步：

先听——让研发具体说贵在哪。算力成本？开发工时？架构改动？不同的"贵"解决思路完全不同。

拆需求——研发觉得贵通常因"一次想做太多"。拆成 MVP 核心 + P1 增强 + P2 扩展。MVP 必须小到研发觉得"好吧这个能干"。

摆 ROI——用数据说话：
· "预计提升 XX 指标 N%，半年回收成本"
· "竞品已经在做，不做半年后会落后"
· "现在做 MVP 成本 X，业务复杂了再做成本 3X"

如果说服不了——反思：我的成本预估错了？业务价值没想清楚？PM 为自己的需求负责到底，不是硬推到研发头上。

原则：研发不是敌人，是合作伙伴。说服最好的方式是"带他们一起想怎么做成"，不是"想办法压他们干"。

字节二面 3-190 秒

内部工具（抖音）vs 外部商业化（火山）在设计上的核心差异？

一句话：内部重效率，外部重易用——五维度（UI / 文档 / 权限 / SLA / 变更）+ 商业逻辑差异。

展开完整答案

完整话术一句话：内部重效率，外部重易用。

用户画像不同：
· 内部——同事懂业务、能接受丑
· 外部——付费客户、体验挑剔、对文档支持有强预期

五维度差异：
· UI 容忍度：内部可"丑"但要"准"；外部必须美观、交互符合主流 SaaS 惯例
· 文档：内部可口头传承；外部必须完整文档 + 视频 + API reference + 最佳实践
· 权限：内部粗粒度（部门级）；外部细粒度（用户 / 角色 / 项目 / 资源级）
· SLA：内部挂了道歉；外部挂了赔钱，多 9 保障 + 监控 + 降级
· 变更：内部可快速迭代；外部版本管理 + 向后兼容 + 迁移指南

商业逻辑：内部是成本中心（指标：内部效率）；外部是利润中心（指标：ARR、续约率、NPS）。

字节二面 3-290 秒

如何平衡商业化变现和用户体验？

"价值对齐"——只在用户感受到价值的节点推变现，绝不反向收费。

展开完整答案

完整话术两者不对立，核心在"在正确的节点做正确的变现"。

我的原则是"价值对齐"——只在用户已经感受到价值的节点推变现，绝不在他体验到爽点前就收钱。

分层：
· 基础功能免费——拉留存建用户基础
· 增强付费——长上下文、更快响应、专属模型
· 企业化——团队协作、权限管理、SLA

时机：不在 Onboarding 弹付费，等用户至少 3-5 次 aha moment 后温和提示"经常用升级会更顺"。

价值感知：差异要能感知——"免费用 10 次，升级无限用 + 快 2 倍 + 独享 XX 功能"。

底线：绝不反向收费——限制导出自己数据、锁死关键功能。短期有收入长期毁口碑。

信念：好的商业化是"用户愿意付"，不是"被迫付"。ChatGPT Plus、Claude Pro 高续订率，是因为用户觉得"值"。

🧠 三面 · 综合素质与软技能 9 题 · 45min

字节三面 1-1120 秒

如何评价豆包？最想改进的三个点？

三点具体优化：场景纵深 / 记忆个性化 / 创作者链路——底层判断是"通用能力被拉平，差异化在嵌入深度"。

展开完整答案

完整话术豆包优势明显——中国用户洞察（中文自然、本地内容敏感、多端覆盖）。作为产品我想改进三点：

场景纵深不够——豆包更像"通用助手"，缺场景化深度产品。Cursor 之于编程、Figma AI 之于设计，证明了"深度嵌入单一场景"比"通用聊天"更有粘性。我会推动豆包在 2-3 个高价值场景做"嵌入级"集成——跟抖音电商、剪映深度打通。

记忆和个性化——豆包目前偏"即时性"。希望像 Claude Memory 一样主动积累偏好、历史、长期目标。个性化体验比功能强大更有感知。

创作者深度工具——文案、图像、视频生成都有覆盖但深度不够。我会在创作者链路做纵深——从灵感到草稿到成品到发布，AI 变成创作流"中枢"，不是单点工具。

底层思路：通用模型能力会被拉平，产品差异化在场景嵌入深度和个性化。

字节三面 1-290 秒

字节在 AI 赛道最大的优势和短板？

优势：场景流量 / 推荐算法基因 / 组织敏捷；短板：大模型原创 / ToB 服务。

展开完整答案

完整话术 优势三个：
· 场景和流量——抖音、TikTok、头条、飞书是超级场景，任何 AI 能力都能找到真实用户验证。这是 OpenAI、Anthropic 羡慕不来的。
· 推荐算法基因——十几年积累，本质也是大模型一分支。算法工程和数据闭环能力让大模型产品快速找 PMF。
· 组织敏捷——OKR + 赛马机制适合 AI 快速试错。

短板两个：
· 大模型底层原创能力——相比 OpenAI、Anthropic 的基座原创，字节更多"快速追赶"。长期决定天花板。
· ToB 服务经验——C 端基因，但 AI 商业化大块在 ToB（火山）。ToB 要服务、稳定、文档、SLA，和 C 端快速迭代文化冲突。组织转型是观察点。

判断：字节打法是"场景驱动 + 快速迭代"短期强；要成为 OpenAI 那样的 AI 原生公司，需要补"技术原创文化"。

字节三面 1-390 秒

为什么大模型公司都在推 Agent？你看好哪个方向？

Agent = 从"对话"到"执行"。看好Coding / Knowledge Work / Personal，不看好通用聊天 Agent。

展开完整答案

完整话术底层原因：大模型价值从对话演进到执行。对话时代 LLM "你问我答"；Agent 时代 LLM "你交给我任务，我自己做完"。这意味着 AI 直接产生业务价值，不只是辅助价值——对商业化和付费意愿是数量级提升。

我最看好三个方向：
· Coding Agent——Cursor、Devin 已证明。代码领域任务结构化、反馈闭环、可验证，最先成熟。
· Knowledge Work Agent——面向知识工作者（法律、咨询、财务、策划）的垂直 Agent。任务流程长、专业性强，能替代中低端重复劳动。我在森科思做的策划工作流就是这个方向的实践。
· Personal Agent——个人日常事务助手（日程、邮件、预订）。技术难度大（工具调用 + 隐私），市场潜力最大。

不看好通用聊天 Agent——没有 stable 价值锚点，用完即散。

关键判断：Agent 跑出来的前提是"垂直深度 + 可验证闭环 + 确定性收益"。

字节三面 2-190 秒

标注团队数据质量不稳定但他们不认可你的标准，怎么沟通？

"对事不对人"——先看 Bad Case 对齐，不谈对错；溯源业务价值；共建机制。

展开完整答案

完整话术原则是对事不对人，先对齐数据再对齐人。三步：

不谈对错先看 Bad Case——挑 20-30 个有争议的样本一起过，让双方看到具体哪些判断不一致。抽象吵"标准对不对"没结果，看具体例子才能收敛。

溯源需求——解释为什么这么定标准。是下游模型评测不好看？还是线上用户投诉集中某类问题？让标注团队理解他们对齐的是业务价值，不是我的个人偏好。

共建机制：
· 标注员申诉渠道——不同意可反馈，定期 review
· 双人交叉标注——关键样本多人标，分歧高的单独讨论
· 版本化标准文档——有迭代有记录

心态：不以"需求方"压标注团队，他们是合作者不是执行者；我的标准也可能错，他们说服了我我愿意改。最终目标是数据质量高，不是我标准赢。

字节三面 2-290 秒

面对多个业务方需求（内部急迫 vs 外部商业化），怎么排优先级？

二维矩阵（价值 × 紧急度）+ ROI，冲突时向上同步要决策。

展开完整答案

完整话术用二维矩阵 + ROI决策。

价值维度：业务价值（收入、留存、品牌）+ 战略价值（是否在公司 3 年方向上）。
紧急度：真紧急（有 deadline 错过就崩）vs 看似紧急（业务方推得紧但可延后）。

矩阵处置：
· 重要且紧急——立刻做
· 重要但不紧急——排期做
· 不重要但紧急——授权或砍掉（很多"紧急"是对方时间压力）
· 不重要不紧急——backlog

内部 vs 外部的特殊处理：
· 内部紧急需求——快速给 MVP（80% 功能快速上线）
· 外部商业化——不能打折扣，付了钱质量不达标就违约
· 默认排序：外部商业化长周期为主线，内部用 20% 机动资源响应

真冲突时向上同步——不是甩锅，是让 leader 看到优先级冲突从全局拍板。

字节三面 2-3120 秒

过往经历遇到的最大困难？怎么扛过来的？

2023 推动团队转 AI 的抵触——自己先跑成果 + 种子用户 + 承担失败成本。
核心认知：组织变革靠"看得见的成功"说服人。

展开完整答案

完整话术讲一个真实的——2023 年我在多巴安推动策划团队转 AI 工作流时的抵触。

背景：GPT-3.5 刚出来，我判断 AI 会彻底改变策划行业，决定推 GPTs + Dify。

困难：
· 团队抵触——老策划"AI 写不出我的味道，我干了十几年"
· 质量不稳定——初期 AI 输出时好时坏，一次失败让大家觉得"看吧不行"
· 工具断层——GPTs 刚出没有最佳实践，全靠摸索

怎么扛过来：
· 不硬推——不下命令，自己先用，用出可见成果。我用 AI 做了几个项目效率明显高，同事自然好奇。
· 先选愿意尝试的人——找 2-3 个对新技术开放的同事做早期种子用户，带他们踩坑。他们成功后其他人自然跟上。
· 承担失败成本——前几个 AI 项目出问题我全担，同事没有后顾之忧去尝试。

结果：半年后从抵触到主动找 AI 用；一年后整个流程基本 AI 化。

复盘：这件事让我想明白——组织变革不是靠技术先进性说服人，是靠"看得见的成功"说服人。这个认知影响了我后来所有 AI 推广的打法。

字节三面 3-190 秒

为什么从上一家公司离职？（为什么转行做 AI 产品？）

方向（互联网规模化）+ 节奏（持续迭代、数据反馈）——转型是升级不是改行。

展开完整答案

完整话术两层原因：方向和节奏。

方向：做 AI 越深越清楚——AI 真正战场在互联网产品，不在文旅乙方。森科思资源有限：项目制决定每案做完就结束，AI 能力没法在用户端持续迭代。我最想做的是把 AI 能力规模化触达真实用户，只有互联网产品公司能做到。

节奏：乙方是"接一个做一个"，每次从 0 开始，服务个体甲方；互联网产品是"一个产品面向千万用户持续迭代"——数据反馈快、迭代紧、能看到 AI 长期价值。我希望进入这种节奏。

不是"逃离策划行业"——12 年策划是我最宝贵的财富，训练了用户共情、内容敏感、跨文化视野。我是带着这些能力进入能让 AI 发挥更大价值的平台。

转型是升级，不是改行。

字节三面 3-290 秒

你的优缺点分别是什么？

优点具体有证据；缺点真实 + 给补齐方案——"不怕有缺点，怕的是不知道、不承认、不改进"。

展开完整答案

完整话术 优点两个：
· AI 实践的深度和完整性。2021 底 MJ V3 开始系统跟进，4 年时间。从 Prompt 到 RAG 到 Agent 到 MCP，每次技术迭代都实操过、在业务里用过。这种连续性实战经验不是短期能补的。
· 流程标准化能力。12 年策划训练了把复杂创意流程拆解成可复用标准的能力。放到 AI PM 就是能把"一次性 campaign"沉淀成"可复用产品能力"。

缺点两个，真实不做表演：
· 大规模 AB 测试和漏斗分析实操深度不够。策划行业接触百人级用户不是百万级。转 C 端产品后需要补齐精细化分析。应对：已在系统学方法论，计划三个月内在实际业务跑通 2-3 个完整 AB 实验实战积累。
· ToB / 商业化产品经验有限。做的是 B2B2C 或 B2C，纯 ToB SaaS 经验浅。未来涉及商业化要重点补。

原则：缺点不怕有，怕的是不知道、不承认、不改进。

字节三面 3-390 秒

你对未来 3-5 年的职业规划？

短期深耕应用层 PM → 中期做"AI × 垂直方向"专家 → 长期保持在 AI 最前沿。表达稳定性 + 长期主义。

展开完整答案

完整话术我的规划：深耕 AI 应用层 PM，3 年内独立负责 AI 产品线。

短期（1-2 年）：在一家真正把 AI 做成业务核心的公司，把 4 年 AI 实战经验规模化——从"给百人团队提效"变成"给百万用户提效"。补齐数据驱动、AB 测试、商业化思维。

中期（3-5 年）：成为"AI × 某垂直方向"的专家——最看好"AI × 跨文化社交"和"AI × 内容创作"两个方向，能把策展背景、跨文化经验、AI 能力全调动。希望做出有行业影响力的产品。

长期（5 年+）：不设死天花板。AI 这行 6 个月一个时代，10 年后什么样没人知道。我唯一确定的是——只要 AI 在前进，我就在前进的最前沿。

对公司的期待：希望找一家愿意和我长期走的公司。不是跳板，是共同成长的平台。