2026-04-18 · 面试准备

AI 产品经理面试问答集

HelloTalk 活动运营 PM(AI 向)× 字节跳动 AI PM 面经 · 候选人:刘思航(12 年策划 + 4 年 AI 实战)

候选人刘思航 · 35
AI 实战4 年
题库50+ 题
期望薪资40–60K

面试心态与节奏

开场前先校准:你是谁、节奏怎么控、遇到陌生问题怎么办。

核心原则 "策划人 + 资深 AI 实践者" vs "AI 向活动产品经理"。你不是 0 产品经验转型者,是把 AI 嵌入业务流程的一线操盘者。不自贬,不装。
时长节奏 每题 60–120 秒。关键数字必须清晰说出:15 天→4 天 / 12,000+ 对话 / 4 年 AI 实践
叙述方式 讲"流程→问题→动作→结果",不讲概念。遇到不懂的技术,诚实说"这个我没深入做过,但我的理解是……"。

HelloTalk 岗位深度解读

把 JD 和你的经验一一对上号。

JD 拆解

关键词 × 匹配点映射

JD 原文他们真正要的你的匹配证据
带领团队运用 AI 搭建活动工具、管线、模版会教团队用 AI、会搭工作流已搭 Claude Code + MCP + Skills 工作流,方案周期 15 天 → 4 天
高效生成视觉元素和玩法逻辑视觉资产 AI 化、玩法批量产出MJ 提示词工程 4 年;GPTs Store 产品 12,000+ 对话;Nanobanana / ComfyUI 熟练
跨板块全平台活动、跨文化节日主题平台视角做统筹策展人 6 年(跨文化艺术展统筹)+ 文旅总策划(跨业务板块落地)
把有价值活动沉淀为产品固定玩法产品化思维已把策划经验沉淀为 Skills / 模板系统,"经验产品化"实战案例
对数字敏感、理工科加分能跑数据、拆目标金融学 + 电子信息工程双学位;策划项目预算 / ROI 盘点 12 年
产品功课

HelloTalk 产品侧知识点

HelloTalk 是语言交换 + 跨文化社交;扭蛋玩法是"长期开放 + 养成系"结构。
展开 / 折叠
必提 1 · 扭蛋活动用户用 HT 币买扭蛋获得装扮,装扮 3 天有效期,5 件一套点亮后可分享。含累计进度奖励 + 图鉴收集双机制。
必提 2 · 产品底色HelloTalk 是语言交换 + 跨文化社交,用户天然跨语言、跨时区、跨文化。活动必须有"连接感"。
叙述提示面试中主动提扭蛋玩法——显示做过功课。
用户理解

HelloTalk 用户画像

三类用户(工具型 / 关系型 / 表达型)× 三痛点(靠谱语伴 / 破冰由头 / 不冒犯交流)。
展开 / 折叠
三类用户
  • 语言学习者(工具型):活动要有"学到东西"的感觉
  • 跨文化社交者(关系型):活动要能触发对话与连接
  • 语言输出爱好者(表达型):活动要能提供表达舞台
核心痛点
  • 找到靠谱、活跃、愿意长期交流的语伴
  • 主动搭话的由头(破冰门槛)
  • 在异国文化里不冒犯、能共情地交流

个人介绍(开场)

开场90–120 秒

自我介绍

策划人 + 4 年 AI 实践 + GPT Store 产品 + 内部 AI 工作流(15 天→4 天),想全面投入 AI。
展开完整话术
完整话术 您好,我叫刘思航,目前在深圳市森科思有限公司担任总策划师,主导文旅和展厅两大业务板块,过往的工作经历也一直以策划与设计为主线。停顿

让我区别于传统策划人的,是过去四年持续深入的 AI 实践。

2021 年底 Midjourney V3 刚发布,我就开始系统研究提示词工程。2022 年 GPT-3.5 和 MJ V4 推出后,我正式将 AI 引入日常工作流;GPT-4 时代,我把文档分析、大纲撰写、文案输出等核心策划环节迁移到了 GPTs 上,同时把自己沉淀的 Midjourney 提示词方法论整理成工具,上架到了 GPT Store停顿

之后我一直跟着技术前沿迭代——大模型应用层从 Dify、n8n 到 Skill、MCP,再到 Vibe Coding;图像生成从 Stable Diffusion、ComfyUI 工作流,到目前主力使用的 Nanobanana。每次新工具出现,我都会第一时间评估它能否真正解决业务问题。

去年深入 Vibe Coding 之后,我做了一件对公司意义比较大的事:把"策划到 PPT 输出"的完整链路统一到同一个平台上,形成团队可复用的标准化工作流,显著提升了交付效率。停顿

AI 现在既是我工作的主线,也是我最大的个人兴趣所在。所以我希望下一段职业生涯能完全投入到 AI 相关的方向里。
叙述要点
  • 开头一句话说清"我是谁"
  • "四年 AI 实践"要重音——护城河
  • GPT Store / 15 天→4 天数字清楚说
  • 结尾"下一段职业生涯完全投入 AI"——眼神接触

HelloTalk 必答 · 6 题

岗位核心筛选题。每题 60–120 秒版 + 20 秒 elevator 版。

必答 Q175 秒

你怎么理解 HelloTalk 这个岗位?

核心不是"做一个活动",而是持续提升活动生产效率 × 玩法创新 × 业务结果
展开完整答案
核心思路
  • 不是传统 AI PM,也不是单纯活动执行,是 AI 驱动的 C 端活动玩法产品
  • 两条线:AI 提效系统 × 平台视角统筹玩法
  • 把有效活动 沉淀为长期产品能力
完整话术 我理解这不是传统 AI PM 岗位,也不是单纯活动执行,它更像是一个"AI 驱动的 C 端活动玩法产品岗"。

一方面要把 AI 用在活动生产上,包括视觉素材、玩法模板、活动管线这些提效系统;另一方面要站在平台视角,把不同场景和板块联动起来,围绕节日、热点和跨文化主题做活动,把有效活动沉淀成长期可复用的产品能力

所以核心不是"做一个活动",而是持续提升活动生产效率、玩法创新能力和业务结果。这一点和我过去做的事情很像——把复杂的创意流程结构化、产品化,再推动落地
必答 Q2120 秒

你做过哪些 AI 生产管线?结果是什么?

不是装个 AI 工具,是把流程拆开、AI 替换关键环节、落成团队稳定用的系统——15 天 → 4 天
展开完整答案
完整话术 我做过一个最有代表性的案例,是把公司原来高度依赖人工经验的策划前期流程,做成了一套 AI 驱动的标准化工作流

原来的问题是,每接一个新项目,团队都要从零做功课——研究甲方背景、行业资料、场地信息、需求拆解、方案大纲、视觉预演,前期周期平均 15 天

我做的不是简单加个 AI 工具,而是先把业务流程拆开,找出最适合 AI 介入的环节,最后做成三个核心模块:文档分析(企业资料→结构化画像)、大纲生成(模糊需求→方案框架)、分步式内容输出(降低长文本生成质量衰减)。

最终周期从 15 天压缩到 4 天,不是 demo,是团队真实在用、在迭代、能稳定交付结果的系统。这件事让我积累了从流程设计、Agent 编排到落地验证的完整经验。
可能追问
  • 技术栈? → Claude Code + MCP + Skills,配 MJ / Nanobanana
  • 怎么保证质量? → 分步式生成 + 人工校验节点 + 模板约束
  • 团队配合? → 给同事配过 CLI + Skills,瓶颈是没有 Web 界面
必答 Q390 秒

怎么把一次活动沉淀成固定玩法?

主题可变、机制可复用——五层框架(入口 / 路径 / 激励 / 模板 / 指标)。
展开完整答案
完整话术 先区分一次活动里哪些是"主题",哪些是"机制"。

主题会变(节日、热点、文化内容),机制有效就可以复用。我会先复盘活动里真正有效的部分——用户为什么会进来、为什么会参与、为什么会留下来——然后把这些环节抽象成固定能力

具体拆成五层入口怎么触发,参与路径怎么设计,激励机制是什么,内容模板怎么复用,指标怎么判断有效。

五层稳定复用,就不是一次 campaign,而是一个玩法
加分动作 主动用扭蛋举例:"比如 HelloTalk 的扭蛋,入口是 HT 币门槛、路径是抽 1/5/10 次、激励是装扮 + 图鉴、模板是套装、指标是参与率和分享率。岗位要做的就是持续给它换新主题,同时探索新的'玩法原型'。"
必答 Q490 秒

你怎么判断一个活动值不值得做?

三把尺子:目标对齐 × ROI × 可沉淀性——缺一就要砍或换。
展开完整答案
完整话术 我用三把尺子来衡量。

第一是目标对齐——拉新、促活、留存还是变现?说不清目标的活动基本不值得做。
第二是 ROI——不只看钱,要算团队工时。成本 vs 产出不合格,就砍需求或换玩法。
第三是可沉淀性——做完能留下来什么?能沉淀成模板就值得做;纯一次性烧完就没,哪怕数据好也要慎重,长期在消耗团队产能

具体操盘上,我习惯小样本先验证再放量——先跑 MVP,数据立得住再全平台铺。
必答 Q590 秒

你没有内容社区背景,为什么还适合?

承认短板 + 策划本质就是"用户参与感设计" + GPTs 12K+ 实战——三个月能补齐
展开完整答案
完整话术 说老实话,我没在纯粹内容社区做过 PM,这确实是我的短板,我不回避。

但三点能补齐:
第一,策划的本质就是用户参与感设计。12 年策展 / 文旅,我日常解决的是"怎么让用户进来、停留、分享"——和社区运营相通,只不过我的"场"是线下空间。
第二,我有 C 端产品实战。GPT Store 上架 MidJourney 提示词工具,12,000+ 对话,4.4 评分,100+ 条评价,类目榜首。走过一遍完整的 PM 闭环。
第三,转型方向非常聚焦。半年 JD 调研 + 产品体验,HelloTalk 扭蛋也研究过。岗位最核心的"AI 嵌入业务流程"能力我已经具备,内容社区 know-how 三个月内能补齐
必答 Q6120 秒

如果做一个跨文化节日活动,怎么设计?

节日不能贴皮,要成为"两种文化用户连接的理由"——双人机制 + AI 管线 + 双向转化率为核心指标。
展开完整答案
完整话术 原则:节日活动不能是"给产品贴个节日皮肤"。HelloTalk 核心是语言交换 + 跨文化社交,节日必须成为"两种文化用户产生连接的理由"。

举例春节主题——"跨文化新年祝福"玩法:
入口:母语推送"你的中国语伴今天在过春节,要不要学一句祝福送给他?"
路径:AI 生成拼音指导 + 语音示范,用户录音发给语伴;对方可回赠一句外语祝福
激励:双方得"跨文化祝福卡"(AI 生成两国节日元素融合海报),收藏进跨文化图鉴(复用扭蛋图鉴机制)。
分享:图鉴满自动生成 UGC 内容卡片。

AI 加持:Nanobanana / MJ 生成视觉;AI TTS 生成地方口音语音;大模型生成多语言祝福模板。

指标:参与率、双向转化率(核心,证明"连接"真的发生)、分享率。双向转化率立得住 → 复用到圣诞、开斋节、排灯节,做成 HelloTalk 的"跨文化节日标准玩法"。

HelloTalk 深度追问 · 6 题

JD 强相关 / 面试常考,每题 60–90 秒。

深度 Q790 秒

从 0 搭一套视觉资产 AI 管线,怎么做?

三层架构:输入层(规则)→ 生成层(工具矩阵)→ 交付层(资产包 + 设计师协作)
展开完整答案
完整话术 视觉资产 AI 管线不是"装个 MJ 就完事"。要解决三个问题:风格一致性、批量产能、可交付性。

输入层:建立品牌视觉参考库(主色、字体、IP 风格、禁用元素),沉淀为统一 style reference 提示词模板。谁来生成风格都一致。
生成层:按活动类型用不同工具。主视觉海报用 MJ / Nanobanana,批量素材用 ComfyUI 工作流,UI 元素用 GPT-4o / Recraft,品牌 IP 用 LoRA 微调。工具各司其职
交付层:AI 生成只是原料。接设计师审核(放大效率而非替代)+ 尺寸适配 + 命名规范 + 资产归档。输出不是一堆图,是可直接用的资产包

这个架构我在森科思跑通过,替换规则层就能迁移到 HelloTalk
深度 Q875 秒

怎么带团队用 AI?同事不懂技术怎么办?

不是教工具,是让工具迁就人——提示词模板 → Skills 封装 → 内部平台。
展开完整答案
完整话术 核心理念:不能指望每个人都懂技术,要让工具主动迁就人

我在森科思走过这条路。一开始让同事直接用 Claude,学习曲线差异很大——有的快速上手,有的两周还在问基础问题。统一门槛不现实,必须分层。

三个梯度
提示词模板——高频场景做成可复制粘贴的包,照着填空就能用
Skills 封装——复杂工作流打包成一键调用,"分析这份甲方资料"就是一个命令。
内部平台——给完全不懂技术的同事做 Web 界面,像用 SaaS 一样用 AI(Vibe Coding)。

在 HelloTalk 会先判断团队能力画像,分层推进,不一刀切。
深度 Q975 秒

讲一个你做失败的事 / 最大的坑

AI 不是替代思考,是辅助思考——失败直接推动了整套分步式工作流的诞生。
展开完整答案
完整话术 去年初,我第一次尝试让 AI 完全接管方案撰写。当时觉得 GPT-4 够强,直接把甲方需求丢给模型从头到尾生成。结果看起来很专业,但全是空话——结构对、辞藻漂亮,但没理解甲方业务。那次方案被总监直接打回。

学到三个东西:
AI 不是替代思考,是辅助思考。自己没想清楚,丢给 AI 只会得到更精致的"错误答案"
长链路任务必须分步。后来拆成 5-7 个短任务,每步有人工校验节点,质量才稳定。
用 AI 前先做好"人的部分"。先手写极简版大纲,再让 AI 展开。顺序不能反

这件事直接推动了我整套分步式工作流的设计。那次失败是整个方法论的起点
深度 Q1090 秒

怎么设计一个活动的指标体系?

北极星 × 过程 × 防御,三层指标——"防御指标"是加分点。
展开完整答案
完整话术 三层结构

北极星指标——活动最核心要拉动什么?新增、活跃、留存、付费?一个活动只能有一个北极星
过程指标——漏斗:入口曝光率 → 点击率 → 活动页 → 完成参与 → 分享率。告诉我用户在哪一步流失
防御指标——活动不能损害其他关键指标。高激励活动可能拉高参与率,但让次日留存下降DAU 被稀释

具体例子——跨文化祝福活动:北极星 = 双向交换完成 UV;过程 = 入口点击率 → 录音完成率 → 对方回应率 → 图鉴分享率;防御 = 次日留存不下降、非参与用户 DAU 不受影响。既看到效果,也守住健康度
深度 Q1190 秒

全年活动日历怎么规划?

战略 × 节奏 × 资源三轴——留 20-30% 机动给突发热点。
展开完整答案
完整话术 三轴规划

战略轴——明确主战略目标。战略决定取舍标准。没战略,日历就是日程表。
节奏轴——四个季度:Q1 春节 + 情人节;Q2 母亲节 + 毕业季;Q3 暑期 + 独立日;Q4 圣诞 + 跨年。每季分大 / 中 / 小三档。
资源轴——对齐团队产能,留 20-30% 机动给突发热点。日历排太满,就做不了热点了

HelloTalk 具体:全球主要节日扫一遍,按"跨文化连接度 × 用户覆盖度"打分,选 Top 12——不是中国视角也不是欧美视角,是"HelloTalk 用户语对"视角
深度 Q1275 秒

怎么看 Duolingo 的活动体系?

Duolingo 是单机游戏化,HelloTalk 应该做双人养成——护城河方向。
展开完整答案
完整话术 Duolingo 最好的是游戏化——连胜、联赛、皮肤养成、每日任务,把枯燥行为变得有黏性。这是它的护城河。

但 Duolingo 模式不能直接复制:Duolingo 是单机学习,游戏化是解决"一个人怎么坚持";HelloTalk 是社交交换,核心是"两个人怎么发生连接"。

HelloTalk 应该借鉴 Duolingo 的养成感 + 进度感,但机制要双人 / 多人化。比如扭蛋加"和好友集齐同一套装",连胜改"和语伴一起打卡",让每个游戏化机制自带社交触点

不做单机养成,做双人养成——这是 HelloTalk 的护城河方向。

HelloTalk 补充题 · 8 题

不一定会问,但问到要答得上来。

补充

你了解 HelloTalk 这个产品吗?

全球语言交换社区 · 体验过扭蛋 · 产品在从工具 → 社区演进。
展开
HelloTalk 是全球语言交换社区,核心是让母语者互相学习。我体验了最近的扭蛋活动——HT 币抽扭蛋、5 件一套点亮、图鉴收集机制,"长期开放 + 养成系"。产品也在尝试 Moments 内容社区、AI 陪练等方向,路径从语言工具 → 跨文化社区演进。
补充

为什么选择 HelloTalk?

岗位 AI 向精准匹配 × 跨文化属性呼应经验 × 规模合理。
展开
三个原因。第一,"AI 向"活动玩法岗和我四年实战路径精准匹配——不是来学 AI,是把 AI 落地业务。第二,HelloTalk 的跨文化属性和我的跨文化策展经验呼应。第三,深圳本地、B 轮、规模合理,既有发挥空间又不至于体系太沉重
补充

最大优势 / 最大短板?

优势:AI 完整实战 + 流程标准化;短板:AB 测试深度——三个月能补齐
展开
优势:AI 实践的完整性——从提示词到 Agent 编排到 Vibe Coding,一线操盘。把复杂流程标准化的能力,12 年策划训练出来的。

短板:纯互联网产品的数据驱动经验比策划行业少,尤其是大规模 AB 测试 / 漏斗分析的实操深度。三个月内能补齐。
补充

三年规划?

1 年证明 → 2 年带团队扩大 → 3 年成 AI × 增长方向负责人。
展开
第 1 年:理解 HelloTalk 用户和活动体系,把 AI 视觉管线 + 玩法模板搭起来,拿出 2–3 个跨文化活动标杆案例
第 2 年:带团队扩大 AI 驱动节奏,从人工 → AI 辅助 + 数据驱动
第 3 年:从"活动 PM"成长为"AI × 用户增长"方向负责人
补充

期望薪资?

40–60K 月薪——说完停住,不心虚,不加"可能""大概"。
展开
我了解过深圳市场区间,结合 AI 实践深度和业务量级,期望 40–60K 月薪,最终看整体 package(股票、奖金、职级)。具体可以谈。
补充

为什么从森科思离开?

只讲"想去哪"(互联网 / 规模化 / 快反馈),不讲"为什么走"。
展开
两层原因。方向:做 AI 越深越意识到战场在互联网产品,不在文旅乙方。森科思是项目制天花板,想去规模化触达用户的地方。节奏:希望进入能持续迭代、快速看到数据反馈的环境。
补充

AI 工具突然不可用怎么办?

不把交付押在单一工具——备用链路 + 人工校验兜底。
展开
AI 工具不确定性是常态,不是例外。不把活动押在单一工具——备用链路:MJ 不行切 Nanobanana,GPT 不行切 Claude,本地 ComfyUI 兜底。人工校验:AI 生成必须过 QA 再上线,不追求 100% 自动化。
补充

怎么保持玩法创新 / 灵感从哪来?

三输入源:横向竞品 + 纵向游戏行业 + 用户反馈
展开
横向:每周扫全球头部内容 / 社交产品(IG、TikTok、小红书、Discord、Reddit)。纵向:游戏行业——机制创新领先产品圈 3-5 年。用户侧:看反馈、评论、差评——用户骂什么就是下一个玩法机会。玩法不是拍出来的,是扫描出来的

HelloTalk 反问环节

面试官问"还有什么想问我的"——必须准备 3–5 个。沉默 = 不感兴趣。

反问 1

团队结构 · 业务边界

团队组成?配合角色?汇报关系?
展开
这个岗位目前团队是怎么组成的?活动 PM 主要和哪些角色配合——更偏产品线协作还是偏设计技术侧?汇报关系是直接向产品总监汇报吗?
反问 2

当前痛点 · 期望突破

活动体系最大卡点?希望 3-6 个月先推进什么?
展开
HelloTalk 目前活动体系最大的卡点是什么?产能不足玩法创新乏力、还是AI 工具化落地?新 PM 进来希望 3–6 个月先推进哪些事?
反问 3

AI 工具链现状

单点工具 / 内部平台 / 成熟管线?团队对 MCP · Agent 接受度?
展开
公司目前的 AI 工具链大概在什么阶段?是单点工具内部平台,还是已有成熟管线?团队对 MCP / Agent 编排这类新范式的接受度如何?
反问 4

岗位成功标准

一年后做得好的标志是什么?
展开
如果一年后我在这个岗位上做得很好,您心目中会是什么样的标志性结果?是具体的指标数字,还是某类能力的沉淀?
反问 5

下一步流程(最后问)

流程 + 反馈时间 · 表达意向推进流程。
展开
感谢您今天的时间,我对这个机会挺感兴趣的。想问接下来的流程安排是怎样的?大概什么时候会有反馈?

字节跳动 AI 产品经理面经 · 完整问答

字节 AI PM 全流程(1h45min · 一面 45-60min 基础 · 二面 60min 深度 · 三面 45min 综合)。26 题全配自适配答案。

📁 一面 · 基础能力摸底 9 题 · 45-60min

字节 一面 1-175 秒

评价最喜欢的 AI 产品(豆包 / ChatGPT / Cursor)及优缺点

对比思维——不只夸一个,指出各自定位;别堆术语,说具体使用体感。
展开完整答案
完整话术 我日常用得最多的是 Claude,主要场景是业务工作流——文档分析、方案结构化、Agent 编排。

Claude 的优势两点:长上下文处理稳定,我经常把几十万字甲方资料直接丢进去;Claude Code + MCP 生态成熟,能真正把 AI 嵌入日常工作流,不是停留在"聊天机器人"。缺点也明显:国内访问不友好、响应速度比豆包慢、中文文案略逊 GPT-4o。

对比看:ChatGPT 生态最全、GPTs Store 成熟,但迭代节奏放缓;豆包中文理解和抖音 / 头条生态整合最强,适合 C 端轻度用户;Cursor 是"AI 深度嵌入单一场景"的标杆——这种深度嵌入业务的思路,正是我理解 AI 产品的关键方向。
破题要点对比思维 + 技术平实化 + 连接到自己的实操经验
字节 一面 1-275 秒

大模型发展趋势?Decoder only 为何成主流?

坦诚不堆术语——说核心逻辑(生成效率高 + 拟合任意文本分布)。
展开完整答案
完整话术 坦诚说,我不是做底层的,理解更多从产品应用层来。

趋势三个方向:上下文窗口从 4K 到百万 token;多模态融合(文字 / 图像 / 语音 / 视频走向统一);从被动对话到主动 Agent(能调工具、执行任务)。

Decoder only 为何成主流——Encoder-Decoder 适合翻译这种"输入-输出"边界清晰的任务;但 LLM 要做的是拟合任意文本分布,Decoder only 结构简洁、生成效率高、scaling 更容易。Transformer + 自回归 + 足够数据和算力,就能覆盖大部分生成任务。

所以不是"技术最优",而是"在追求规模化生成时,最简洁有效"。
字节 一面 1-390 秒

对标某款 AI 产品做竞品分析,方法论是什么?

四层框架:定位 → 功能 → 数据 → 体验——强调亲自走流程。
展开完整答案
完整话术 我有一套四层框架

定位层——先搞清对标产品解决什么问题、服务什么人群。很多分析一上来对比 feature,错了,用户不一样功能对比无意义。
功能层——对齐核心功能的广度和深度。广度是覆盖多少场景,深度是每个场景做到什么程度。
数据层——能查就查:下载量、DAU、用户评价、评分分布。重点看差评,差评里藏着真实痛点
体验层——亲自用,走 3-5 个典型场景完整流程。很多优缺点只有真正用过才能发现。

四层拼起来,得出的不是"feature 对比表",是"战略差异 + 落地能力差异"的判断。
字节 一面 2-1120 秒

介绍最有成就感的 AI 项目,你的角色?

STAR 完整 + 量化结果(15 天→4 天)+ owner 角色 + 具体动作。
展开完整答案
完整话术 最有成就感是把公司的策划前期工作流 AI 化

背景:每接一个文旅项目,团队从 0 做功课——甲方研究、行业调研、需求拆解、方案大纲,要 15 天
角色:从 0 规划到落地的完整 owner——流程拆解、AI 介入点识别、Agent 架构设计、Skills 封装、团队推广。
具体动作
1. 流程拆解:把 15 天拆成 7 个关键节点,每个评估"是否适合 AI 介入 / 人工校验点"。
2. 架构搭建:基于 Claude Code + MCP + Skills 搭一套可复用工作流,每个 Skill 对应一个高频场景。
3. 团队推广:先跑通 3 个完整项目,做内训,配 CLI 和模板。
结果:周期从 15 天压缩到 4 天,团队真实在用、在迭代、能稳定交付。
字节 一面 2-290 秒

如何评估 AIGC 质量?核心指标?

两层指标:通识类(BLEU、ROUGE、准确性)+ 体验类(回复时长、打断率、留存)+ Bad Case 库。
展开完整答案
完整话术 两层指标

通识性指标(可量化、可批量评测):
· 文本:BLEU、ROUGE、perplexity
· 图像:FID、CLIP Score、人工主观评分
· 代码:pass@k、编译通过率

产品体验指标(用户真实感受):
· 对话类:回复时长、用户打断率、多轮留存、主动退出率
· 生成类:用户修改率、二次生成率、最终采纳率
· 创作类:满意度、分享率、复用率

通识指标说"模型行不行",体验指标说"用户真的愿意用吗"。两者必须结合,不然会出现"BLEU 高但用户不用"。

最后一定要有 Bad Case 库——真实投诉沉淀成回归测试集,每次迭代都跑。
字节 一面 2-390 秒

要提升一款 AI 产品的 DAU,从哪些维度入手?

三维度:新增 × 留存 × 回流 + 漏斗思维 + MVP 验证。
展开完整答案
完整话术 三维度

新增
· 渠道端——ROI 高的渠道加码投放
· 产品端——Onboarding 流畅度,3 分钟内给到 aha moment
· 内容端——设计天然可分享的输出物(AI 产品靠用户晒成品拉新)

留存
· 习惯养成——高频使用场景
· 能力成长——个性化记忆,越用越懂
· 社交绑定——多人协作 / 分享 / 社区化

回流
· 沉默召回——推送 / 邮件 / Push 时机内容
· 新功能刺激——重大迭代定向唤醒

具体操盘:先拉漏斗看哪一步流失最严重,资源集中优化那个节点,MVP 验证立得住再放量。
字节 一面 3-190 秒

Prompt / RAG / SFT 的区别和联系?

从轻到重递进:Prompt(灵活零成本)→ RAG(外挂知识库)→ SFT(改造模型)。
展开完整答案
完整话术 大白话说:

Prompt 是最轻——不动模型,只在输入端"教模型怎么做"。优点:灵活、零成本、迭代快。缺点:受上下文长度限制,知识不持久。

RAG(检索增强生成)是"外挂知识库"——送给模型前先从外部库检索相关资料,塞进 Prompt。优点:解决"不知道最新 / 私有数据"问题,知识更新无需重训。缺点:检索质量决定上限

SFT(监督微调)是"重训模型"——用高质量标注数据改造模型本身。优点:能力焊死、效果稳定。缺点:成本高、迭代慢、数据质量要求极高。

关系从轻到重递进——先试 Prompt,不够上 RAG,再不行才 SFT。实际项目常组合:SFT 训领域基座 + RAG 补实时知识 + Prompt 做场景适配。
字节 一面 3-290 秒

大模型"幻觉"怎么处理?

技术层 + 产品层双管齐下——幻觉是特性不是 bug,要让用户能识别和纠正。
展开完整答案
完整话术 幻觉是 LLM 固有问题,不是 bug 是特性技术 + 产品双层处理:

技术层
· 引入 RAG,让模型"有据可查"
· Prompt 明确约束——"只回答文档中有的内容,没有就说不知道"
· 关键事实做二次校验(另一个模型或规则检查引用真实性)
· 降低 temperature、用更确定的参数

产品层
· UI 显性标注不确定性——"此内容由 AI 生成,请核实"
· 用户反馈通道——每个输出可点赞/踩,积累 Bad Case
· 高风险场景(医疗、法律、金融)强制人工审核,AI 只做初稿
· 让用户能追溯来源——引用给出具体出处

底层原则:技术只降低幻觉概率,产品决定用户能否接受幻觉的存在。不要追求 0 幻觉,要让用户知道哪里可能有问题、怎么快速识别
字节 一面 3-375 秒

了解最近新的 AI 技术或算法吗(GRPO / MCP)?

MCP 我日常在用不只是了解;关注技术是为了判断"哪些会改变产品形态"。
展开完整答案
完整话术 我不是做底层的专家,但会跟进能改变产品形态的新技术。说两个我实操过的:

MCP(Model Context Protocol)——我不只了解,日常在用。核心价值是给大模型提供统一"工具调用协议",让 LLM 连本地文件、数据库、外部 API。我在森科思的工作流就是基于 Claude Code + MCP——这让 AI 不再是"聊天框",是能真正执行任务的 Agent

GRPO 这类新训练范式——从 RLHF 到 DPO 到 GRPO,核心在降低对齐成本、提升推理能力。对 PM 的意义:未来推理模型会越来越便宜、越来越普及,很多"要博士做"的复杂逻辑会下沉到产品层。所以设计时要提前想:模型推理足够强时,哪些产品会被重构?

关注不是为了秀术语,是判断"哪些技术会改变产品形态"——这是 AI PM 的核心敏感度。

📈 二面 · 深度场景与迁移能力 8 题 · 60min

字节 二面 1-1120 秒

为抖音 / 电商设计 AI 导购助手,怎么规划?

全链路闭环:需求确认 → 技术选型 → Bad Case → 效果评估,承认情感决策边界
展开完整答案
完整话术全链路规划,从需求到评估闭环。

需求确认:本质目标是什么?GMV?退货率?客单价?停留时长?目标决定设计——追 GMV 和追留存产品形态完全不一样。

技术选型
· 通用对话层用大模型底座
· 商品知识用 RAG——商品信息实时变动,不能 SFT
· 用户画像 + 历史行为走推荐系统跟 LLM 打通
· 高情感决策商品(婚纱、奢侈品)留人工接入点

Bad Case 处理:上线前建立 Bad Case 库——"用户问 A 推 B"、"过度营销"、"商品信息错误"——持续 fine-tune Prompt。

效果评估:业务指标(GMV、转化率)+ 体验指标(对话满意度、放弃率、主动提问率)。

核心难点
· 平衡"推销感 vs 服务感"——节奏和语气是关键
· 商品知识时效性——百万 SKU 每天变动,RAG 检索质量决定一切
· 情感决策边界——承认 AI 局限,高决策成本商品必须人工介入
字节 二面 1-290 秒

设计 AI 自动生成 SQL / 代码的工具?核心优势和边界?

优势明确 + 边界感强(适合 / 慎用 / 禁用)+ 人在环 + 可解释。
展开完整答案
完整话术 虽不是开发出身,但 Vibe Coding 实操过,从产品视角聊:

核心优势:降低技术门槛(非技术岗查数据);提效(工程师让 AI 写样板代码);快速 POC(自然语言 demo 验证思路)。

技术选型
· 固定 Schema 的 SQL——RAG + Schema 注入 + few-shot 覆盖 80%
· 复杂业务逻辑——SFT 在公司代码库领域微调
· 配代码执行沙箱——AI 生成后隔离环境跑一遍,语法错自动 retry

应用边界
· 适合:查询类、报表类、样板代码、单文件小功能
· 慎用:复杂业务逻辑、跨服务协作、高性能要求
· 禁用:生产库写操作、安全敏感代码、核心算法

关键设计AI 生成 + 人工审核 + 可撤销三件套;让用户看得懂结果(注释 + 解释);错误可解释。
字节 二面 1-390 秒

教育 / 客服场景如何让大模型文本丰富不单调?

三层:Prompt 策略 + 采样参数 + 内容层(素材库 + 上下文记忆)。
展开完整答案
完整话术 这是典型的生成质量控制问题。三层解决:

Prompt 策略
· 多样性引导词——"用不同句式、比喻、切入角度"
· 角色多元化——区分温暖型、专业型、简洁型,按用户画像匹配
· 避免模板化——禁止固定开头("好的,我理解你的问题……")

采样参数:适度调高 temperature 和 top_p(但不能过高);用 frequency_penalty / presence_penalty 惩罚重复词。

内容层
· 建立话术素材库——高质量回答沉淀为"句型卡 + 案例卡 + 类比卡"随机组合
· 上下文记忆——记住用户本轮用过的比喻和用词,下一轮避免重复
· 人设一致性 × 风格多样性——用户要的是"同一个客服每次有新鲜感",不是"每次换个人",基础人设稳定,细节表达多样

教育场景额外加难度自适应——按学生年龄 / 能力动态调整表达。
字节 二面 2-190 秒

模型评测集效果不达预期,你怎么优化?

分层归因:数据 → 策略 → 模型 → 基建。80% 根因在数据 / Prompt,别跳过直接怪模型。
展开完整答案
完整话术分层归因思路排查,不能一上来怪模型。

数据层:评测集本身有问题吗?标注标准一致吗?脏数据?评测集和线上真实分布差距大不大?样本量够不够?

策略层:Prompt 有优化空间吗?加 few-shot 能提升吗?CoT 能让模型推理更准吗?Prompt 做过 A/B 对比吗?

模型层:当前模型 capacity 够吗?要不要换更强底座?预算允许考虑 SFT;用 RAG 补缺失知识。

基建层:token 被截断?上下文窗口不够?采样参数不合理?线上和评测环境一致吗?

关键心态不要跳过数据层直接怪模型。我的经验,80% 的"模型效果差"根因在数据或 Prompt。动模型本身是最后的手段。
字节 二面 2-290 秒

从规则引擎切换到大模型,核心挑战是什么?

四挑战:确定性认知 / 评测重建 / 兜底机制 / 成本结构——迁移要分层并行
展开完整答案
完整话术 我在森科思有部分规则引擎式策划流程迁移到 AI 驱动的经验,踩过坑。四个挑战

确定性 vs 概率性的认知转换——规则引擎 100% 可预测,AI 是概率输出。相关方的心理预期必须同步调整,这是最难的一步,不是技术问题是认知问题。

评测体系重建——规则是对错二元;AI 是"大部分对、偶尔错、偶尔惊喜"。需要新指标:准确率阈值、容错率、用户满意度、Bad Case 覆盖率。

回滚和兜底机制——AI 坏了怎么办?设计降级方案:AI 不可用时切回规则引擎、模板填充兜底。

成本结构变化——规则一次开发几乎零成本;AI 每次调用都花钱。提前评估 token 成本,设计 cache 策略。

迁移思路:不是一把切换,分层并行——核心路径保留规则兜底,边缘场景先上 AI,成熟了再替换。
字节 二面 2-390 秒

技术团队觉得需求成本太高,怎么说服他们?

三步:先听(具体贵在哪)→ 拆需求(MVP / P1 / P2)→ 摆 ROI。研发不是敌人是合作伙伴。
展开完整答案
完整话术 不硬推——研发说贵大概率有他们看到的问题。三步

先听——让研发具体说贵在哪。算力成本?开发工时?架构改动?不同的"贵"解决思路完全不同。

拆需求——研发觉得贵通常因"一次想做太多"。拆成 MVP 核心 + P1 增强 + P2 扩展。MVP 必须小到研发觉得"好吧这个能干"。

摆 ROI——用数据说话:
· "预计提升 XX 指标 N%,半年回收成本"
· "竞品已经在做,不做半年后会落后"
· "现在做 MVP 成本 X,业务复杂了再做成本 3X"

如果说服不了——反思:我的成本预估错了?业务价值没想清楚?PM 为自己的需求负责到底,不是硬推到研发头上

原则:研发不是敌人,是合作伙伴。说服最好的方式是"带他们一起想怎么做成",不是"想办法压他们干"。
字节 二面 3-190 秒

内部工具(抖音)vs 外部商业化(火山)在设计上的核心差异?

一句话:内部重效率,外部重易用——五维度(UI / 文档 / 权限 / SLA / 变更)+ 商业逻辑差异。
展开完整答案
完整话术 一句话:内部重效率,外部重易用

用户画像不同
· 内部——同事懂业务、能接受丑
· 外部——付费客户、体验挑剔、对文档支持有强预期

五维度差异
· UI 容忍度:内部可"丑"但要"准";外部必须美观、交互符合主流 SaaS 惯例
· 文档:内部可口头传承;外部必须完整文档 + 视频 + API reference + 最佳实践
· 权限:内部粗粒度(部门级);外部细粒度(用户 / 角色 / 项目 / 资源级)
· SLA:内部挂了道歉;外部挂了赔钱,多 9 保障 + 监控 + 降级
· 变更:内部可快速迭代;外部版本管理 + 向后兼容 + 迁移指南

商业逻辑:内部是成本中心(指标:内部效率);外部是利润中心(指标:ARR、续约率、NPS)。
字节 二面 3-290 秒

如何平衡商业化变现和用户体验?

"价值对齐"——只在用户感受到价值的节点推变现,绝不反向收费。
展开完整答案
完整话术 两者不对立,核心在"在正确的节点做正确的变现"

我的原则是"价值对齐"——只在用户已经感受到价值的节点推变现,绝不在他体验到爽点前就收钱。

分层
· 基础功能免费——拉留存建用户基础
· 增强付费——长上下文、更快响应、专属模型
· 企业化——团队协作、权限管理、SLA

时机:不在 Onboarding 弹付费,等用户至少 3-5 次 aha moment 后温和提示"经常用升级会更顺"。

价值感知:差异要能感知——"免费用 10 次,升级无限用 + 快 2 倍 + 独享 XX 功能"。

底线:绝不反向收费——限制导出自己数据、锁死关键功能。短期有收入长期毁口碑。

信念好的商业化是"用户愿意付",不是"被迫付"。ChatGPT Plus、Claude Pro 高续订率,是因为用户觉得"值"。

🧠 三面 · 综合素质与软技能 9 题 · 45min

字节 三面 1-1120 秒

如何评价豆包?最想改进的三个点?

三点具体优化:场景纵深 / 记忆个性化 / 创作者链路——底层判断是"通用能力被拉平,差异化在嵌入深度"。
展开完整答案
完整话术 豆包优势明显——中国用户洞察(中文自然、本地内容敏感、多端覆盖)。作为产品我想改进三点:

场景纵深不够——豆包更像"通用助手",缺场景化深度产品。Cursor 之于编程、Figma AI 之于设计,证明了"深度嵌入单一场景"比"通用聊天"更有粘性。我会推动豆包在 2-3 个高价值场景做"嵌入级"集成——跟抖音电商、剪映深度打通。

记忆和个性化——豆包目前偏"即时性"。希望像 Claude Memory 一样主动积累偏好、历史、长期目标。个性化体验比功能强大更有感知

创作者深度工具——文案、图像、视频生成都有覆盖但深度不够。我会在创作者链路做纵深——从灵感到草稿到成品到发布,AI 变成创作流"中枢",不是单点工具。

底层思路:通用模型能力会被拉平,产品差异化在场景嵌入深度和个性化
字节 三面 1-290 秒

字节在 AI 赛道最大的优势和短板?

优势:场景流量 / 推荐算法基因 / 组织敏捷;短板:大模型原创 / ToB 服务
展开完整答案
完整话术 优势三个
· 场景和流量——抖音、TikTok、头条、飞书是超级场景,任何 AI 能力都能找到真实用户验证。这是 OpenAI、Anthropic 羡慕不来的。
· 推荐算法基因——十几年积累,本质也是大模型一分支。算法工程和数据闭环能力让大模型产品快速找 PMF。
· 组织敏捷——OKR + 赛马机制适合 AI 快速试错。

短板两个
· 大模型底层原创能力——相比 OpenAI、Anthropic 的基座原创,字节更多"快速追赶"。长期决定天花板。
· ToB 服务经验——C 端基因,但 AI 商业化大块在 ToB(火山)。ToB 要服务、稳定、文档、SLA,和 C 端快速迭代文化冲突。组织转型是观察点。

判断:字节打法是"场景驱动 + 快速迭代"短期强;要成为 OpenAI 那样的 AI 原生公司,需要补"技术原创文化"
字节 三面 1-390 秒

为什么大模型公司都在推 Agent?你看好哪个方向?

Agent = 从"对话"到"执行"。看好Coding / Knowledge Work / Personal,不看好通用聊天 Agent。
展开完整答案
完整话术 底层原因:大模型价值从对话演进到执行。对话时代 LLM "你问我答";Agent 时代 LLM "你交给我任务,我自己做完"。这意味着 AI 直接产生业务价值,不只是辅助价值——对商业化和付费意愿是数量级提升。

我最看好三个方向
· Coding Agent——Cursor、Devin 已证明。代码领域任务结构化、反馈闭环、可验证,最先成熟。
· Knowledge Work Agent——面向知识工作者(法律、咨询、财务、策划)的垂直 Agent。任务流程长、专业性强,能替代中低端重复劳动。我在森科思做的策划工作流就是这个方向的实践
· Personal Agent——个人日常事务助手(日程、邮件、预订)。技术难度大(工具调用 + 隐私),市场潜力最大。

不看好通用聊天 Agent——没有 stable 价值锚点,用完即散。

关键判断:Agent 跑出来的前提是"垂直深度 + 可验证闭环 + 确定性收益"
字节 三面 2-190 秒

标注团队数据质量不稳定但他们不认可你的标准,怎么沟通?

"对事不对人"——先看 Bad Case 对齐,不谈对错;溯源业务价值;共建机制。
展开完整答案
完整话术 原则是对事不对人,先对齐数据再对齐人。三步

不谈对错先看 Bad Case——挑 20-30 个有争议的样本一起过,让双方看到具体哪些判断不一致。抽象吵"标准对不对"没结果,看具体例子才能收敛。

溯源需求——解释为什么这么定标准。是下游模型评测不好看?还是线上用户投诉集中某类问题?让标注团队理解他们对齐的是业务价值,不是我的个人偏好

共建机制
· 标注员申诉渠道——不同意可反馈,定期 review
· 双人交叉标注——关键样本多人标,分歧高的单独讨论
· 版本化标准文档——有迭代有记录

心态:不以"需求方"压标注团队,他们是合作者不是执行者;我的标准也可能错,他们说服了我我愿意改。最终目标是数据质量高,不是我标准赢
字节 三面 2-290 秒

面对多个业务方需求(内部急迫 vs 外部商业化),怎么排优先级?

二维矩阵(价值 × 紧急度)+ ROI,冲突时向上同步要决策。
展开完整答案
完整话术二维矩阵 + ROI决策。

价值维度:业务价值(收入、留存、品牌)+ 战略价值(是否在公司 3 年方向上)。
紧急度:真紧急(有 deadline 错过就崩)vs 看似紧急(业务方推得紧但可延后)。

矩阵处置
· 重要且紧急——立刻做
· 重要但不紧急——排期做
· 不重要但紧急——授权或砍掉(很多"紧急"是对方时间压力)
· 不重要不紧急——backlog

内部 vs 外部的特殊处理
· 内部紧急需求——快速给 MVP(80% 功能快速上线)
· 外部商业化——不能打折扣,付了钱质量不达标就违约
· 默认排序:外部商业化长周期为主线,内部用 20% 机动资源响应

真冲突时向上同步——不是甩锅,是让 leader 看到优先级冲突从全局拍板。
字节 三面 2-3120 秒

过往经历遇到的最大困难?怎么扛过来的?

2023 推动团队转 AI 的抵触——自己先跑成果 + 种子用户 + 承担失败成本
核心认知:组织变革靠"看得见的成功"说服人
展开完整答案
完整话术 讲一个真实的——2023 年我在多巴安推动策划团队转 AI 工作流时的抵触

背景:GPT-3.5 刚出来,我判断 AI 会彻底改变策划行业,决定推 GPTs + Dify。

困难
· 团队抵触——老策划"AI 写不出我的味道,我干了十几年"
· 质量不稳定——初期 AI 输出时好时坏,一次失败让大家觉得"看吧不行"
· 工具断层——GPTs 刚出没有最佳实践,全靠摸索

怎么扛过来
· 不硬推——不下命令,自己先用,用出可见成果。我用 AI 做了几个项目效率明显高,同事自然好奇。
· 先选愿意尝试的人——找 2-3 个对新技术开放的同事做早期种子用户,带他们踩坑。他们成功后其他人自然跟上。
· 承担失败成本——前几个 AI 项目出问题我全担,同事没有后顾之忧去尝试。

结果:半年后从抵触到主动找 AI 用;一年后整个流程基本 AI 化。

复盘:这件事让我想明白——组织变革不是靠技术先进性说服人,是靠"看得见的成功"说服人。这个认知影响了我后来所有 AI 推广的打法。
字节 三面 3-190 秒

为什么从上一家公司离职?(为什么转行做 AI 产品?)

方向(互联网规模化)+ 节奏(持续迭代、数据反馈)——转型是升级不是改行
展开完整答案
完整话术 两层原因:方向节奏

方向:做 AI 越深越清楚——AI 真正战场在互联网产品,不在文旅乙方。森科思资源有限:项目制决定每案做完就结束,AI 能力没法在用户端持续迭代。我最想做的是把 AI 能力规模化触达真实用户,只有互联网产品公司能做到。

节奏:乙方是"接一个做一个",每次从 0 开始,服务个体甲方;互联网产品是"一个产品面向千万用户持续迭代"——数据反馈快、迭代紧、能看到 AI 长期价值。我希望进入这种节奏。

不是"逃离策划行业"——12 年策划是我最宝贵的财富,训练了用户共情、内容敏感、跨文化视野。我是带着这些能力进入能让 AI 发挥更大价值的平台

转型是升级,不是改行
字节 三面 3-290 秒

你的优缺点分别是什么?

优点具体有证据;缺点真实 + 给补齐方案——"不怕有缺点,怕的是不知道、不承认、不改进"
展开完整答案
完整话术 优点两个
· AI 实践的深度和完整性。2021 底 MJ V3 开始系统跟进,4 年时间。从 Prompt 到 RAG 到 Agent 到 MCP,每次技术迭代都实操过、在业务里用过。这种连续性实战经验不是短期能补的。
· 流程标准化能力。12 年策划训练了把复杂创意流程拆解成可复用标准的能力。放到 AI PM 就是能把"一次性 campaign"沉淀成"可复用产品能力"。

缺点两个,真实不做表演
· 大规模 AB 测试和漏斗分析实操深度不够。策划行业接触百人级用户不是百万级。转 C 端产品后需要补齐精细化分析。应对:已在系统学方法论,计划三个月内在实际业务跑通 2-3 个完整 AB 实验实战积累。
· ToB / 商业化产品经验有限。做的是 B2B2C 或 B2C,纯 ToB SaaS 经验浅。未来涉及商业化要重点补。

原则缺点不怕有,怕的是不知道、不承认、不改进
字节 三面 3-390 秒

你对未来 3-5 年的职业规划?

短期深耕应用层 PM → 中期做"AI × 垂直方向"专家 → 长期保持在 AI 最前沿。表达稳定性 + 长期主义
展开完整答案
完整话术 我的规划:深耕 AI 应用层 PM,3 年内独立负责 AI 产品线

短期(1-2 年):在一家真正把 AI 做成业务核心的公司,把 4 年 AI 实战经验规模化——从"给百人团队提效"变成"给百万用户提效"。补齐数据驱动、AB 测试、商业化思维。

中期(3-5 年):成为"AI × 某垂直方向"的专家——最看好"AI × 跨文化社交"和"AI × 内容创作"两个方向,能把策展背景、跨文化经验、AI 能力全调动。希望做出有行业影响力的产品。

长期(5 年+):不设死天花板。AI 这行 6 个月一个时代,10 年后什么样没人知道。我唯一确定的是——只要 AI 在前进,我就在前进的最前沿

对公司的期待:希望找一家愿意和我长期走的公司。不是跳板,是共同成长的平台