面试时用STAR法则(Situation → Task → Action → Result)回答项目问题。 以下提供多个场景的完整话术模板,可直接背诵后灵活调整。
我上一个项目是做智能客服系统。当时公司的客服系统面临几个痛点:日均咨询量超过10万,但人工客服响应平均要30分钟;公司有多个知识库但分散在不同系统,导致回答不一致;金融业务场景下缺乏自动化的合规审查,合规风险事件频发。
我作为核心开发者,负责设计和实现一套基于多Agent架构的智能客服系统。目标是将首问解决率从65%提升到80%以上,响应时间降到秒级,同时实现合规审查自动化。
我做了四个关键技术决策:
第一,架构选型——我调研了单Agent、Peer-to-Peer、Supervisor等多种编排模式后,选择了Supervisor模式。原因是客服场景需要中央协调、需要保证每个回复都经过合规审查,Supervisor模式天然支持这种"先分发、后审查"的流程。
第二,分层记忆——多轮对话最大的难点是上下文丢失。我设计了三层记忆系统:工作记忆存当前推理状态(进程内存,零延迟)、短期记忆存最近20轮对话(Redis,TTL 30分钟)、长期记忆存知识库和用户画像(向量数据库,持久化)。三层协作解决了"用户说了什么"和"系统知道什么"的匹配问题。
第三,RAG知识检索——我实现了完整的RAG流程:先对用户口语化问题做Query改写,然后向量检索Top5文档,再用LLM做重排序选Top3,最后注入上下文生成回答。这比直接拿用户原始问题搜索,准确率提升了20个百分点。
第四,全链路追踪——我集成了OpenTelemetry,每个Agent调用都生成Span,可以追踪从用户请求到最终响应的完整链路,包括每个Agent的耗时、Token消耗、路由决策。这对线上问题排查非常关键。
最终效果:首问解决率从65%提升到82%,CSAT从4.3到4.7,响应时间从30分钟降到3秒。Token消耗通过分层记忆降低了40%——因为不需要每次都把全部历史塞进prompt了。合规风险事件减少了95%。
系统上线初期,我们发现一个严重问题:当多个Agent并行处理时,合规审查Agent偶尔会拿到不完整的数据——比如知识检索Agent还没返回结果,合规审查就已经开始了。这导致部分回复跳过了合规检查直接返回给用户。
我需要解决多Agent并行场景下的数据一致性问题,确保合规审查一定在所有业务Agent完成后才执行。
我分析后发现根因是LangGraph的StateGraph中,我最初把合规审查和知识检索设成了并行边。解决方案是调整图的拓扑结构:
- 让所有业务Agent(知识检索、工单处理)的输出边都指向合规审查节点
- 合规审查节点变成一个"汇聚点",只有当上游所有Agent都完成后才会触发
- 在State中增加了
sub_results字段,各Agent把结果写入这个dict,合规Agent从中读取全部内容做审查同时我还加了一个兜底机制:如果任何业务Agent超时(>10秒),Supervisor会触发降级,直接返回"转人工"并自动创建工单。
修复后合规审查的覆盖率从92%恢复到100%,线上没有再出现漏审的情况。降级机制也帮我们避免了用户长时间等待——超时率本身只有0.5%,但这0.5%之前会导致用户等30秒+无响应。
技术选型时我们面临多个选择:Python有LangGraph和CrewAI,Java有Spring AI,Go有Eino框架。同时在向量数据库上也需要在FAISS、Milvus、Pinecone之间做选择。
我需要给团队提供一个技术选型方案,要考虑开发效率、生产稳定性、团队技能栈。
我做了一个系统的对比分析:
编排框架:
- LangGraph:图式编排,状态管理好,checkpoint支持,但Python性能有瓶颈
- CrewAI:上手简单,但对复杂编排的控制力不够
- Spring AI:Java生态成熟,企业级特性完善,但AI社区生态不如Python
我的决策是:用Python/LangGraph做MVP快速验证,同时提供Java和Go版本给不同团队使用。
向量数据库:
- FAISS:Facebook开源,单机性能最好,毫秒级响应,但需要自己管理
- Milvus:云原生,分布式,支持百亿级向量,适合生产环境
- Pinecone:全托管,零运维,但成本最高且数据出境合规问题
我的决策是:开发阶段用FAISS(零依赖快速开发),生产环境切Milvus(横向扩展能力)。
这个分层选型策略让我们3周就完成了MVP验证,验证成功后再花2周迁移到生产级技术栈,比一开始就用重型方案节省了约40%的开发时间。
多Agent系统的质量保证比单体系统复杂得多——每个Agent的输出都可能影响最终结果,而且Agent行为具有一定的不确定性。
我需要建立一套质量保证体系,覆盖开发、测试、线上监控全流程。
我从三个维度建立质量保证:
评估指标体系:定义了Agent级别的指标——意图路由准确率、RAG检索准确率、合规审查的精确率/召回率;以及系统级指标——FCR、CSAT、P99延迟、Token消耗
全链路追踪:集成OpenTelemetry,每个请求都能追踪完整链路。一旦线上出现badcase,我可以在追踪系统中看到:Supervisor把这个请求路由到了哪个Agent、Agent拿到了什么上下文、生成了什么中间结果、合规审查是否通过
合规双保险:合规审查Agent采用两阶段机制——先用规则引擎做毫秒级快速检查(敏感词、PII),再用LLM做深度审查(越权承诺、误导性表述)。规则引擎保底,LLM提升覆盖率
上线3个月内,线上合规事故为零;badcase追踪从之前的"看日志找半天"变成"5分钟定位根因";意图路由准确率从85%优化到93%。
S: 我做的是[项目名称],当时面临[具体痛点/挑战,带数字]...
T: 我负责[具体职责],目标是[量化目标]...
A: 我做了[关键技术决策1]...[关键技术决策2]...
选择[技术A]而非[技术B]的原因是[具体理由]...
R: 最终[核心指标]从[旧值]提升到[新值],[次要指标]改善了[百分比]...
- 先说结论:面试官时间有限,先讲最亮眼的结果
- 用数字说话:每个Action对应一个量化Result
- 展示决策过程:不只说"我用了X",要说"我调研了X/Y/Z,选择X因为..."
- 承认局限:适当提及"如果重来,我会...",显示反思能力
- 准备追问:每个Action都准备2-3层深度追问的回答