企业知识库项目问答

大约 11 分钟

《企业知识库问答项目：完整项目话术》

这篇是“项目表达主战场”

面试里最拉开差距的，不是概念题，而是“你到底做过什么”。
建议你按这条路线训练：

先背 1 分钟版（保底不慌）。
再背 3 分钟版（讲清业务与技术）。
最后练追问（证明你不是背稿）。

快速导航

1分钟项目介绍版：高压场景保底输出。
3分钟详细介绍版：结构化完整表达。
项目亮点总结：回答“你这个项目有什么价值”。
10个高频追问 + 标准回答：抗追问能力训练。
最后收尾金句：形成面试记忆点。

你可以直接套成自己的项目经历。

这个项目是一个企业内部知识库问答系统，主要目标是解决公司内部文档分散、员工查找信息效率低、重复答疑成本高的问题。
整体方案上，我们基于 RAG 做了一套问答链路，包括文档解析、切分、向量化入库，以及在线问答时的检索、重排、生成和引用返回。
我主要负责的是文档入库链路、在线问答服务、Prompt 设计和输出稳定性处理。
项目里的核心难点是检索相关性和模型幻觉控制。针对这个问题，我们通过优化 chunk 策略、增加 query 改写、引入 rerank、设置拒答机制和引用约束，提升了回答的可用性和可信度。
这个项目让我比较深刻地理解到，AI 应用开发的重点不只是接模型，而是把模型能力做成一个可上线、可监控、可优化的业务系统。

二、3分钟详细介绍版

我做的这个项目是一个企业内部知识库问答系统，主要面向公司员工在日常工作中查询制度、流程、产品说明、操作规范这类信息的场景。
项目背景是，公司内部文档比较分散，很多知识沉淀在不同平台或者不同格式的文件里，员工遇到问题时经常需要反复找人确认，效率比较低，也增加了重复沟通成本。
所以我们希望通过一个基于大模型的知识库问答系统，把这些内部资料统一接入，提升知识获取效率。

在技术方案上，我们采用的是 RAG 架构。
离线部分主要是：

文档上传
文档解析与清洗
按段落和标题层级做 chunk 切分
生成 embedding
存入向量库

在线问答部分主要是：

用户提问
query 改写
检索 topK 候选内容
rerank 精排
拼接 Prompt
调用大模型生成答案
返回答案并附带引用来源

为了让系统更适合企业场景，我们没有只关注“能回答”，而是重点做了几类工程化能力：
第一是权限控制，保证不同用户只能检索到自己有权限访问的知识；
第二是输出稳定性，比如结构化输出校验、失败重试和兜底；
第三是异常治理和监控，包括超时、模型调用失败、检索未命中、日志追踪等。

我在项目里主要负责三个部分：

文档入库链路，包括解析、切分、向量化和异步任务处理；
在线问答服务，包括检索、重排、Prompt 拼接和结果返回；
回答质量优化，包括 Prompt 约束、拒答机制、引用返回、badcase 分析和调优。

这个项目里最大的难点是检索相关性不稳定。
因为用户的提问通常比较口语化，而企业文档往往表达更正式、更书面，导致有时候能检索到内容，但不是最相关的内容。
针对这个问题，我们主要做了三方面优化：

优化 chunk 策略，减少语义切断；
加入 query 改写，让用户表达更贴近文档表达；
引入 rerank，对召回结果做精排；
同时我们还加了最小证据门槛，检索不到时触发拒答，避免模型自由发挥。

通过这些优化，系统在回答相关性、稳定性和可控性上都有比较明显提升。
这个项目让我比较深刻的体会是，AI 应用开发不是简单把模型 API 接进来，而是要把检索、Prompt、后端服务、权限控制、异常治理和评估体系一起做好，才能真正支撑业务落地。

三、项目亮点总结版（适合面试官问“你觉得这个项目亮点是什么”）

我觉得这个项目有三个亮点：

1）不是单纯调用模型，而是完整做了 RAG 链路

包括文档入库、切分、向量化、检索、重排、生成和引用返回，形成了完整闭环。

2）比较重视企业场景下的可控性

比如权限过滤、拒答机制、引用来源、结构化输出校验，这些都是企业落地里很关键但 demo 常忽略的部分。

3）做了效果优化和工程治理

不是只追求“跑通”，还关注检索质量、幻觉控制、超时兜底、日志监控和 badcase 迭代，这些更接近真实生产环境。

四、10个高频追问 + 标准回答

追问1：为什么选择做知识库问答，而不是直接做一个普通搜索系统？

标准回答：
因为普通搜索系统解决的是“找到文档”，而知识库问答想解决的是“直接得到答案”。
在企业内部场景里，很多用户并不清楚要搜什么关键词，他们更习惯直接提问题。
知识库问答可以把检索和生成结合起来，降低信息获取门槛，提高效率。
当然本质上它不是替代搜索，而是在搜索基础上进一步做答案生成和信息整合。

追问2：为什么用 RAG，而不是微调模型？

标准回答：
主要有三个原因：
第一，企业知识更新频繁，用 RAG 可以直接更新知识库，不需要频繁重新训练；
第二，RAG 能让回答附带证据来源，更适合企业场景做可追溯；
第三，微调更适合补充任务风格和领域能力，但不适合承载高频变动的事实知识。
所以对这个场景来说，RAG 是更合适的基础方案。

追问3：你们文档怎么切分的？为什么这么切？

标准回答：
我们没有单纯按固定长度切，而是优先结合文档结构做切分，比如按标题、段落、条目，同时保留适当 overlap。
这样做的原因是企业文档通常结构比较清晰，如果只按字数切，容易把一个完整流程或规则拆断。
而加 overlap 是为了降低边界切断带来的语义丢失。
后续我们也会根据 badcase 继续调 chunk 粒度。

追问4：你们怎么处理检索不准的问题？

标准回答：
我们主要做了三层优化：
第一层是 chunk 优化，让知识片段更适合检索；
第二层是 query 改写，把用户口语化表达转成更贴近文档表达的形式；
第三层是 rerank，对候选结果做更精细排序。
如果依然没有足够高质量证据，就走拒答逻辑，而不是让模型硬答。

追问5：幻觉怎么控制？

标准回答：
我们主要从四个方向控制：

检索不到时拒答，不允许无依据生成；
Prompt 明确要求只能依据提供资料回答；
回答附带引用来源，增强可追溯；
对高风险场景加后处理校验或人工审核。
我的理解是，幻觉很难完全消除，但可以通过工程手段显著降低。

追问6：如果用户问的问题知识库里没有怎么办？

标准回答：
我们不会让模型自由发挥。
会根据相似度阈值和证据门槛判断是否命中知识，如果不满足，就返回“当前知识库暂无相关信息”这类兜底话术，并引导用户补充条件或转人工。
同时把这类问题记录下来，用于后续知识补充和 badcase 优化。

追问7：你在项目里具体负责什么？

标准回答：
我主要负责三个方面：
第一，文档入库链路，包括解析、清洗、chunk 切分、向量化和异步任务；
第二，在线问答服务，包括检索、rerank、Prompt 拼接和结果返回；
第三，回答效果优化，包括拒答机制、引用输出、格式稳定性和 badcase 分析。
如果说更偏工程的部分，我承担的是“把模型能力真正接进业务系统”的那一段。

追问8：这个项目最大的技术难点是什么？

标准回答：
最大的难点是检索相关性不稳定。
因为用户提问习惯和文档表达风格差异比较大，导致有时候召回得到的是相关但不够精准的片段。
这个问题的难点在于，它表面看是“模型答错”，但实际上根因可能在检索链路。
所以我们重点优化的是输入证据质量，而不是一开始就盲目换更强模型。

追问9：你们怎么做效果评估？

标准回答：
我们会把评估拆成几层：

检索层：看命中率、召回质量、rerank 后排序效果
生成层：看答案准确性、幻觉情况、引用是否正确
系统层：看响应时延、超时率、调用成功率
业务层：看重复答疑减少、用户使用反馈、是否降低转人工
另外会维护 badcase 集，做持续回归测试。

这个项目让我对 AI 应用开发有一个很明确的认识：真正有价值的不是把模型接进来，而是把模型能力变成一个可控、可解释、可维护的业务系统。

七、背诵压缩版（超高频，30秒）

如果你想快速背一版最短的，可以直接背这个：

我做的是企业知识库问答项目，目标是解决内部文档分散、重复答疑多、查找效率低的问题。
技术上基于 RAG，包含文档解析、chunk 切分、向量化入库，以及在线问答时的检索、rerank 和模型生成。
我主要负责文档入库链路、在线问答服务和回答质量优化。
项目难点主要是检索相关性和幻觉控制，我们通过优化 chunk、query 改写、rerank、拒答机制和引用返回提升了系统可用性。
这个项目让我更深刻理解了 AI 应用开发的核心是工程化落地，而不是只调模型接口。

企业知识库项目问答

快速导航

一、1分钟项目介绍版

二、3分钟详细介绍版

三、项目亮点总结版（适合面试官问“你觉得这个项目亮点是什么”）

1）不是单纯调用模型，而是完整做了 RAG 链路

2）比较重视企业场景下的可控性

3）做了效果优化和工程治理

四、10个高频追问 + 标准回答

追问1：为什么选择做知识库问答，而不是直接做一个普通搜索系统？

追问2：为什么用 RAG，而不是微调模型？

追问3：你们文档怎么切分的？为什么这么切？

追问4：你们怎么处理检索不准的问题？

追问5：幻觉怎么控制？

追问6：如果用户问的问题知识库里没有怎么办？

追问7：你在项目里具体负责什么？

追问8：这个项目最大的技术难点是什么？

追问9：你们怎么做效果评估？

追问10：如果让你重新做一遍，你会怎么改？

五、如果面试官继续深挖：补充问答库

问：为什么不直接把整个文档塞进大模型？

问：为什么还要做 rerank，向量检索不够吗？

问：知识库更新怎么处理？

问：你们系统怎么保证权限？

问：这个项目你最大的收获是什么？

六、最后收尾金句

七、背诵压缩版（超高频，30秒）