为什么我把公司知识库的RAG Pipeline从LangChain迁到了裸Gemini API:一场关于长上下文与分块策略的架构决策复盘
去年Q4,我接手了一个企业知识库问答系统的重构项目。原有的架构跑在LangChain + Pinecone上,用的是经典的RAG分块策略——把所有文档切成512 token的片段,embedding后扔进向量库,查询时召回top-k,拼进prompt里喂给模型。这套方案在前6个月表现尚可,但随着客户…
去年Q4,我接手了一个企业知识库问答系统的重构项目。原有的架构跑在LangChain + Pinecone上,用的是经典的RAG分块策略——把所有文档切成512 token的片段,embedding后扔进向量库,查询时召回top-k,拼进prompt里喂给模型。这套方案在前6个月表现尚可,但随着客户…