我让Claude 2.1把300页合同一口气读完,然后生成了一份让法务沉默的总结——我的文档解析管道从147行代码缩减到11行
去年秋天我在处理一个并购案的尽调文档包,四个PDF、总计310页的合同和协议,法务团队需要一份风险条款清单。放在两年前,我肯定要搭一个分块流水线:PyPDF2逐页抽文本,按512 token切块,叠上64 token的滑动窗口,塞进Milvus建索引,再用BM25做关键词检索,最后把top-k片段扔…
去年秋天我在处理一个并购案的尽调文档包,四个PDF、总计310页的合同和协议,法务团队需要一份风险条款清单。放在两年前,我肯定要搭一个分块流水线:PyPDF2逐页抽文本,按512 token切块,叠上64 token的滑动窗口,塞进Milvus建索引,再用BM25做关键词检索,最后把top-k片段扔…