让大模型 Agent 处理海量数据的技巧

现在给你的大语言模型智能体(LLM Agent)一个任务,让它从海量的数据中提取、总结、计算出正确的答案。你会怎么做?显然你不能把所有数据都装到大模型的提示词(prompt)里面去,因为那样你将很快遭遇到大模型上下文窗口的限制,导致信息丢失,无法完成任务。

例如,要统计全校学生各科成绩的平均分,你就不可能把全校上千个学生的成绩都输入到 prompt 里去让大模型总结,这样 prompt 的令牌数将远远超过一般大模型的可承受能力。当然如果你非得用上下文窗口超过32K、192K之类的模型来抬杠,那就当我没说。不过那时候的问题就转化成大模型是否有能力计算那么庞大的数据而不出错。

怎么办?一种聪明的办法是:你需要事先把所有数据都存到数据库中,比如 SQLite,然后告诉大模型你的数据表结构。这样,智能体就能帮你生成 SQL 语句去查询答案。现在你就能轻松从海量数据库中查询到最相关的内容,而不必遭遇大模型上下文窗口的限制。


让大模型 Agent 处理海量数据的技巧
https://aizpy.com/2024/01/23/llm-agent-database-sql/
作者
aizpy
发布于
2024年1月23日
许可协议