从零开始搭建本地安全AI大模型攻防知识库
本文将分享从零搭建本地大模型搭建问答知识库过程中遇到的问题和解决方案。
概述
目前想搭建大语言问答知识库,能采用的方案有微调模型,再次训练模型,RAG(Retrieval Augmented Generation,增强检索生成)。
而我们的目标是希望能搭建一个低成本,快速响应的问答知识库,而微调/训练大语言模型非常的浪费资源和时间。因此考虑使用开源的本地大语言模型加上RAG方案,并且经过测试,llama3:8b
,qwen2:7b
这种体量的大语言模型能快速响应用户的提问,比较符合我们搭建问答知识库的需求。
我们花了一段时间,对RAG各个步骤的原理细节和改进方案进行了一些研究,下面将按照RAG的步骤进行讲解。
简述RAG原理
首先来讲解一下RAG原理,比如我们有三个文本和三个问题,如下所示:
1 | context = [ |
接下来使用ollama的mxbai-embed-large
模型,把三个文本和三个问题都转化为向量的表示形式,代码如下所示:
1 | vector = [] |
接下来使用numpy模块来编写一个函数,计算向量的相似度,代码如下所示:
1 | def cosine_similarity(self, a, b): |
从上面可以看出,计算出的结果值越大则两个文本越相似,上述过程就是RAG原理的简化版。
有一定基础的都知道,大语言模型本质上就是算概率,所以其只会回答训练进去的数据包含的内容。如果想搭建一个问答知识库,并且该知识库的内容属于公网上公开的内容,那么大概率会已经包含在大模型的训练数据集中,那么就不需要任何操作,可以直接使用大模型进行问答,这就是目前大部分人普遍使用大语言模型的情况。
但是,我们想搭建的本地知识库内容大部分都包含私有数据,当前的大语言模型的训练数据集中不存在知识库中的内容。这种情况下可以考虑对大模型进行微调或者再次训练,不过该方案费时费钱。
所以更多时候,采用的方案还是把知识库的内容放入到prompt中,让大语言模型通过我们提供的内容来进行回答。但是该方案存在一个问题,那就是token的长度限制(上下文长度限制)。比如本地大语言模型中的qwen2:7b
,token
的最大长度为128k
,表示输入的上下文通过AutoTokenizer
计算出的长度不能超过128k,但是正常情况下,知识库的大小超过128k是很正常的。我们不可能把所有的知识库内容都放入到prompt中,因此就有了RAG方案。
RAG的方案步骤如下所示:
对知识库根据一定的大小进行分片处理。
使用embedding大模型对分片后的知识库进行向量化处理。
使用embedding大模型对用户的问题也进行向量化处理。
把用户问题的向量和知识库的向量数据进行相似度匹配,找出相似度最高的k个结果。
把这k个结果作为上下文放入到prompt当中,跟着用户的问题进行提问。
在开头的例子中,context
变量相当于知识库的内容,"城市"
就相当于用户提出的问题,接着通过相似度计算,"北京,上海"
是最接近的信息,所以接着把该信息作为提问的上下文提供给GPT进行问答。
一个简单的prompt示例如下所示:
1 | prompt = [ |
使用redis-search计算相似度
在上述的例子中,是自行编写了一个cosine_similarity
函数来计算相似度,但是在实际的应用场景中,知识库的数据会非常大,这会导致计算相似度的速度非常慢。
经过研究发现,能对向量进行存储并且快速计算相似度的工具有:
- redis-search
- chroma
- elasticsearch
- opensearch
- lancedb
- pinecone
- qdrant
- weaviate
- zilliz
下面分享一个使用redis-search的KNN算法来快速找到最相似的k个内容的方案。
首先搭建redis-search
环境,可以使用docker一键搭建,如下所示:
1 | docker pull redis/redis-stack |
接着编写相关python代码,如下所示:
1 | # 首先定义一个redis相关操作的类 |
RAG知识库难点
在了解了RAG的原理后,我们就可以尝试编写相关代码,搭建一个本地问答知识库。但是在我们开始行动后,就会发现事情并不会按照我们预料中的发展。
难点一:大语言模型能力不足
在我们的设想中,问答知识库是这样工作的:
- 根据用户的提问,在知识库中找到最相似k个的内容。
- 把这k个内容作为上下文,提供给大模型。
- 大模型根据用户提问的上下文,给出准确的答案。
但是在实际应用的过程中,程序却无法按照我们的意愿运行,首先是问答的大语言模型能力不足,毕竟我们使用的是qwen2:7b
这种小体积的大模型,无法和GPT4
这类的大模型相比较。但是修改一下提问的方式或者上下文和问题之间的顺序,还是能比较好的达到我们预期的效果。
但是更重要的是embed大模型的能力同样存在不足,这里用开头例子进行说明,我们把context
的内容简单修改一下,如下所示:
1 | context = [ |
然后再计算一次相似度,如下所示:
1 | 城市和北京,上海,杭州的相似度为:0.6192201604133171 |
我们发现,"城市"
竟然和"苹果,橘子,梨"
是最相似的。虽然这只是一个简单的例子,但是在实际的应用中经常会遇到这类的情况,通过用户提问的内容找到的知识库中最相似的内容有可能跟问题并不相关。
这是否是本地embed大模型的问题?openai的embed大模型效果如何?接着我们找了一些本地embed大模型和openai的text-embedding-3-small
, text-embedding-ada-002
, text-embedding-3-large
进行一个简单的测试,判断通过问题找到的最相似的知识库上下文,是否是预期的内容。
最终的结果是,不管是本地的大模型还是openai的大模型,成功率都在50%-60%之间。embed大模型的能力差是普遍存在的问题,并不仅仅是本地embed大模型的问题。
该问题经过我们一段时间的研究,找到了将就能用的解决方案,将会在后文细说。
难点二:提问的复杂性
理想中的问答知识库是能处理复杂问题,并且能进行多轮对话,而不是一轮提问就结束。
以Seebug Paper
作为知识库,提出的问题具体到某一篇文章,并且多轮对话之间的问题是相互独立的,这种情况是最容易实现的。比如:
1 | user: 帮我总结一下CVE-2024-22222漏洞。 |
但是想要让问答知识库成为一个好用的产品,不可能把目标仅限于此,在实际的应用中还会产生多种复杂的问题。
- 范围搜索性提问
参考以下几种问题:
- 2024年的文章有哪些?
- CTF相关的文章有哪些?
- 跟libc有关的文章有哪些?
- ……
拿第一个问题举例,问题为:2024年的文章有哪些?
。
接着问答知识库的流程为:
- 通过embed模型对问题进行向量化。
- 通过redis搜索出问题向量数据最接近的k个知识库内容。(假设k=10)
- 然后把这10个知识库内容作为上下文,让GPT进行回答。
如果按照上面的逻辑来进行处理,最优的情况就是,问答大模型根据提供的10个知识库上下文成功的回答了10篇2024年的文章。
这样问题就产生了,如果2024年的文章有20篇呢?也许我们可以提高k值的大小,但是k值提高的同时也会增加运算时间,虽然看似临时解决了问题,但是却产生了新问题,k值提高到多少?提高到20?那2024年的文章有50篇。提高到100?那2024年的文章如果只有1篇,该方案就浪费了大量运算时间,同时可能会超过大语言模型的token限制,如果使用的是商业GPT(比如openai),那么token就是金钱,这就浪费了大量资金。如果使用的是开源大语言模型,token同样有限制,并且在token增加的同时,大语言模型的能力也会相应的下降。
- 多轮对话
参考以下多轮提题:
user: 2024年的文章有哪些?
assistant: ……
user: 还有吗?
问答知识库在处理第二个提问的流程为:
- 通过embed模型对
"还有吗?"
问题进行向量化。 - 通过redis搜索出问题向量数据最接近的k个知识库内容。(假设k=10)
- ……
问题产生了,根据"还有吗?"
搜索出的相似上下文会是我们需要的上下文吗?基本上不可能是。
该问题经过我们一段时间的研究,同样是找到了将就能用,但是并不优雅的解决方案,将会在后文细说。
难点三:文本的处理
在使用Seebug Paper
搭建问答知识库的过程中,发现两个问题:
- 文章中的图片怎么处理?
- 文章长度一般在几k到几十k之间,因此是需要分片处理的,那么如何分片?
关于图片处理勉强还有一些解决方案:
- 使用OCR识别将图片转换为文字。(效果不太好,因为有些图片重要的不是文字。)
- 使用llava这类的大模型来对图片进行描述,概括(llava效果不太好,不过gpt4的效果会好很多)。
- 直接加上如下图所示,并且在prompt中告诉GPT,让其需要用到图片时,直接返回图片的链接。
但是分片的问题却不是很好处理,如果要进行分片,那么如何分片呢?研究了llama_index
和langchain
框架,基本都是根据长度来进行分片。
比如在llama_index
中,对数据进行分片的代码如下所示:
1 | from llama_index import SimpleDirectoryReader |
在上面的示例代码中,设置了chunk_size
的值为514,但是在Paper中,经常会有内嵌的代码段长度大于514,这样就把一段相关联的上下文分在了多个不同的chunk当中。
假设一个相关联的代码段被分成了chunk1和chunk2,但是根据用户问题搜索出相似度前10的内容中只有chunk2并没有chunk1,最终GPT只能获取到chunk2的上下文内容,缺失了chunk1的上下文内容,这样就无法做出正确的回答。
不仅仅是代码段,如果只是通过长度进行分片,那么有可能相关联的内容被分成了多个chunk。
将就能用的解决方案
下面分享一些针对上面提出的难点研究出的解决方案,但是仅仅只是将就能用的方案,都是通过时间换准确率,暂时没找到完美的解决方案。
rerank模型
通过研究QAnything
[1]项目,发现可以使用rerank模型来提升embed模型的准确率。
举个例子,比如你想取前10相似的内容作为提问的上下文。那么可以通过redis获取到前20相似的内容,接着通过rerank模型对这20个内容进行重打分,最后获取前10分数最高的内容。相关代码示例如下所示:
1 | from BCEmbedding import RerankerModel |
rerank
模型本质上就是训练出了一个专门打分的大语言模型,让该模型对问题和答案进行打分。该方案一定程度上可以提升搜索出内容的准确度,但是仍然无法完美解决难点一的问题。
上下文压缩
通过研究LLMLingua
[2]和langchain
项目,发现了上下文压缩方案。
在上面的例子中,都是以k=10
来举例的,那么k的值等于多少才合适呢,这需要根据知识库分片的大小和大语言模型的能力来调整。
首先,要求上下文的长度加上prompt的内容不能超过大语言模型token长度的限制。其次,基本所有的大语言模型都会随着上下文的增加导致能力下降。所以需要根据使用的大语言模型找到一个长度阙值,来设置k的大小。
在实际应用中,会发现前k个上下文中可能大部分内容都跟用户的提问无关,因此可以使用上下文压缩技术,去除无用的内容,减小上下文体积,增加k值大小。
由于LLMLingua
项目使用的模型有点大,跑起来费时费电(跑不起来),所以根据其原理,实现了一个低级版本的压缩代码,如下所示:
1 | def compress(self, question: str, context: list[str], maxToken: int = 1024) -> list[str]: |
由于有了上下文压缩方案,我们可以考虑设置k的值为一个非常大的值,然后分析计算出的相似度的值,比如我发现在我的案例中,redis搜索结果相似度大于0.4
的内容就完全跟提问无关,rerank重打分分数小于0.5
的内容完全跟提问无关,所以可以做出以下修改:
1 | k = 1000 |
通过以上方案,一定程度上解决了范围性搜索提问
的难题。同样,我们可以尝试寻找一个相似度分数的阙值,来解决多轮对话
的难题,因为"还有吗?"
这类的多轮对话问题和知识库的相关性非常低,得到的分数都会非常低。这样当我们最终获取到的上下文内容为空时,表明当前为多轮对话,再按照对轮对话的逻辑进行处理。
知识库分片处理
经过研究,目前没找到完美的分片方案,我认为针对不同格式的知识库设计针对性的分片方案会比较好。
针对Seebug Paper
的情况,我们考虑根据一级标题
来进行分片,每个chunk中还需要包含当前文章的基础信息,比如文章名称。如果有代码段,则需要根据token的大小来进一步分片。
在一些框架中,不同chunk之前会有一部分重叠内容,但是我们研究后发现这种处理方案不会让最终的效果有较大的提升。
经过研究,发现有固定格式的文档是最好的知识库素材,比如漏洞应急简报,每篇简报的内容大小不过过程,并且有markdown格式方便匹配。并且能根据漏洞概述, 漏洞复现, 漏洞影响范围, 防护方案, 相关链接
来进行分片,每部分的相关性都不大。
总结
我们期望的问答知识库是大语言模型能根据我们提供的知识库快速,准确的回答用户的提问。目前来看是还是不存在理想中的问答知识库,一方面是由于大语言模型能力的限制,在当前的大语言模型中,快速响应
和精准响应
还是一对反义词。
使用embed大语言模型寻找相关文档的准确率太低,大部分的优化方案都是通过时间换取准确率。所以还是寄希望于生成式大语言模型未来的发展,是否能达成真人工智能。
目前的问答知识库和RAG
类的框架效果相差不大,都是属于先把框架建好,把大语言模型分割开来,能随意替换各类大语言模型,因此这类框架的能力取决于使用的是什么大语言模型。相当于建造一个机器人,把身体都给搭建好了,但是还缺少一颗优秀的脑子。
参考链接
从零开始搭建本地安全AI大模型攻防知识库