LLM Security¶

理解LLM是如何“思考”的¶

Transformer 架构

建议先看前 4 集（神经网络基础），再配合《The Illustrated Transformer》快速建立 Transformer 心智模型。

交互方式 1. 界面交互 ：初步体验与 Prompt Engineering 2. API 调用：构建可复现、可自动化的安全测试环境

两个平台

Hugging Face

相当于 AI 领域的 GitHub，有开源模型库（Llama、Mistral、Qwen、DeepSeek 等）、数据集与评估脚本（用于安全 benchmark），Spaces 平台还可以快速部署 Demo 进行漏洞复现。
OpenRouter

聚合了 GPT-5、Claude 4、Gemini、DeepSeek 等数百种模型，提供免费模型和统一 API 接口，降低多模型测试成本。国内访问友好，支持支付宝/微信支付，适合预算有限的学习者。

注册后，可以先用免费模型测试不同厂商对”越狱 Prompt”的安全水位，记录各家的脆弱性表现。

理解哪些是高频高危漏洞，攻击者在使用什么战术

OWASP官方发布 LLM 安全风险分类框架

编号	风险名称	关键示例
LLM01	提示注入（Prompt Injection）	恶意指令覆盖系统提示，诱导模型执行非预期操作
LLM02	敏感信息泄露（Sensitive Information Disclosure）	模型输出用户隐私、密钥、内部配置或训练数据中的敏感内容
LLM03	供应链风险（Supply Chain）	第三方模型、插件、数据集或依赖包被污染或存在漏洞
LLM04	数据与模型投毒（Data and Model Poisoning）	在预训练、微调或嵌入数据中注入恶意样本影响模型行为
LLM05	不安全输出处理（Improper Output Handling）	LLM 输出未经校验就执行代码、SQL、HTML 或跳转链接
LLM06	过度代理能力（Excessive Agency）	赋予模型过高权限，使其能越权调用工具、API 或修改数据
LLM07	系统提示泄露（System Prompt Leakage）	用户诱导模型泄露系统提示、隐藏规则或内部策略
LLM08	向量与嵌入弱点（Vector and Embedding Weaknesses）	通过相似度检索、RAG 或向量库注入恶意内容并影响回答
LLM09	错误信息（Misinformation）	模型生成幻觉内容，导致用户基于错误信息做出决策
LLM10	无界消耗（Unbounded Consumption）	攻击者诱导模型大量消耗 token、算力、API 调用或费用

了解每个的攻击路径、影响范围和解决方案，构建LLM安全防御体系的基础

MITRE ATLAS AI系统攻击类别库

真实世界中针对 AI 系统的攻击形态 → 格式、技术与过程（TTPs）

例如： TA0001 – 利用模型接口 → T0003 – 提示注入 → T0008 – 感应数据泄漏

结合复现的攻击案例，对照ATLAS编号，构建完整的攻击树

框架适用于在红队演练、威胁建模和防御策略推演

安全的本质是对抗

Garak（Garak, Eliminator of Models）

用法示例：

garak --model openai/gpt-4 --probe jailbreak

系统会自动运行数十种越狱 Prompt，并汇总成功率。

建议用 Garak 复现 OWASP LLM01~LLM05，记录不同模型的防御强度，思考绕过方式。

GitHub 上搜索 Awesome LLM Security 可以找到不少整理好的资源列表，比如 Trail of Bits 的 awesome-llm-security、Stanford 的 llm-security-papers，以及 PromptInject、LLM-Guard 等项目。

建议每周花 1 小时浏览 GitHub Trending 和 arXiv 最新论文（关键词 “LLM Security 2025”）