DeepSeek API上下文硬盘缓存介绍

DeepSeek

类型：人工智能

简介：一款基于深度学习和自然语言处理技术的产品，人气赶超ChatGPT。

百科词条访问网站

DeepSeek API上下文硬盘缓存技术是默认开启的，用户无需额外修改代码即可直接使用。每次请求都会触发硬盘缓存的构建。如果后续请求与之前的请求存在相同的前缀部分，那么重复的内容会直接从缓存中提取，这部分会被计入“缓存命中”。

注意：只有两个请求之间存在重复的前缀部分，才会触发“缓存命中”。以下通过几个实例来帮助理解。

一、DeepSeek长文本问答

1、第一次请求

messages: [

{"role": "system", "content": "你是一位资深的财报分析师..."}

{"role": "user", "content": "<财报内容>\n\n请总结一下这份财报的关键信息。"}

]

messages: [ {"role": "system", "content": "你是一位资深的财报分析师..."} {"role": "user", "content": "<财报内容>\n\n请总结一下这份财报的关键信息。"} ]

messages: [
{"role": "system", "content": "你是一位资深的财报分析师..."}
{"role": "user", "content": "<财报内容>\n\n请总结一下这份财报的关键信息。"}
]

2、第二次请求

messages: [

{"role": "system", "content": "你是一位资深的财报分析师..."}

{"role": "user", "content": "<财报内容>\n\n请分析一下这份财报的盈利情况。"}

]

messages: [ {"role": "system", "content": "你是一位资深的财报分析师..."} {"role": "user", "content": "<财报内容>\n\n请分析一下这份财报的盈利情况。"} ]

messages: [
{"role": "system", "content": "你是一位资深的财报分析师..."}
{"role": "user", "content": "<财报内容>\n\n请分析一下这份财报的盈利情况。"}
]

在这个例子中，两次请求的前缀部分相同：system 消息和 user 消息中的 <财报内容>。因此，在第二次请求时，这部分前缀将被缓存命中。

二、DeepSeek多轮对话

1、第一次请求

messages: [

{"role": "system", "content": "你是一位乐于助人的助手"},

{"role": "user", "content": "中国的首都是哪里？"}

]

messages: [ {"role": "system", "content": "你是一位乐于助人的助手"}, {"role": "user", "content": "中国的首都是哪里？"} ]

messages: [
{"role": "system", "content": "你是一位乐于助人的助手"},
{"role": "user", "content": "中国的首都是哪里？"}
]

2、第二次请求

messages: [

{"role": "system", "content": "你是一位乐于助人的助手"},

{"role": "user", "content": "中国的首都是哪里？"},

{"role": "assistant", "content": "中国的首都是北京。"},

{"role": "user", "content": "美国的首都是哪里？"}

]

messages: [ {"role": "system", "content": "你是一位乐于助人的助手"}, {"role": "user", "content": "中国的首都是哪里？"}, {"role": "assistant", "content": "中国的首都是北京。"}, {"role": "user", "content": "美国的首都是哪里？"} ]

messages: [
{"role": "system", "content": "你是一位乐于助人的助手"},
{"role": "user", "content": "中国的首都是哪里？"},
{"role": "assistant", "content": "中国的首都是北京。"},
{"role": "user", "content": "美国的首都是哪里？"}
]

在此例中，第二次请求中前两部分（system 消息和第一次 user 消息）与第一次请求相同，因此这些内容将被缓存命中。

三、Few-shot学习

Few-shot 学习通常会提供一些示例，以帮助模型理解特定的模式，从而提升输出效果。由于这些示例通常具有相同的上下文前缀，因此借助硬盘缓存技术，Few-shot 的费用也会大幅降低。

1、第一次请求

messages: [

{"role": "system", "content": "你是一位历史学专家，用户将提供一系列问题，你的回答应当简明扼要，并以`Answer:`开头"},

{"role": "user", "content": "请问秦始皇统一六国是在哪一年？"},

{"role": "assistant", "content": "Answer:公元前221年"},

{"role": "user", "content": "请问汉朝的建立者是谁？"},

{"role": "assistant", "content": "Answer:刘邦"},

{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},

{"role": "assistant", "content": "Answer:李柷"},

{"role": "user", "content": "请问明朝的开国皇帝是谁？"},

{"role": "assistant", "content": "Answer:朱元璋"},

{"role": "user", "content": "请问清朝的开国皇帝是谁？"}

]

messages: [ {"role": "system", "content": "你是一位历史学专家，用户将提供一系列问题，你的回答应当简明扼要，并以`Answer:`开头"}, {"role": "user", "content": "请问秦始皇统一六国是在哪一年？"}, {"role": "assistant", "content": "Answer:公元前221年"}, {"role": "user", "content": "请问汉朝的建立者是谁？"}, {"role": "assistant", "content": "Answer:刘邦"}, {"role": "user", "content": "请问唐朝最后一任皇帝是谁"}, {"role": "assistant", "content": "Answer:李柷"}, {"role": "user", "content": "请问明朝的开国皇帝是谁？"}, {"role": "assistant", "content": "Answer:朱元璋"}, {"role": "user", "content": "请问清朝的开国皇帝是谁？"} ]

messages: [ 
{"role": "system", "content": "你是一位历史学专家，用户将提供一系列问题，你的回答应当简明扼要，并以`Answer:`开头"},
{"role": "user", "content": "请问秦始皇统一六国是在哪一年？"},
{"role": "assistant", "content": "Answer:公元前221年"},
{"role": "user", "content": "请问汉朝的建立者是谁？"},
{"role": "assistant", "content": "Answer:刘邦"},
{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},
{"role": "assistant", "content": "Answer:李柷"},
{"role": "user", "content": "请问明朝的开国皇帝是谁？"},
{"role": "assistant", "content": "Answer:朱元璋"},
{"role": "user", "content": "请问清朝的开国皇帝是谁？"}
]

2、第二次请求

messages: [

{"role": "system", "content": "你是一位历史学专家，用户将提供一系列问题，你的回答应当简明扼要，并以`Answer:`开头"},

{"role": "user", "content": "请问秦始皇统一六国是在哪一年？"},

{"role": "assistant", "content": "Answer:公元前221年"},

{"role": "user", "content": "请问汉朝的建立者是谁？"},

{"role": "assistant", "content": "Answer:刘邦"},

{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},

{"role": "assistant", "content": "Answer:李柷"},

{"role": "user", "content": "请问明朝的开国皇帝是谁？"},

{"role": "assistant", "content": "Answer:朱元璋"},

{"role": "user", "content": "请问商朝是什么时候灭亡的"}

]

messages: [
{"role": "system", "content": "你是一位历史学专家，用户将提供一系列问题，你的回答应当简明扼要，并以`Answer:`开头"},
{"role": "user", "content": "请问秦始皇统一六国是在哪一年？"},
{"role": "assistant", "content": "Answer:公元前221年"},
{"role": "user", "content": "请问汉朝的建立者是谁？"},
{"role": "assistant", "content": "Answer:刘邦"},
{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},
{"role": "assistant", "content": "Answer:李柷"},
{"role": "user", "content": "请问明朝的开国皇帝是谁？"},
{"role": "assistant", "content": "Answer:朱元璋"},
{"role": "user", "content": "请问商朝是什么时候灭亡的"}
]

在这个例子中，第二次请求与第一次请求大部分内容重复，只有最后一个问题不同。因此，第二次请求可以复用第一次请求中的前 4 轮对话，这部分将被缓存命中。