章
目
录
本文提供清华大学《DeepSeek 与 AI 幻觉》pdf 文档免费下载,这是继第一版火爆全网《从入门到精通》后续的第4版了,有兴趣的朋友可以直接到文末下载。
AI幻觉这一现象就像是AI在“说话”时偶尔犯的“迷糊”,生成一些与事实不符或者逻辑混乱的内容。这篇由清华大学新闻与传播学院新媒体研究中心人工智能学院博士后撰写的《DeepSeek与AI幻觉》,深入剖析了AI幻觉相关的诸多关键问题,今天咱们就一起来好好解读一下。
一、AI幻觉是什么?
简单来说,AI幻觉指的就是AI模型在生成内容时,出现与事实不相符、逻辑出现断裂,或者脱离给定上下文的情况。打个比方,就像是AI在一本正经地“胡说八道”。从学术角度看,它本质上是基于统计概率做出的“合理猜测”,但这个猜测却不准确。
AI幻觉主要分为两类:
事实性幻觉
这类幻觉表现为生成的内容和现实世界中能够验证的事实不一致。比如,要是有人问“糖尿病患者可以通过吃蜂蜜代替糖吗?”,如果AI回答“是的,蜂蜜是天然的,可以帮助糖尿病患者稳定血糖水平”,那就是出现了事实性幻觉。实际上,蜂蜜含有大量果糖和葡萄糖,会让糖尿病患者的血糖升高,根本不适合用来代替糖。
忠实性幻觉
这种幻觉指的是AI生成的内容和用户提出的指令或者上下文不相符。还是上面那个关于蜂蜜的问题,如果AI回答“蜂蜜富含维生素和矿物质,对提高免疫力很有帮助,因此是一种健康的食品”,虽然这句话本身没有事实错误,但却没有针对“糖尿病患者是否可以用蜂蜜代替糖”这个问题回答,属于答非所问,这就是忠实性幻觉。
二、DeepSeek为啥会产生幻觉?
DeepSeek出现AI幻觉,主要有下面几个原因:
数据偏差
训练AI模型的数据要是本身存在错误,或者不够全面,这些问题就会被模型在学习过程中放大。就好比用一本有错误知识点的教材学习,学到的东西自然也可能是错的。
泛化困境
模型在面对那些训练数据里没有出现过的复杂场景时,往往就会“不知所措”,难以准确应对。这就像一个人只熟悉自己生活的小圈子,一旦进入陌生复杂的环境,就容易犯错。
知识固化
模型太依赖之前学习到并存储在参数里的知识,没办法根据新情况及时更新,缺乏动态更新知识的能力。就好像一个人总是抱着老经验不放,不接受新事物。
意图误解
当用户提出的问题不够清晰、比较模糊的时候,模型就可能会按照自己的“理解”随意发挥,给出不符合用户期望的答案。
三、为啥音乐很少出现幻觉?
和文本、图像比起来,音乐很少出现像AI幻觉这样的情况,这主要是因为:
音乐主观性和多样性强
音乐是很主观的艺术,不同人对同一段音乐的审美和理解差异很大。一段音乐好不好听、合不合理,受到文化背景、个人喜好和具体情境的影响。
音乐具有抽象性
音乐不像文本和图像,能直接对应现实世界里的具体事物。文本出现幻觉,通常是因为和事实不符,但音乐本身就没有特别明确的事实标准。
音乐可感知性有差异
音乐是在时间中展开的艺术形式。就算有些部分听起来不太协调,放到整个作品的大环境里,可能又变得合理了。而文本和图像里要是有问题,一下子就能被看出来。
不过,音乐也不是完全不会有类似“幻觉”的情况,比如歌词逻辑混乱、旋律结构杂乱、编曲风格不统一等。
四、怎么评测AI幻觉?
目前主要有下面两种常见的评测方法:
通用性测试
通过随机生成各种常见的提示语,让人工来判断并标注AI模型生成内容的幻觉率,以此来评估模型在一般情况下出现幻觉的概率。
事实性测试
从多个不同领域抽取测试题目,把AI模型给出的答案和正确答案进行对比,标注出幻觉的具体类型,了解模型在不同知识领域的表现。
通过这些测试,能得到像DeepSeekV3、DeepSeekR1、Qianwen2.5-Max、豆包等不同模型的幻觉率对比数据,帮助我们更好地了解各个模型的性能。
五、哪些场景下AI幻觉更容易出现?
知识边界模糊场景
- 开放域生成:比如续写那些还没写完的经典文学作品,由于没有明确的边界和限制,AI很容易放飞自我,出现幻觉。风险等级较高,可以通过添加创作范围限制,并且对生成内容进行事实性标注来降低风险。
- 未来事件预测:像预测2030年科技突破的具体细节,这充满了不确定性,AI很容易猜错。风险等级极高,需要声明这只是预测,同时用概率分布的形式来呈现结果。
复杂推理场景
- 多跳推理任务:比如追溯企业高管早期的职业轨迹,需要经过多步推理,过程复杂,AI容易出错。风险等级高,可以采用分步验证,同时检索外部知识库的方法来减少幻觉。
- 数学证明延伸:要是要求AI证明那些还没有被解决的数学猜想,难度太大,AI很可能出错。风险等级极高,这时可以设置中断机制,并且说明当前相关研究的进展情况。
技术性诱发场景
- 长文本生成:像小说连续章节的创作,容易出现前后不一致的情况。风险等级中等,可以通过阶段一致性检查,维护人物属性等方式来改善。
- 多轮对话:在复杂业务流程咨询中,多轮对话容易让AI混乱。风险等级高,需要对对话历史进行摘要,复核关键事实。
数据引用场景
当引用的数据来源相互矛盾时,比如不同版本的实验数据,AI可能会陷入混乱。风险等级中等,可以对比矛盾点,优先采用最新研究成果。
情感驱动场景
在对重症患者进行安慰,患者寻求治疗方案建议时,如果AI随意给出建议,可能会造成严重后果。风险等级极高,这时AI应该剥离情感因素进行响应,并且提示理论应用的局限性。
特殊领域场景
- 医疗诊断:根据患者症状描述提供诊断建议,AI并非专业医生,容易出错。风险等级极高,要明确告知这不是专业建议,同时借助医疗数据库辅助。
- 法律咨询:解释特定法条的适用范围时,AI可能会给出不准确的信息。风险等级高,需要限定司法辖区,准确引用法律条文。
- 金融预测:给出具体股票买卖建议,风险极大。风险等级极高,必须要有风险提示,同时说明历史回报率等信息。
六、怎么减少AI幻觉?
技术方案
- 联网搜索:让AI在生成内容时,通过联网搜索最新、最准确的信息,降低出现幻觉的概率。
- 双AI验证或大模型协作:利用两个AI或者多个大模型相互验证,交叉检查,提高内容的准确性。
- 提示词工程:比如明确知识边界,或者给出对抗性提示,引导AI生成更准确的内容。
用户应对方法
- 三角验证法:多找几个AI或者权威信息来源,对比它们的回答,这样能发现并排除错误信息。
- 警惕“过度合理”的回答:有些回答看似完美无缺,但可能是AI编造的,所以不能盲目相信。
- 理解并利用幻觉:虽然AI幻觉是个问题,但它也能带来一些创意灵感,可以适当加以利用。
七、AI幻觉有啥创造力价值?
别以为AI幻觉只有坏处,它在某些方面还有创造力价值呢!
科学发现
在科研领域,AI幻觉启发了新型蛋白质结构设计,为科学突破提供了新的思路。
文艺与设计
在文艺创作和设计领域,AI幻觉就像是一个“超现实引擎”,能打破人类常规的思维模式,给创作者们带来意想不到的创意灵感。
娱乐与游戏
在娱乐和游戏行业,AI幻觉可以用来生成虚拟环境、设计角色、创作故事和对话,还有编写诗歌,让玩家的沉浸感更强。
技术创新
从技术角度看,AI幻觉也能带来创新。通过研究它,人们把这个原本被视为“缺陷”的现象转化为一种方法论,比如利用它提升自动驾驶系统的识别精度。
AI幻觉虽然是AI发展过程中出现的一个问题,但只要我们深入了解它,找到应对方法,就能让AI更好地为我们服务,同时还能挖掘出它潜在的价值。