2024.12.20

qing meng 发布于 2024-12-20 38 次阅读


大模型幻觉

1.事实性幻觉

1.模型生成的内容与可验证的现实世界的知识并不一致

2.事实不一致 :模型回复与现实世界的信息相矛盾

3.事实捏造:模型回复的是压根没有的没有办法去复现和考证的信息

2.忠实性幻觉

1.上下文不一致:模型输出的与上下文的信息严重不符合

2.指令不一致:模型输出偏离了用户的指令

3.逻辑不一致:推理的步骤和最终的答案之间存在着一个矛盾的现象

3.幻觉产生的原因

1.领域知识缺陷

2.过时的事实知识

3.训练策略缺陷导致的信息损失或暴露偏差

暴露偏差

在大模型训练中,暴露偏差是指模型在训练阶段和实际应用阶段所面临的数据分布不一致所导致的问题。

4.大模型幻觉的解决措施

2024.12.20插图

1.后处理:

后处理可以在很多领域应用,比如制造业、数据处理、图像渲染等。在这些领域中,后处理的作用是对初步的结果进行优化或调整,以确保最终结果达到预期的标准或效果。

2.知识图谱问答

知识图谱问答,就是基于这张知识网络来回答我们的问题。当我们向系统提出一个问题时,系统会在知识图谱中找到与问题相关的实体和关系,然后整合这些信息来给出答案。

3.文档召回

文档召回,简单来说,就是系统根据你的需求(比如你想找关于人工智能的书),在大量的文档中找到与你需求相关的文档,并把它们呈现出来给你。

2024.12.20插图1

技术

数据清洗与去重是大模型训练中的重要步骤,确保输入数据的质量和多样性,从而提高模型性能。以下是详细解释:


1.什么时数据清洗

数据清洗是指对训练数据进行预处理,去除或修正数据中的噪声、不一致或无关内容,确保数据的准确性和有效性。

数据清洗的目标

  • 删除错误或重复的数据。
  • 标准化数据格式,保证一致性。
  • 去除无意义或有害的样本,如乱码、违法内容等。
  • 提升数据的可用性,使模型能够从中学习有效特征。

常见的数据清洗步骤

  1. 去除无效数据
    • 删除空行、乱码、非语言内容(如纯符号或图片 URL)。
    • 剔除不完整的样本,例如缺少关键字段的文本。
  2. 去除噪声
    • 噪声可以是标点符号错误、多余的 HTML 标签、脚本代码等。
    • 使用正则表达式或预处理工具(如 NLTK、spaCy)去除多余内容。
  3. 标准化处理
    • 统一文本的编码格式(如 UTF-8)。
    • 处理大小写,例如将所有文本转换为小写(除非大小写有特定意义)。
    • 规范化标点符号、日期格式等。
  4. 过滤低质量内容
    • 使用预定义规则或分类器过滤低质量数据,例如:
      • 含有敏感词汇的数据。
      • 特定长度阈值以下的文本(如过短的句子)。
      • 拼写错误或语法混乱的句子。
  5. 语言检测
    • 针对多语言数据集,检测并筛选目标语言的数据,避免训练数据被无关语言污染。

2. 什么是去重?

去重是指识别并移除训练数据中的重复样本,防止模型多次看到相同内容,从而避免以下问题:

  • 过拟合:模型可能过于依赖重复数据中的模式。
  • 偏见:重复数据可能导致某些特定类型的样本被过度学习。
  • 浪费计算资源:重复数据无助于模型性能提升,却占用存储和计算能力。

常见的去重方法

  1. 直接匹配法
    • <直接通过对数据实例进行特征提取与匹配判断是否重复。>
      • 基于字符串完全匹配移除重复内容。
      • 适合处理较小规模的结构化数据集。
  2. 哈希方法
    • <哈希方法是一种将输入数据(如字符串、数字等)通过某种函数(称为哈希函数)转换为固定长度值(通常是整数或字符串)的技术。>
      • 对每条数据生成唯一哈希值(如 MD5、SHA-256),快速识别相同内容。
      • 适合处理大规模数据。
  3. 模糊匹配法
    • <模糊匹配法是一种在不要求完全精确匹配的情况下,根据相似程度或某些特定规则来进行比较和匹配的方法。>
      • 使用编辑距离(如 Levenshtein 距离)计算相似性,删除相似内容。
      • 适用于轻微变化的重复内容(如不同的标点或拼写错误)。
  4. 特征向量法
    • <特征向量法是一种数学和计算方法,通常用于解决与特征值和特征向量相关的问题。特征向量法的核心是基于矩阵的特征值分解或奇异值分解(SVD),分析数据的主要模式或重要特性。>
      • 将文本转化为特征向量(如 TF-IDF、句子嵌入),根据向量的余弦相似度去重。
      • 应用于复杂文本或近义重复句子。
  5. 自监督去重
    • <自监督去重是一种基于自监督学习的去重方法,通过模型从数据本身学习特征和模式,无需人工标注数据来判断重复。自监督去重利用自监督生成的高质量特征表示,结合相似性度量和聚类技术,实现对大规模数据的去重任务。这种方法特别适用于无标签或难以标注的数据场景。>
      • 对模型生成的输出与训练数据进行比对,避免模型学习自身生成的内容。

3. 数据清洗与去重的技术挑战

  • 规模问题:大模型需要处理 TB 或 PB 级数据,传统方法可能难以扩展。
  • 模糊重复:数据中的重复可能并非完全一致(如语序改变、近义词替换)。
  • 领域多样性:多领域、多模态数据增加了清洗与去重的复杂性。
  • 多语言支持:处理多语言数据时,需确保每种语言的清洗策略有效。
  • 边界判定:某些内容可能介于噪声与有用信息之间(如低质量但有意义的评论)。

4. 工具与框架

以下工具和框架可以帮助进行数据清洗与去重:


  • 语言处理工具
    • NLTK、spaCy、Stanford NLP:用于语法解析、标点处理、语言检测等。
  • 数据处理工具
    • Pandas、Dask:适用于结构化数据的处理与去重。
  • 大规模计算框架
    • Apache Spark:支持分布式数据清洗与去重。
  • 自定义脚本
    • 正则表达式、Python 脚本:用于处理特定数据清洗任务。
  • 专用库
    • Simhash、FuzzyWuzzy:用于文本相似性检测与模糊匹配。

5. 实现示例

6. 数据清洗与去重的重要性

  1. 提升模型性能:减少无关信息,使模型专注于学习有效特征。
  2. 节省计算资源:避免重复计算和存储浪费。
  3. 改善用户体验:确保生成的结果多样化,避免输出重复内容。