0%

架构图

alt text

背景

大数据与AI的关系

大数据让人工智能变得更加智能,
人工智能让大数据变得更有价值。

  1. 大数据为AI提供“燃料”
    • 训练基础:深度学习模型依赖大量数据训练,数据量直接影响模型性能。
    • 多样性增强:结构化与非结构化数据的融合(如文本、图像、传感器数据)帮助AI捕捉复杂模式。
    • 数据质量提升:清洗与标注技术优化减少AI模型的“垃圾输入”问题。
  2. AI为大数据提炼价值
    • 智能分析:AI通过深度学习从数据中自动发现非线性关系。
    • 实时决策:结合流数据处理,AI实现秒级甚至毫秒级响应。
    • 数据生成与增强:生成式AI可合成虚拟数据,缓解数据稀缺问题。

AI数字化转型路线

  1. 基础设施云化与数据资产化
    核心目标:构建数字化底座,让数据成为核心资产
    • 云原生架构:采用混合云、私有云,提升弹性算力(如中信证券与阿里云合作搭建金融云)。
    • 数据中台:整合交易、客户、市场数据,形成统一数据资产(如华泰证券的“数据工厂”)。
    • AI 算力储备:部署 GPU/TPU 集群,支持大模型训练(如国泰君安自建 AI 算力中心)。
  2. 业务智能化与自动化
    核心目标:用 AI 重构核心业务流程,提升效率与体验
    • 智能投研:AI 辅助研报生成、舆情分析(如中金公司“AI 策略报告”)。
    • 智能投顾:个性化资产配置(如广发证券“贝塔牛”)。
    • 智能风控:实时监测异常交易(如东方证券 AI 风控系统)。
    • RPA+AI:自动化运营(如东吴证券合同审核效率提升 80%)。
  3. 服务场景化与生态化
    核心目标:从“单一金融产品”转向“场景化服务生态”
    • 嵌入场景:与互联网平台合作(如华泰证券与同花顺、雪球合作)。
    • 开放 API:让客户、第三方开发者接入(如中信证券 CAP 开放平台)。
    • 数字员工:AI 客服、AI 投顾(如中信证券“数字人助理”)。

层级与组件介绍

数据层

  • 核心作用:为上层提供多模态数据支持,以及各种形态数据的存储、管理、访问
  • 关键组件:
    • 流式数据载体:Kafka(消息队列)
    • 结构化数据:Hive(批处理结果)。
    • 非结构化数据:多模态数据湖(图像视频/音频/文本/文件等)。
    • 搜索工具:ES(全文检索),Milvus(向量管理与检索)。
  • 典型应用:模型训练的数据来源、智能体的知识库基础。

多模态数据湖

以Deep Lake为例,其核心功能包括:

  • 多模态数据支持:
    支持图像、视频、音频、文本、PDF、DICOM(医学影像)等数据类型,统一存储为张量格式(如 NumPy 数组),兼容 PyTorch/TensorFlow 等框架。
  • 版本控制
    类似 Git 的分支管理(commit/checkout)、标签功能和合并操作,便于团队协作和实验回溯。
  • 高效查询与检索
    • TQL 查询引擎:支持语义搜索和过滤(如 ds.filter(lambda x: x.label == ‘cat’))。
    • 向量搜索:集成 LangChain/LlamaIndex,适用于 LLM 应用的嵌入检索。
  • 性能优化:
    • 流式加载:惰性加载数据,减少训练等待时间。
    • 原生压缩:图像/视频保持压缩格式,节省存储空间。

向量数据库

以Milvus(Faiss基础上开发)为例,其搜索功能包括:
KNN 搜索:查找最接近查询向量的前 K 个向量。
过滤搜索:在指定的过滤条件下执行 ANN 搜索。
范围搜索:查找查询向量指定半径范围内的向量。
混合搜索:基于多个向量场进行 ANN 搜索。
全文搜索:基于 BM25 的全文搜索。
Rerankers:根据附加标准或辅助算法调整搜索结果顺序,完善初始 ANN 搜索结果。
获取:根据主键检索数据。
查询:使用特定表达式检索数据。

整体数据流向

alt text

基建层

  • 核心能力:行业垂直模型开发与管理、知识库、AI应用程序框架、实时应用框架。
  • 关键模块:
    • 模型相关:大语言模型、Embedding生成/检索、模型蒸馏(轻量化)。
    • 知识管理:检索增强(RAG)、知识库构建。
    • 应用程序框架:LangChain(链式应用框架),Dify(链式应用框架的低代码平台),AutoGPT(自主任务执行),MetaGPT(多智能体协作框架)
  • 目标:支持从通用大模型到垂直领域微调的完整流程。

行业垂直模型

本人对模型了解不多,只给出一些可能方向

  • 金融大语言模型(LLM)
    • 微调方式:
      • 指令微调(如“生成某股票的深度分析”)
      • RLHF(人类反馈强化学习)确保合规性(如避免误导性投资建议)
    • 精调:数百条高质量样本,强化某些注意力头
    • 核心能力:
      • 金融文本理解(如财报摘要、行业趋势分析)
      • 投资逻辑推理(如“为什么某股票近期下跌?”)
      • 合规审核(如识别潜在违规表述)
  • 语音模型(ASR+TTS+NLP)
    • 语音识别(ASR):高精度金融术语识别(如“市盈率”“量化宽松”)。
    • 语音合成(TTS):自然语音播报(如实时行情播报、AI投顾交互)。
    • 语音NLP:
      • 客户语音查询理解(如“帮我查一下宁德时代的研报”)
      • 情绪分析(如识别客户投诉或投资焦虑)
  • 多模态模型(视觉+文本)
    • 图表理解:解析K线图、财报图表、行业趋势图。
    • 文档OCR:扫描合同、研报、公告,提取关键信息。
    • 视频分析:解读财经新闻视频、路演直播内容。

RAG

RAG(Retrieval-Augmented Generation,检索增强生成)是AI领域的一项前沿技术,旨在通过结合外部知识检索与生成式模型的能力,提升大型语言模型(LLM)在知识密集型任务中的准确性和时效性。
alt text
RAG通过以下几个关键阶段工作:

  • 数据准备:
    • 数据提取
      • 数据加载:包括多格式数据加载、不同数据源获取等,根据数据自身情况,将数据处理为同一个范式。
      • 数据处理:包括数据过滤、压缩、格式化等。
      • 元数据获取:提取数据中关键信息,例如文件名、Title、时间等 。
    • 文本分割(Chunking):
      文本分割主要考虑两个因素:1)embedding模型的Tokens限制情况;2)语义完整性对整体的检索效果的影响。一些常见的文本分割方式如下:
      • 句分割:以”句”的粒度进行切分,保留一个句子的完整语义。常见切分符包括:句号、感叹号、问号、换行符等。
      • 固定长度分割:根据embedding模型的token长度限制,将文本分割为固定长度(例如256/512个tokens),这种切分方式会损失很多语义信息,一般通过在头尾增加一定冗余量来缓解。
    • 向量化(embedding):
      向量化是一个将文本数据转化为向量矩阵的过程,该过程会直接影响到后续检索的效果。目前常见的embedding模型如表中所示,这些embedding模型基本能满足大部分需求,但对于特殊场景(例如涉及一些罕见专有词或字等)或者想进一步优化效果,则可以选择开源Embedding模型微调或直接训练适合自己场景的Embedding模型。
  • 检索阶段:
    • 文本:
      • 利用传统信息检索模型(如BM25)从外部知识库(全文搜索数据库)中检索与用户查询相关的文档片段。
      • 使用词向量,与传统信息检索模型类似
      • 利用上下文相关模型(如BERT)生成句向量进行向量检索
    • 多媒体与文件:用户提问时,问题被实时向量化,通过近似最近邻(ANN)算法(如HNSW)快速匹配最相关的知识片段
  • 生成阶段:将检索到的上下文输入LLM,生成基于实际知识的回答,而非仅依赖模型预训练的参数化知识。

检索阶段的优化途径:

  1. 查询转换。使用 LLM 作为推理引擎来修改用户输入以提高检索质量。
  2. 分层索引。摘要和正文分开索引,先快速检索摘要,再检索正文
  3. 假设性问题和 HyDE。LLM 为每个块生成一个问题,并将这些问题嵌入到向量中,在运行时对这个问题向量的索引执行查询搜索(将块向量替换为索引中的问题向量),然后在检索后路由到原始文本块并将它们作为 LLM 获取答案的上下文发送。这种方法提高了搜索质量,因为与实际块相比,查询和假设问题之间的语义相似性更高。还有一种叫做 HyDE 的反向逻辑方法——你要求 LLM 在给定查询的情况下生成一个假设的响应,然后将其向量与查询向量一起使用来提高搜索质量。
  4. 检索结果增强。两种选择:一种是将检索出来的较小的文本块的上下文一并返回;另一种是如果检索出的多个小块归属于同一个大块,则将这个大块整个返回
  5. 融合检索或混合搜索:同时使用传统全文搜索和向量检索召回结果,通过Reciprocal Rank Fusion 算法进行结果的重排序并且返回。
  6. 重排(reranking)和过滤(filtering)根据相似性分数、关键字、元数据过滤掉结果,或使用其他模型(如 LLM)、sentence-transformer 交叉编码器,Cohere 重新排名接口或者基于元数据重排它们。

常见的Embedding生成器

模型名称 类型 支持语言 最大Token 特点 适用场景
OpenAI text-embedding-3-small 文本 多语言 8192 轻量级,检索任务平均分61.0,适合快速验证 通用文本检索、RAG基础版
OpenAI text-embedding-3-large 文本 多语言 8192 高精度,检索任务平均分64.6,延迟较高 高精度语义匹配、复杂问答
BGE-M3 文本 194种 8192 多语言榜首,支持密集/稀疏/多向量检索,长文本处理强 多语言知识库、长文档解析
Sentence-BERT 文本 多语言 512 句子级嵌入,语义相似度计算精准,开源易部署 短文本匹配、推荐系统
ResNet50 图像 - - 图像特征提取老将,适合以图搜图 电商图片检索、视频帧分析
PANNs 音频 - - 预训练音频模型,支持音乐分类、语音检索 音频内容识别、智能客服录音分析
CLIP/SigLIP 多模态 多语言 77(文本) 文图互搜,SigLIP优化了zero-shot效果,适合跨模态搜索 广告创意检索、多模态推荐
Word2Vec 文本 单语言 - 经典词向量,训练成本低,但无法处理一词多义 简单语义分析、教学演示

词向量转句向量方法:

  • ​短文本​:优先尝试BERT的[CLS]向量或SIF加权
  • ​长文档​:使用LSTM分层编码或分段+池化
  • ​资源受限​:TF-IDF加权平均+PCA降维
    ​* 领域适配​:在目标数据上微调Sentence-BERT

应用程序框架对比

维度 LangChain Dify AutoGPT MetaGPT
产品形态 Python/JS代码库(需编程) 可视化低代码平台(BaaS+LLMOps) 自主任务执行的AI Agent框架
抽象层级 底层模块化工具链(高灵活性) 高度封装(开箱即用) 任务自动化引擎(目标驱动) 高层工作流编排(角色分工/SOP标准化)
目标用户 开发者/技术团队(需编程能力) 全团队协作(非技术成员可参与) 个人/企业(自动化需求) 企业开发者/AI工程团队(需复杂任务自动化)
模型支持 需手动适配接口(如HuggingFace) 一键切换数百个模型(统一API) 默认依赖GPT系列,社区扩展有限 依赖大模型API(如GPT-4生成代码/规划)
扩展性 高(可集成任意API/数据库) 依赖插件市场,企业功能完善 任务分解能力强,但生态较封闭 模块化设计(可自定义角色/工具链)
核心优势 灵活性高,适合复杂系统 开发效率极快,企业级支持完善 自动化任务执行 标准化协作流程(显式分解复杂任务)
主要短板 学习曲线陡峭,维护成本高 定制能力有限 资源消耗大,稳定性待提升 成本敏感(多Agent调用放大API开销)

实时性支持

实时性支持此处列举得比较简单,但其实施通常是对整个链路的改造,包括以下几个方面:
1. AI agent感知层的实时触发

  • 事件驱动架构:
    • 采用消息队列(如Kafka/Pulsar)或边缘设备事件触发器(如IoT传感器),实现毫秒级事件感知。
    • 示例:工业质检Agent通过摄像头帧级事件实时捕捉产品缺陷。
  • 流式数据处理:
    • 集成流计算框架(Flink/Spark Streaming),对输入数据实时清洗与特征提取。
    • 挑战:高并发场景下需平衡吞吐量与延迟(如自动驾驶需<100ms响应)。
  1. RAG流式更新知识
    • 动态索引构建:
      • 增量索引技术(如Elasticsearch的_update_by_query)支持文档级实时更新,避免全量重建索引的延迟。
      • 优化点:结合向量数据库(Milvus/Pinecone)的相似度检索,确保新知识即时生效。
    • 多级缓存策略:
      • 热点知识缓存在内存(Redis),冷数据下沉至磁盘,平衡实时性与成本。
      • 案例:金融风控Agent实时同步监管政策变更至缓存层。
  2. 工具层的实时性支持
    • 低延迟工具调用:
      • 工具API设计遵循轻量化原则(如gRPC替代REST),预加载工具上下文减少冷启动延迟。
      • 示例:电商客服Agent调用库存API时,通过HTTP长连接保持会话状态。
    • 异步执行与超时熔断:
      • 工具调用采用异步协程(如Python asyncio),超时机制(如Hystrix)避免阻塞主线程。
  3. 数据层的实时性支持
    • 实时数仓与OLAP优化:
      • 使用实时OLAP引擎(ClickHouse/Doris)或时序数据库(InfluxDB),支持亚秒级聚合分析。
      • 技术选型:Lambda架构兼顾实时流(Flink)与批处理(Hive)数据一致性。
    • 分布式状态管理:
      • 通过分布式快照(如Flink Checkpoint)保证Agent状态跨节点实时同步,避免决策偏差。

底层应用

底层应用是AI Agent的工具模块的一部分。由于上下文提示的影响,Agent也可能无法导向正确的知识,甚至产生知识幻觉。再加上缺乏语料库、训练数据以及针对特定领域和场景的调整,在专注于特定领域时,Agent的专业知识也会受到限制。专业化工具能让 LLM 以可插拔的形式增强其专业知识、调整领域知识并更适合特定领域的需求。

  • 业务场景:
    • 大数据应用:客户画像、数据血缘分析。
    • 垂直业务:智能客服、精准营销、风险处置。
  • 特点:直接解决具体业务问题,依赖下层技术支撑。

AI Agent智能体

alt text

  • 架构核心:自主决策与协作系统。
  • 关键设计:
    • 单智能体:包含感知→决策→执行的闭环(如零售智能体的推荐逻辑)。
    • 多智能体系统:通过通信模块协作(如风控+量化智能体联合决策)。

智能体组成

AI Agent(智能代理)是一个能够感知环境、自主决策并执行动作的智能系统,其核心组成和实现方式通常包括以下部分:
1. 感知模块(Perception)

  • 作用:从环境中获取信息(如传感器数据、用户输入、网络数据等),并将其转化为结构化数据供其他模块处理。
  • 实现方式:
    • 传感器:物理设备(如摄像头、麦克风)或软件接口(API、网页爬虫)。
    • 自然语言处理(NLP):解析文本或语音输入(如BERT、GPT)。
    • 计算机视觉:处理图像/视频(如CNN、YOLO)。
    • 数据预处理:清洗、归一化、特征提取等。
  1. 决策模块(Reasoning/Planning)
    • 作用:基于感知信息、内部知识库和目标,制定行动策略或生成响应。
    • 实现方式:
      • 规则引擎:基于预定义规则(如专家系统)。
      • 机器学习模型:通过强化学习(RL)、深度学习(DL)或符号逻辑推理(如Prolog)。
      • 规划算法:如A*搜索、蒙特卡洛树搜索(MCTS)用于路径规划或任务分解。
      • 大语言模型(LLM):如GPT-4生成对话或决策建议。
方法 优势 局限性 适用场景 技术依赖
规则引擎 透明、易解释 灵活性低,规则维护成本高 结构化流程(如审批) 专家知识库
规划算法 支持多步骤任务分解 计算复杂,需环境模型 机器人导航、供应链优化 图搜索算法、动态规划
强化学习 自适应动态环境 训练成本高,奖励设计困难 游戏AI、实时控制 深度神经网络、模拟环境
大模型推理 泛化能力强,自然语言交互 可能产生幻觉,算力需求高 开放域问答、创意生成 LLM、RAG、工具调用API

基于大模型的决策方法:

  • ​ReAct框架​:交替执行推理(Reasoning)和行动(Acting),例如:
    1
    2
    3
    4
    5
    while not goal_achieved:
    state = perceive() # 感知环境
    thought = llm_reason(state) # 生成推理
    action = decide(thought) # 选择动作
    execute(action) # 执行
    ​* 思维链(CoT)​​:引导LLM分步推理,提升复杂任务解决能力.例如: 用户:某个城市的 GDP 是否比全国平均值高?Agent(CoT):首先获取该城市的 GDP 数据 -> 获取全国 GDP 平均值 -> 进行比较 -> 生成答案。
  1. 记忆模块(Memory)
  • 作用:存储短期/长期信息,支持上下文理解和学习。
  • 实现方式:
    • 短期记忆:缓存当前会话的上下文(如对话历史)。
    • 长期记忆:知识图谱、向量数据库(如FAISS)、SQL数据库。
    • 检索增强生成(RAG):结合外部知识库提升回答准确性。
  1. 执行模块(Action)
  • 作用:将决策转化为具体行动,影响环境或用户。
  • 实现方式:
    • 物理执行器:机器人控制电机、机械臂。
    • 软件接口:调用API(如发送邮件、控制智能家居)。
    • 自然语言输出:语音合成(TTS)或文本生成(如ChatGPT)。
  1. 学习模块(Learning)
  • 作用:通过反馈优化行为(在线学习或离线训练)。
  • 实现方式:
    • 监督学习:标注数据训练模型(如分类任务)。
    • 强化学习(RL):通过奖励机制调整策略(如AlphaGo)。
    • 联邦学习:分布式数据下的隐私保护学习。
  1. 通信模块(Communication)
  • 作用:与用户、其他Agent或系统交互。
  • 实现方式:
    • 自然语言交互:基于NLP的对话系统。
    • 协议接口:HTTP/RPC、消息队列(如MQTT)。

Agent性能衡量

常见评估指标:

  • 任务成功率(Task Completion Rate)
  • 工具调用准确率(Tool Usage Accuracy)
  • 推理质量(Reasoning Quality)
  • 用户满意度(User Satisfaction)

多智能体

多智能体系统(Multi-Agent System, MAS)是由多个AI Agent组成的协作网络,这些Agent通过通信和协同工作,共同完成复杂任务。多智能体的核心优势在于:
1. 分工协作:不同Agent专精于特定任务(如搜索、数据分析、代码生成等),通过任务拆解和分配实现高效协同。
2. 复杂任务处理:单个Agent难以完成的复杂任务(如全域营销、供应链优化),可通过多Agent协作分阶段解决。
3. 适应性更强:动态环境中,多Agent系统能通过实时交互调整策略,例如无人机编队或金融风控场景。

架构设计

  • 分层协作:参考Manus的三大模块:
    • 规划模块:拆解任务并分配子任务(如将“旅游保险分析”拆解为PDF解析、数据对比等步骤)。
    • 执行模块:调用专用Agent(如Content Agent生成报告)。
    • 验证模块:审核结果准确性后交付用户。
  • 通信协议:采用标准化框架(如InterAgent协议)确保Agent间互操作性,类似区块链中的智能合约协调。

开发框架与工具

  • 开源平台:
    • AutoGen:支持多Agent对话和人类参与,适合构建聊天机器人协作系统。
    • CrewAI:强调流程化任务分配,适合顺序性强的场景(如自动发邮件流程)。
    • MetaGPT:基于角色设计的框架,模拟软件开发团队分工。
  • 商业化应用:如Manus的付费多Agent服务,或微盟的“数字员工”企业级解决方案。

案例

数据分析智能体

alt text

以下场景为deepseek生成。(从侧面体现了LLM的决策能力)
提示词:请你设计一个数据分析智能体,用对话的形式,实现“描述性分析”与“探索性分析”两种分析场景。能用到的工具有:数据地图,数据卡片平台,归因分析平台,客户画像系统,数据血缘,埋点平台、客群分析平台等

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
数据分析智能体对话设计
1. 启动对话(意图识别)
用户:我想分析最近三个月的销售数据。
智能体:
您好!我将协助您完成分析。请问您需要哪种分析类型?
* 描述性分析:快速了解数据分布(如均值、趋势、异常值)。
* 探索性分析:深入挖掘潜在模式(如归因、客群差异)。
2. 描述性分析场景(基础统计与可视化)
用户:先做描述性分析。
智能体:
已通过数据地图定位到销售数据集,包含订单量、销售额、地区等字段。以下是关键统计结果:
a. 数据卡片平台生成摘要:
* 销售额均值:x=120万(环比+15%)
* 订单量分布:华东占比45%(异常值:3月15日单日订单激增200%)
b. 可视化建议:
* 折线图(时间趋势)
* 热力图(地区销售密度)
是否需要进一步拆分维度(如按产品类别)?
3. 探索性分析场景(深度挖掘)
用户:为什么华东地区销售额突增?
智能体:
正在调用工具链进行多维度归因:
a. 归因分析平台:
* 关键因子:促销活动(贡献度62%)、新客增长(25%)
b. 客户画像系统:
* 新客特征:25-35岁女性,偏好高单价品类(通过埋点平台追踪行为路径)
c. 数据血缘验证:
* 活动数据与销售数据链路完整,无ETL异常
建议下一步:
* 通过客群分析平台对比华东与其他地区用户画像差异
* 需检查促销活动ROI吗?
4. 动态交互与工具调度
用户:我想看促销活动的转化漏斗。
智能体:
已从埋点平台提取用户行为事件,生成漏斗图:
* 曝光→点击转化率:12%(低于平均水平15%)
* 点击→下单转化率:8%(行业基准7%)
异常定位:
* 曝光环节流失率高,建议检查广告投放渠道(数据血缘显示部分渠道数据缺失)
5. 总结与自动化建议
智能体:
分析完成!是否需要:
a. 保存当前分析流程至数据卡片平台供复用?
b. 设置自动化监控(如销售额异动触发归因分析)?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
flowchart LR
%% 分层架构
subgraph 用户交互层
A[自然语言输入] --> B[对话引擎]
B --> C[可视化卡片-图表/表格/摘要]
C --> D[交互式追问]
end

subgraph 分析服务层
B --> E{分析类型路由}
E --> |描述性分析| F[查询引擎]
E --> |探索性分析| G[归因分析平台]
E --> |探索性分析| H[客群分析平台]
F --> I[查询可视化平台]
G --> J[客户画像系统]
end

subgraph 数据治理层
I & G & H --> K[数据地图]
K --> L[数据湖]
L --> M[结构化数据]
L --> N[非结构化数据]
M --> O[数据血缘]
end

subgraph 支撑系统
Q[元数据管理] --> K
R[权限控制] --> L
S[查询缓存] --> F
end

%% 关键数据流
F -.-> |SQL/API| L
I -.-> |渲染图表| C
P -.-> |实时事件流| H
O -.-> |血缘校验| G
J -.-> |生成摘要| C

可能的方向

  1. 员工效率提升
    • 重复性工作:数据录入、报表生成、邮件分类等规则明确的流程。
    • 预测分析:基于历史数据的销售预测、风险评估。
    • 辅助性数据探索工作:ChatBI
    • 实时响应:客服聊天机器人(如回答常见问题)。
  2. 信息处理与生成
    • 内容创作:生成文本(研报、市场简报)、图像/视频合成(研报文生图)。
    • 事件驱动分析:识别突发事件对行业的影响(如疫情对航空股冲击)。
    • 知识检索:快速搜索并整合信息(投研问答)。
  3. 风险管理与合规
    • 异常交易监测:识别操纵市场、老鼠仓等模式(如监测账户关联性)。
    • 反洗钱(AML):AI分析资金流水,标记可疑交易
  4. 客户服务与营销
    • 智能投顾:根据风险问卷生成标准化组合。
    • 精准营销:通过用户行为分析推荐产品(如低风险客户推国债逆回购)。
    • 合规质检:AI监听客服通话,实时提示违规话术(如承诺收益)。

公开招募工具
✓✓✓ = 最多6星 | ✓✓ = 最多5星 | ✓ = 最多4星

词条+词条

词条组合 支援 狙击 远程位 位移 减速 控场 召唤 削弱 爆发 费用回复 近战位 治疗 快速复活 群攻 生存 防护 输出
​支援​ - ✓✓✓ ✓✓✓ ✓✓ ✓✓✓ ✓✓ ✓✓✓
​狙击​ - ✓✓ ✓✓
​远程位​ ✓✓ - ✓✓ ✓✓
​位移​ - ✓✓ ✓✓✓ ✓✓ ✓✓
​减速​ ✓✓✓ ✓✓ - ✓✓
​控场​ ✓✓✓ ✓✓✓ ✓✓ - ✓✓ ✓✓ ✓✓ ✓✓✓
​召唤​ ✓✓ -
​削弱​ - ✓✓ ✓✓ ✓✓
​爆发​ ✓✓ - ✓✓
​费用回复​ ✓✓ ✓✓ -
​近战位​ ✓✓ -
​治疗​ - ✓✓
​快速复活​ ✓✓ ✓✓ -
​群攻​ ✓✓✓ ✓✓✓ ✓✓ ✓✓ - ✓✓
​生存​ ✓✓ - ✓✓
​防护​ ✓✓✓ ✓✓ ✓✓ ✓✓ ✓✓ - ✓✓
​输出​ ✓✓ ✓✓ ✓✓ ✓✓ -

词条+职业

词条组合 输出 减速 快速复活 召唤 支援 控场 爆发 位移 狙击 治疗 防护 削弱 生存 远程位
​先锋​ ✓✓
​术师​ ✓✓✓ ✓✓ ✓✓ ✓✓
​辅助​ ✓✓ ✓✓ ✓✓ ✓✓ ✓✓ ✓✓
​重装​ ✓✓ ✓✓✓ ✓✓ ✓✓
​狙击​ ✓✓✓ ✓✓ -
​医疗​
​特种​ ✓✓ ✓✓✓ ✓✓ ✓✓ ✓✓ ✓✓✓
​近卫​ ✓✓

RAG OR 微调

检索增强生成(RAG)​是一种通过外部知识库增强大模型输出的技术架构。其核心思想是将领域专业知识存储在向量数据库中,在生成回答时先检索相关文档片段,再将检索到的内容与用户问题一起输入大模型生成最终回答。RAG的主要优势在于实现成本低、知识更新便捷且能有效避免模型幻觉问题。在证券行业应用中,RAG系统可以通过实时接入市场数据和研究报告,确保输出的分析建议基于最新信息。国金证券的实践表明,RAG在数据与上下文相关的情况下非常有效,例如在解释特定金融数据时,同时能产生比基础模型更简洁的响应。然而,RAG也存在局限性,如输入token数量会增加提示信息量,且输出token数量往往更详细且更难精确控制。

模型微调则是通过领域数据继续训练预训练大模型,使其内部参数适应目标领域。微调技术可分为全参数微调和参数高效微调(如LoRA)两类。微调的优势在于能够使模型真正”理解”证券领域知识,生成更专业、更简洁的输出。研究显示,微调非常有效,能提供在特定领域学习新技能的机会,例如改进投资决策分析或根据市场模式优化投资组合建议。国金证券的技术探索表明,采用LoRA等参数高效微调方法,仅需调整0.1%左右的参数即可显著提升模型在证券任务上的表现。但微调也面临挑战,包括需要大量工作来准备训练数据,以及可能导致模型出现”灾难性遗忘”现象(即在学习新任务后丧失原有知识)。

技术特性 检索增强生成(RAG) 模型微调(Fine-Tuning)
实现复杂度 相对较低,主要构建知识库和检索系统 较高,需要准备训练数据和计算资源
知识更新 实时便捷,只需更新知识库 需要重新训练或增量训练
输出质量 依赖检索结果,可能不够流畅 更专业、简洁的输出
计算成本 推理时成本较高(长上下文) 训练成本高,推理成本低
适用场景 知识密集型、需最新数据的任务 需要深度领域理解的任务

证券行业大模型的构建往往需要混合使用RAG和微调技术,以发挥各自优势。
结合外部知识库和提示工程对通用大模型调优的技术方案最适合证券行业特点。这种混合方法在保留良好对话效果的同时,训练成本非常低,能够有效避免模型微调后的灾难性遗忘问题以及减少模型出现事实错误(幻觉)的情况。
在实际应用中,证券机构可根据具体场景需求选择技术路线组合:

  • 对于需要实时市场数据的交易分析场景,可侧重RAG架构;
  • 对于需要深度行业知识的研究报告生成,可采用微调+RAG的组合;
  • 对于合规审查等专业化任务,则可依赖经过充分微调的领域专用模型

数据准备与处理:构建高质量金融语料库

构建证券行业垂直大模型的基础在于准备高质量、大规模的金融领域专业数据。

数据类型

  • 结构化数据
    • 市场行情数据
    • 公司财务数据
    • 交易记录
  • 非结构化数据
    • 研究报告
    • 财经新闻
    • 公司公告
    • 分析师评论
    • 金融论坛讨论等文本内容
数据类型 数据示例 处理难点 解决方案
市场交易数据 股价、成交量、融资融券数据 高频、时序性强 时间序列标准化、异常值检测
公司披露文件 年报、招股书、重大资产重组公告 格式复杂、专业术语密集 PDF解析、关键信息抽取
研究报告 券商行业分析、公司深度报告 含图表、观点隐含 结构化解析、观点挖掘
财经新闻 市场快讯、政策解读 质量参差不齐、观点混杂 来源可信度评估、情感分析
互动平台数据 投资者问答、股吧评论 非正式表达、噪声大 slang处理、情绪识别

数据处理

数据预处理是确保模型训练质量的关键环节,主要包括清洗、过滤和去重三个步骤。

  • 清洗过程需要处理文本编码问题、特殊字符、无关广告内容等噪声;
  • 过滤阶段则依据数据质量指标去除低质内容;
  • 去重操作确保语料库中不存在高度相似或重复的文档。

证券行业数据预处理还需特别关注时序性处理,因为金融市场规则和公司状况会随时间变化,过时信息可能误导模型产生错误知识。例如,某上市公司历史上的财务造假事件可能已被记录在网络文本中,但经过整改后当前该公司可能已合规经营,这就需要在大模型知识库中明确标注信息的时间有效性。

领域名词

证券行业充斥着专业术语(如”可转换债券”、”市盈率”、”量化宽松”等)和行业特定表达方式,常规的自然语言处理工具可能无法准确分割或理解这些内容。在构建语料库时,需要采用结合金融词典的分词技术,并可能需要对通用语言模型进行领域适配性微调,以提高文本处理的准确性。

模型训练与优化策略

参数高效微调技术

LoRA(Low-Rank Adaptation)的工作原理是在原始模型参数旁添加低秩分解的适配矩阵,训练时固定原始参数,仅更新这些适配矩阵。具体而言,假设预训练基座大模型的矩阵为W₀∈R^(d×k),其更新则表示为低秩分解:W₀ + ΔW = W₀ + BA,其中B∈R^(d×r),A∈R^(r×k),秩r << min(d,k)。在前向传递过程中,W₀与ΔW都会乘以相同的输入x,最后相加:h = W₀x + ΔWx = W₀x + BAx。

LoRA的微调流程:初始化预训练基座大模型后冻结底层Transformer层;然后通过低秩分解更新部分参数,在训练过程中,W₀固定不变,不参加梯度更新,只训练参数矩阵A和B,得到模型更新参数ΔW。这种方法使训练成本大幅降低,同时保持模型性能。国金证券的实践表明,受影响的参数量通常仅为全量参数的0.1%左右,大大减轻了计算负担。

多任务训练

​多任务指令微调是提升证券大模型业务适应性的重要手段。设置多种模型训练任务:证券行业相关问答、用户情感分析、研报观点生成、财报数据解读以及上市公司问答等领域性任务。根据不同任务设置指令微调格式化实例,构建对应的证券行业多任务微调数据集。这种方法使单一模型能够适应证券业务中多样化的应用场景。

Alpaca格式(适合指令微调)

1
2
3
4
5
6
7
8
9
[
{
"instruction": "分析该公司IPO前景",
"input": "公司主营光伏组件,2023年营收增长45%,行业平均PE为25",
"output": "基于行业PE和公司增长率,该公司IPO估值可能在...",
"system": "你是一位资深证券分析师",
"history": []
}
]

港股IPO微调示例格式

1
2
3
4
{
"question": "赤峰黄金招股信息概要",
"answer": "最终分配结果:...;暗盘表现:...;首日表现:..."
}

多轮对话格式(ShareGPT)

1
2
3
4
5
6
{
"conversations": [
{"from": "human", "value": "如何评价这只债券的风险?"},
{"from": "gpt", "value": "从信用评级、久期和收益率曲线分析..."}
]
}

对于证券分析,可加入复杂推理链条(CoT):

1
2
3
4
5
{
"Question": "生物制药公司IPO估值应注意什么?",
"Complex-CoT": "需考虑研发管线阶段、临床试验结果、专利保护期...",
"Response": "重点分析其临床三期药物成功率及市场竞争格局..."
}

知识遗忘

当大模型学习证券领域新知识时,可能会遗忘原有的通用知识或推理能力。缓解这一问题的策略包括:

  • 保留部分通用能力的训练数据
  • 采用渐进式微调(先通用任务后专业任务)
  • 调整学习率等超参数

此外,混合使用RAG技术也能在一定程度上弥补模型自身的知识遗忘问题。

典型应用场景分析

​智能投顾与客户服务是大模型在证券行业最直接的应用场景。传统证券服务面临海量零售客户需求与有限投顾资源的矛盾,大模型可通过智能问答系统提供7×24小时的个性化投资咨询服务。国金证券以AI助手为切入点,探索大语言模型提升工作效率赋能业务发展,通过自然语言交互降低系统使用门槛,使不熟悉专业系统的客户也能便捷获取服务。智能客服系统可处理账户查询、交易规则解释、市场概览等常见问题,复杂问题则转接人工服务,实现服务资源优化配置。

​投资研究与分析是大模型创造高价值的核心领域。证券研究涉及大量信息收集、数据处理和报告撰写工作,非常适合大模型辅助。大模型可自动提取上市公司财报关键信息,对比行业数据,生成初步分析;帮助研究员快速梳理行业脉络,制作产业链图谱;甚至基于历史模式识别潜在投资机会和风险。国金证券提出的”AI+RPA”模式中,RPA像强有力的机械手臂自动执行任务,AIGC则是机械大脑进行分析、整合、创造,两者结合可自动化处理研究分析中的重复和繁琐任务。

​风险管理与合规监控是大模型在证券行业的关键应用。金融市场波动大、监管要求复杂,传统风控系统主要依赖规则引擎,难以应对新型风险。大模型可分析交易模式、网络舆情和市场数据,识别潜在异常;实时监控客户交流内容,标记可能违规的对话;自动生成合规报告,减少人工工作量。大模型在反洗钱、内幕交易监控等方面也表现出色,能发现传统系统忽略的隐蔽关联模式。某证券公司的应用实践表明,大模型可将合规审查效率提升40%以上,同时提高风险识别准确率。

​内部知识管理与运营自动化是大模型提升证券企业效率的重要应用。证券公司积累了大量内部知识资产,但分散在不同系统和文档中。大模型可作为统一的知识中枢,帮助员工快速定位专业资料、业务规程和历史案例;自动生成会议纪要、操作指引和培训材料;甚至辅助编写代码和业务脚本。国金证券推动大模型与现有系统分级耦合并成为AI中台建设的突破口,为不同部门提供智能化支持。大模型与RPA结合还能自动化处理财务对账、报表生成等后台运营工作,显著降低运营成本。

大模型微调(Fine-tuning)是将预训练模型适配到特定任务或领域的关键技术,根据参数更新方式、资源需求和任务特性,主流方法可分为以下几类:


1. 全量微调(Full Fine-tuning)

  • 原理:调整预训练模型的所有参数,使其完全适应新任务的数据分布。
  • 优点:性能最优,适合与预训练目标差异大的任务。
  • 缺点:计算资源消耗大,需大量标注数据(通常数万条),易过拟合。
  • 适用场景:数据充足且资源丰富的任务(如医疗诊断、金融风险评估)。

2. 高效参数微调方法

(1) LoRA(低秩适配)

  • 原理:在权重矩阵中引入低秩分解矩阵(如秩为8的矩阵A和B),仅微调少量参数,保持原始权重不变。
  • 优点:参数效率高(仅更新0.1%参数),适合边缘设备部署。
  • 适用场景:资源受限或需快速迭代的任务(如设备故障诊断)。

其它方法都有各自的一些问题:

  • Adapter Tuning 增加了模型层数,引入了额外的推理延迟
  • Prefix-Tuning 难于训练,且预留给 Prompt 的序列挤占了下游任务的输入序列空间,影响模型性能
  • P-tuning v2 很容易导致旧知识遗忘,微调之后的模型,在之前的问题上表现明显变差

基于上述背景,LORA 得益于前人的一些关于内在维度(intrinsic dimension)的发现:

模型是过参数化的,它们有更小的内在维度,模型主要依赖于这个低的内在维度(low intrinsic dimension)去做任务适配。
假设模型在任务适配过程中权重的改变量是低秩(low rank)的,由此提出低秩自适应(LoRA)方法。

LoRA 允许我们通过优化适应过程中密集层变化的秩分解矩阵,来间接训练神经网络中的一些密集层,同时保持预先训练的权重不变。
alt text

LoRA 的思想很简单:

  • 在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。
  • 训练的时候固定 PLM 的参数,只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变,输出时将AB与 PLM 的参数叠加。
  • 用随机高斯分布初始化 A,用 0 矩阵初始化 B,保证训练的开始此旁路矩阵依然是 0 矩阵。

LoRA(Low-Rank Adaptation)之所以在微调大模型时效果显著,主要得益于其独特的低秩分解设计、高效的参数优化策略以及对模型知识的保护机制。以下是具体原因分析:

1. 低秩分解的数学优势

  • 核心原理:LoRA通过将权重矩阵的更新量 (\Delta W) 分解为两个低秩矩阵 (A) 和 (B)((W’ = W + BA)),其中 (A) 和 (B) 的秩 (r) 远小于原始矩阵维度(如 (r=8))。这种分解将参数量从 (d \times k) 压缩至 (r \times (d+k)),实现97%以上的参数压缩率,同时保留95%以上的任务性能。
  • 内在维度假设:大模型在适应新任务时,权重更新实际存在于一个低维子空间。实验证明,即使秩 (r=1),LoRA也能逼近全量微调的效果,验证了这一假设。

2. 资源效率与训练加速

  • 极低参数量:以GPT-3为例,LoRA仅需训练原模型0.01%的参数(约百万级),显存消耗降低3倍,使得RTX 3090等消费级GPU也能微调70亿参数模型。
  • 优化器效率:仅需维护低秩矩阵的梯度状态,减少优化器开销。例如,Adam优化器的内存占用大幅降低,训练速度比全量微调快3倍。
  • 零推理延迟:训练后可将 (BA) 合并到原权重中,不增加额外计算层,推理速度与原始模型一致。

3. 知识保留与抗过拟合

  • 冻结原权重:LoRA仅训练新增的低秩矩阵,预训练模型的核心知识不被破坏,避免了灾难性遗忘。例如,在医疗问答任务中,LoRA微调的LLaMA-7B模型准确率提升23%,同时保留通用语言能力。
  • 正则化效果:低秩约束天然抑制过拟合,尤其在小样本场景下表现优异。实验显示,LoRA在文本分类任务上的F1分数比全量微调高4%。

4. 灵活性与通用性

  • 模块化设计:支持多任务适配器叠加。例如,Stable Diffusion可通过不同LoRA模块生成赛博朋克或水墨风格,仅需20张图片训练。
  • 广泛适配性:适用于Transformer的任意线性层(如注意力层的 (W_q) 和 (W_v)),且与量化技术(如QLoRA)、分布式训练兼容。

5. 实际应用验证

  • 性能对比:在多项NLP任务中,LoRA与全量微调效果相当甚至更优。例如,GPT-3微调后ROUGE-L指标达89.65,而资源消耗仅为传统方法的1%。
  • 工业级扩展:阿里云的动态权重融合技术结合LoRA,实现异构适配器并行效率提升40%。

(2) QLoRA(量化LoRA)

  • 原理:结合4-bit量化和LoRA,进一步降低显存占用。
  • 优点:支持单GPU微调百亿参数模型。
  • 适用场景:超低资源环境(如移动端应用)。

(3) Adapter Tuning(适配器调整)

  • 原理:在模型层间插入小型神经网络模块(Adapter),仅训练这些模块。
  • 优点:模块化设计,支持多任务复用。
  • 缺点:轻微增加推理延迟。
  • 适用场景:多任务学习(如不同领域的文本分类)。
    alt text
    Adapter 结构,将其嵌入 Transformer 的结构里面,在训练时,固定住原来预训练模型的参数不变,只对新增的 Adapter 结构进行微调。同时为了保证训练的高效性(也就是尽可能少的引入更多参数),他们将 Adapter 设计为这样的结构:
  • 首先是一个 down-project 层将高维度特征映射到低维特征
  • 然后过一个非线形层之后,再用一个 up-project 结构将低维特征映射回原来的高维特征
  • 同时也设计了 skip-connection 结构,确保了在最差的情况下能够退化为identity(类似残差结构)。

从实验结果来看,该方法能够在只额外对增加的 3.6% 参数规模(相比原来预训练模型的参数量)的情况下取得和Full-Finetuning 接近的效果(GLUE指标在0.4%以内)。
alt text

(4) Prefix/Prompt Tuning(前缀/提示调整)

  • 原理:在输入中添加可学习的虚拟标记(Prefix或Prompt),通过调整这些标记引导模型输出。
  • 优点:几乎不修改模型参数,适合快速任务切换。
  • 缺点:效果依赖提示设计。
  • 适用场景:生成式任务(如文本生成、对话系统)。

Prefix:

在输入 token 之前构造一段任务相关的 virtual tokens 作为 Prefix,然后训练的时候只更新 Prefix 部分的参数,而 Transformer 中的其他部分参数固定。该方法其实和构造 Prompt 类似,只是 Prompt 是人为构造的“显式”的提示,并且无法更新参数,而Prefix 则是可以学习的“隐式”的提示。
alt text
同时,为了防止直接更新 Prefix 的参数导致训练不稳定的情况,他们在 Prefix 层前面加了 MLP 结构(相当于将Prefix 分解为更小维度的 Input 与 MLP 的组合后输出的结果),训练完成后,只保留 Prefix 的参数。

Prompt :

是 Prefix Tuning 的简化版本,只在输入层加入 prompt tokens,并不需要加入 MLP 进行调整来解决难训练的问题,主要在 T5 预训练模型上做实验。似乎只要预训练模型足够强大,其他的一切都不是问题。作者也做实验说明随着预训练模型参数量的增加,Prompt Tuning的方法会逼近 Fine-tune 的结果。
固定预训练参数,为每一个任务额外添加一个或多个 embedding,之后拼接 query 正常输入 LLM,并只训练这些 embedding。左图为单任务全参数微调,右图为 Prompt tuning。
alt text
alt text

  • Prompt 长度影响:模型参数达到一定量级时,Prompt 长度为1也能达到不错的效果,Prompt 长度为20就能达到极好效果。
  • Prompt初始化方式影响:Random Uniform 方式明显弱于其他两种,但是当模型参数达到一定量级,这种差异也不复存在。
  • 预训练的方式:LM Adaptation 的方式效果好,但是当模型达到一定规模,差异又几乎没有了。
  • 微调步数影响:模型参数较小时,步数越多,效果越好。同样随着模型参数达到一定规模,zero shot 也能取得不错效果。
  • 当参数达到100亿规模与全参数微调方式效果无异。

(5) BitFit(偏置微调)

  • 原理:仅更新模型中的偏置(Bias)参数,冻结其他权重。
  • 优点:极低资源消耗(更新1%参数)。
  • 适用场景:简单分类任务或低资源场景。

3. 混合微调方法

  • MAM Adapter:结合LoRA和Adapter,在不同模块应用不同技术。
  • UniPELT:动态选择适配技术(如Adapter或Prefix Tuning)。
  • 适用场景:复杂多任务或动态任务环境。

4. 知识蒸馏(Knowledge Distillation)

  • 原理:通过小模型(学生)模仿大模型(教师)的行为,实现轻量化部署。
  • 优点:减少推理成本,保留大部分性能。
  • 适用场景:需高效推理的任务(如移动端问答系统)。

方法选择建议

场景 推荐方法
数据量大+资源充足 全量微调
小样本+低资源 LoRA/Prompt Tuning
多任务适配 Adapter/MAM Adapter
生成式任务 Prefix Tuning
超低资源 BitFit/QLoRA

transformer快速入门

统计语言模型

NNLM 模型

alt text
NNLM 模型首先从词表C中查询得到前面N-1个词语对应的词向量,然后将这些词向量拼接后输入到带有激活函数的隐藏层中,通过Softmax函数预测当前词语的概率。特别地,包含所有词向量的词表矩阵C也是模型的参数,需要通过学习获得。因此 NNLM 模型不仅能够能够根据上文预测当前词语,同时还能够给出所有词语的词向量(Word Embedding)。

word2vec

alt text
CBOW (Continuous Bag-of-Words)使用周围的词语w(t-2),w(t-1),w(t+1),w(t+2)来预测当前词w(t)。而 Skip-gram 则正好相反,它使用当前词w(t)来预测它的周围词语。
与严格按照统计语言模型结构设计的 NNLM 模型不同,Word2Vec 模型在结构上更加自由,训练目标也更多地是为获得词向量服务。特别是同时通过上文和下文来预测当前词语的 CBOW 训练方法打破了语言模型“只通过上文来预测当前词”的固定思维,为后续一系列神经网络语言模型的发展奠定了基础。

word2vec最大的问题是无法解决一词多义问题。后来自然语言处理的标准流程就是先将 Word2Vec 模型提供的词向量作为模型的输入,然后通过 LSTM、CNN 等模型结合上下文对句子中的词语重新进行编码,以获得包含上下文信息的词语表示。

ELMo 模型

ELMo 模型(Embeddings from Language Models)更好地解决多义词问题。与 Word2Vec 模型只能提供静态词向量不同,ELMo 模型会根据上下文动态地调整词语的词向量。
ELMo 模型首先对语言模型进行预训练,使得模型掌握编码文本的能力;然后在实际使用时,对于输入文本中的每一个词语,都提取模型各层中对应的词向量拼接起来作为新的词向量。ELMo 模型采用双层双向 LSTM 作为编码器,如图 1-10 所示,从两个方向编码词语的上下文信息,相当于将编码层直接封装到了语言模型中。
alt text
训练完成后 ELMo 模型不仅学习到了词向量,还训练好了一个双层双向的 LSTM 编码器。对于输入文本中的词语,可以从第一层 LSTM 中得到包含句法信息的词向量,从第二层 LSTM 中得到包含语义信息的词向量,最终通过加权求和得到每一个词语最终的词向量。

BERT模型

BERT 模型采用和 GPT 模型类似的两阶段框架,首先对语言模型进行预训练,然后通过微调来完成下游任务。但是,BERT 不仅像 GPT 模型一样采用 Transformer 作为编码器,而且采用了类似 ELMo 模型的双向语言模型结构。由于 BERT 模型采用双向语言模型结构,因而无法直接用于生成文本。
alt text

Transformer模型

Transformer模型按模型结构将它们大致分为三类:

  • 纯 Encoder 模型(例如 BERT),又称自编码 (auto-encoding) Transformer 模型;
  • 纯 Decoder 模型(例如 GPT),又称自回归 (auto-regressive) Transformer 模型;
  • Encoder-Decoder 模型(例如 BART、T5),又称 Seq2Seq (sequence-to-sequence) Transformer 模型。

Transformer 模型本质上是预训练语言模型,大都采用自监督学习 (Self-supervised learning) 的方式在大量生语料上进行训练,训练这些 Transformer 模型完全不需要人工标注数据。
例如下面两个常用的预训练任务:

  • 基于句子的前n个词来预测下一个词,因为输出依赖于过去和当前的输入,因此该任务被称为因果语言建模 (causal language modeling);
  • 基于上下文(周围的词语)来预测句子中被遮盖掉的词语 (masked word),因此该任务被称为遮盖语言建模 (masked language modeling)。

结构

标准的 Transformer 模型主要由两个模块构成:
Encoder(左边):负责理解输入文本,为每个输入构造对应的语义表示(语义特征);
Decoder(右边):负责生成输出,使用 Encoder 输出的语义表示结合其他输入来生成目标序列。
alt text

这两个模块可以根据任务的需求而单独使用:

  • 纯 Encoder 模型:适用于只需要理解输入语义的任务,例如句子分类、命名实体识别;
  • 纯 Decoder 模型:适用于生成式任务,例如文本生成;
  • Encoder-Decoder 模型或 Seq2Seq 模型:适用于需要基于输入的生成式任务,例如翻译、摘要。

alt text

Attention

注意力层的作用就是让模型在处理文本时,将注意力只放在某些词语上。

例如要将英文“You like this course”翻译为法语,由于法语中“like”的变位方式因主语而异,因此需要同时关注相邻的词语“You”。同样地,在翻译“this”时还需要注意“course”,因为“this”的法语翻译会根据相关名词的极性而变化。对于复杂的句子,要正确翻译某个词语,甚至需要关注离这个词很远的词。

同样的概念也适用于其他 NLP 任务:虽然词语本身就有语义,但是其深受上下文的影响,同一个词语出现在不同上下文中可能会有完全不同的语义(例如“我买了一个苹果”和“我买了一个苹果手机”中的“苹果”)。

NLP神经网络模型的本质就是对输入文本进行编码,常规的做法是首先对句子进行分词,然后将每个词语 (token) 都转化为对应的词向量 (token embeddings),这样文本就转换为一个由词语向量组成的矩阵X=(x1,x2,…,xn),其中 xi就表示第i个词语的词向量,维度为d,故 X∈Rn*d。

在 Transformer 模型提出之前,对 token 序列 X 的常规编码方式是通过循环网络 (RNNs) 和卷积网络 (CNNs)。

  • RNN(例如 LSTM)的方案很简单,每一个词语 xt 对应的编码结果 yt通过递归地计算得到:yt=f(y(t-1),xt)。
    RNN 的序列建模方式虽然与人类阅读类似,但是递归的结构导致其无法并行计算,因此速度较慢。而且 RNN 本质是一个马尔科夫决策过程,难以学习到全局的结构信息;
  • CNN 则通过滑动窗口基于局部上下文来编码文本,例如核尺寸为 3 的卷积操作就是使用每一个词自身以及前一个和后一个词来生成嵌入式表示:yt=f(x(t-1),xt,x(t+1))。
    CNN 能够并行地计算,因此速度很快,但是由于是通过窗口来进行编码,所以更侧重于捕获局部信息,难以建模长距离的语义依赖。

Google《Attention is All You Need》提供了第三个方案:直接使用 Attention 机制编码整个文本。相比 RNN 要逐步递归才能获得全局信息(因此一般使用双向 RNN),而 CNN 实际只能获取局部信息,需要通过层叠来增大感受野,Attention 机制一步到位获取了全局信息:yt=f(xt,A,B)
其中A,B是另外的词语序列(矩阵),如果取A=B=X就称为 Self-Attention,即直接将xt与自身序列中的每个词语进行比较,最后算出yt。

Scaled Dot-product Attention

Scaled Dot-product Attention是最常见的attention实现
alt text

Scaled Dot-product Attention 共包含 2 个主要步骤:

  1. 计算注意力权重:使用某种相似度函数度量每一个 query 向量和所有 key 向量之间的关联程度。对于长度为 m 的 Query 序列和长度为 n 的 Key 序列,该步骤会生成一个尺寸为 m*n 的注意力分数矩阵。
    特别地,Scaled Dot-product Attention 使用点积作为相似度函数,这样相似的 queries 和 keys 会具有较大的点积。
    由于点积可以产生任意大的数字,这会破坏训练过程的稳定性。因此注意力分数还需要乘以一个缩放因子来标准化它们的方差,然后用一个 softmax 标准化。这样就得到了最终的注意力权重 w(ij),表示第 i 个 query 向量与第 j 个 key 向量之间的关联程度。
  2. 更新 token embeddings:将权重 w(ij) 与对应的 value 向量 v1,…,vn 相乘以获得第 i 个 query 向量更新后的语义表示 。

Multi-head Attention