配资网上炒股平台_炒股配资软件

,[量化]万字综述，94篇论文分析股市预测的深度学习技术

2024-10-16 【字体：大中小】

,[量化]万字综述，94篇论文分析股市预测的深度学习技术

一本文摘要

由于其非线性、高度波动性和复杂性，股票市场预测一直是一个复杂的问题。现有的股市预测调查通常侧重于传统的机器学习方法，而不是深度学习方法。近年来，深度学习在许多领域占据了主导地位，在股市预测方面取得了巨大的成功和普及。这促使本文以深度学习技术为重点，对股市预测研究进行结构化和全面的概述。本文提出了股票市场预测的四个子任务（股票走势预测、股票价格预测、投资组合管理、交易策略），并提出了一种用于股市预测的深度学习技术分类法，挑选了2011年至2022年之间94篇高质量的论文，总结了这些工作中基于深度神经网络的最新模型。此外，本文还提供了股市常用的数据集和评估指标的详细统计数据。最后，本文分享一些关于股市预测的新观点，强调了一些尚未解决的问题，并指出了未来的几个方向。

二研究背景

金融市场至关重要，影响着全球经济的发展。随着股票市场在经济领域逐渐占据重要地位，越来越受到社会公众的关注。根据有效市场假说，如果参与市场的投资者足够理性，就能在一个法制健全、运转良好、透明、竞争激烈的股票市场中，对所有市场信息做出快速、理性的反应。这样，股价就能准确、充分、及时地反映所有重要事实，包括公司的现值和未来价值。但是，股票价格的涨跌并不是简单地受当前环境和以往股价的影响，更可能受到公司财报、国家政策、有影响力的股东、专家对时事的猜测等多种复杂因素的影响。因此，期望将机器学习技术用于股票市场预测任务，包括股票走势预测、股票价格预测、投资组合管理和交易策略。股市通常有两个基本特征：不确定性和可变性，这使得很难准确预测股市走势。众所周知，机器学习方法已经与股价预测相联系，以获得最终的训练数据结果并缓解上述问题。过去，人们专注于传统模型，例如基于决策树的模型和支持向量机来预测股市。随着深度学习模型的发展，预测股市的模型已从传统方法逐渐转变为深度学习方法，如递归神经网络（RNN）、长短期记忆（LSTM）、门控递归单元（GRU）、图形神经网络（GNN）、卷积神经网络（CNN）。此外，最新的工作尝试使用基于Transformer的模型和强化学习模型。尽管已经有几次股票市场预测的调研，但之前的调查有以下问题。首先，其中一些调查包含的论文数量有限，只关注传统技术，而没有对最新技术（如Transformer）进行批判性分析。此外，一些调查对模型的分类很模糊，没有正确和权威的分类标准。最后，先前研究和未来工作中涉及的许多挑战已经解决。因此，迫切需要进行全面而有洞察力的调查，以分析股市预测的最新技术和趋势。此外，我们需要更深入地思考，以找到最新的挑战和公开的问题。

三本文贡献

本文的三个关键贡献如下：1. 本文首先提出了一项关于股市预测的全面调研，有四个不同的任务，如股票走势预测、股价预测、投资组合管理和交易策略。本文收集了94篇论文来研究这些热点领域，图2详细展示了相关论文的统计数据。2. 这项调研提出了一种用于股市预测的新的深度学习分类法。我们介绍了基于深度学习模型分类法的综述论文，包括基于RNN、CNN、基于GNN、Transformer和强化学习（RL）。此外，本调查总结了这些实验中涉及的数据集、评估方法和模型输入。3. 本文讨论了基于深度学习的股市预测的开放问题，并对该领域的未来工作提供了深入思考。

图片

四本文工作

图片

股票市场预测任务

在深入了解算法模型细节之前，我们首先定义了四个股票市场预测任务，并介绍相应任务的概念。现有的股市预测任务可分为股票价格预测、股票走势预测、投资组合管理和交易策略。

股票价格预测：使用时间序列数据的股价预测有助于研究人员预测股票市场和交易所交易的金融资产的未来价值。预测股价的整个想法是为了获得可观的利润。预测还涉及其他因素，如身体和心理因素，以及理性和非理性行为。所有这些因素结合在一起，使股价充满波动。股票趋势预测：股票趋势预测通常将股票走势分为上涨、下跌和横盘。股票趋势预测任务根据一段交易日内调整后的股票收盘价之间的差异，将趋势形式化。投资组合管理：投资组合管理需要满足投资者长期财务目标和风险承受能力的投资选择。投资组合管理旨在分配资源以获得最佳回报，同时避免风险。交易策略：交易策略是一套预先确定的准则和标准，用于做出交易决策，是买卖股票的系统方法。该策略可能简单或复杂，涉及投资风格（例如，价值与增长）、市值、技术指标、基本面分析、投资组合多样化水平、风险承受能力和杠杆等因素。在具有深度学习的股市预测任务中，交易策略主要包括事件驱动、交易数据驱动和策略优化。

图片

在上述任务中，本文重点关注股票市场预测的过程。上图3显示了基于深度学习的方法进行股票市场预测的过程。首先是处理输入数据，包括股票量价、图表和文本等数据；然后提取股票特征（例如：Alpha360）；后续将从数据中提取的特征输入到深度学习模型中进行训练；最后分析训练得到的模型效果。网络架构设计

我们根据模型类型对论文进行了分类，并在图4中显示了所涉及的模型。这些模型包括基于RNN的模型、基于GNN的模型，基于CNN的模型、强化学习模型、基于Transformer的模型以及一些其他创新方法。图5是本文涉及的主要模型的框架草图，它与深度学习过程一致。股票价格相关数据、文本数据和公司之间的关系可以作为输入输入到模型中，模型根据论文的目标产生输出。

图片

递归神经网络RNNRNN（图5a）可以处理序列数据，因为序列中的先前输入也会影响后续输出，这允许先前输出用作输入，同时具有隐藏状态。在股市预测中使用基于RNN的模型有两种通用方法。第一种方法依赖于之前的股价数据预测是股市走势。第二种是使用股票价格数据和文本作为基于RNN的模型的输入，以获得股票市场趋势运动的预测结果。RNN能够非常熟练地处理序列数据。股票市场数据通常表示为时间序列，其中RNN通过对历史数据建模来进行预测。然而，RNN在处理长期数据时会遇到梯度消失的问题。为了解决这个问题，已经有几种RNN的变体出现，包括LSTM、GRU、双向LSTM等。一些实验探索了RNN与其他机器学习的混合应用。[108]提出了一种新颖且稳健的混合预测模型（HPM），它是三种预测模型的组合：RNN、指数平滑（ES）[11]和自回归移动平均模型（ARMA）[7]。遗传算法通过提供显著提高预测精度的最优权重来优化模型。[155]提出了基于RNN的状态频率记忆（StateFrequencyMemory，SFM）算法，该算法能够从股票市场中捕捉到股价波动背后的多频率交易模式。[159]提出了一种带有趋势回撤的时间加权LSTM模型，该模型根据与待预测数据的时间接近度为数据分配权重。为了获得更好的预测性能，提出了LSTM与其他模型相结合的混合模型。[100]提出了基于生成式对抗网络的混合预测算法（GAN-HPA）以实现从基于GAN的框架开发的Stock-GAN。该框架接受不同的输入，如股票数据集和超参数。[133]的主要贡献正在从交易数据中动态地提取金融市场趋势的潜在表示。他们提出了一种基于卷积最小二乘的混合注意力变分序列模型（CLVSA）。该模型由卷积LSTM单元和具有自注意和互注意机制的序列到序列框架组成。[97]提出了一个涉及股票关系的相关股票信息深度转移（DTRSI）框架，用于预测股票价格走势。在对大规模数据进行预训练时使用LSTM单元以获得优化参数，然后使用少量目标数据对基本模型进行微调以获得最终模型。他们解决了由于样本量不足而导致的过拟合问题，并考虑了股票之间的关系。[51]通过考虑财经新闻的可信度和全面性，设计了一个具有自定进度学习机制的混合注意网络（HAN）。该混合注意网络由两个注意层组成，新闻级注意和时间级注意双向GRU层用于对语料向量的时间序列进行编码。[130]旨在解决由于非平滑动态和复杂的市场依赖性而导致的股票趋势预测的挑战。他们提出了一种新的分层自适应时间关系网络（HATR）来描述和预测股票的演变。

卷积神经网络CNNCNN(图5b)是一类神经网络，其使用称为卷积的数学运算来代替其至少一个层中的一般矩阵乘法，这通常应用于处理像素数据。CNN在图像和视频识别、图像分类和分割等方面有着广泛的应用。此外，许多研究者也在探索CNN在财经新闻和时间序列方面的应用。CNN通常有三种层类型：卷积层、池化层和全连接层。[32]改进了事件嵌入方法，并且引入了用于在输入历史事件嵌入上进行训练的CNN，其中汇集层在提取代表性事件历史特征方面表现良好。CNN和LSTM的结合可以进一步提高时间序列的预测能力。[85]提出了一种CNN-LSTM模型来预测股票日收盘价，其中CNN模型从10天历史数据时间序列中提取特征，而LSTM模型进行价格预测。[131]提出了CNN-BiLSTM模型来进行股票收盘价预测，其中他们向Bi-LSTM的输出门添加了双曲正切函数改进了模型性能。[140]建立了由三个卷积层组成的基于CNN的框架,该框架处理历史股价和未来数据，未来数据指的是领先的财务指标。[139]提出了一个基于图的CNN-LSTM模型。输入图表是由附加有未来图像的选项图像和历史图像组成的组合图像,该图像包含30天的信息，包括股票价格和特定股票的金融指数。组合图像的行指示时间序列变化，而列指示将涉及并馈送到CNN-LSTM模型中的特征。

图形神经网络GNNGNN（图5c）是一种以图的形式处理数据的人工神经网络。图是由节点或顶点和边组成的数据结构，其中节点可被视为对象，而边可被视为对象之间的关系。一般来说，GNN模型有三种输入。第一种是来自社交媒体或政策的文本，第二种是通过图形表示的公司之间的关系，另一种是来自股市的数据。它们被用作基于GNN的模型的输入，以获得最终的股市预测结果。[92]使用知识突破整合公司信息和GNN模型作为个股预测模型，知识图谱可以很好地表示代表公司的实体之间在股市预测方向上的关系，本文的创新之一是采用滚动窗口分析方法实现的回测方法。[144]关注股票价格限制问题，提出了考虑市场状态不同属性的层次图神经网络（HGNN）。[20]提出了一个管道预测模型，以整合企业之间的关系，进而提出了基于GCN模型的联合预测模型，通过整合更多未连接的公司形成整个网络。在该图中，每个企业被抽象为一个节点，连接两个节点的每条边表示企业之间的关系。边的权重代表两家公司之间的持股比例。[128]使用GCN融合股票趋势预测中指标的相关性，提出了基于多图卷积神经网络的MG-Conv模型，该模型基于成分股数据构建指数之间的静态图，此外还设计了基于不同投资组合策略的指数之间趋势相关性的动态图，并定义了基于这两种图的多图卷积运算。[59]提出了一个层次注意网络（HATs）使用关系数据来预测个股价格和市场指数走势，LSTM和GRU分别被用作这两个任务的特征提取模块，HATS通过聚合不同的关系类型数据并将信息添加到每个表示中，取得了比其他现有方法更好的结果。

TransformerTransformer（图5d）是一个基于self-attention机制的深度学习模型，旨在解决序列到序列的任务，同时处理长期依赖关系。Transformer在自然语言处理任务中取得了良好的效果。在与股票相关的任务中，数据输入不仅是与股票相关的数据和指数，而且是许多文本方面，甚至是用于基于Transformer的模型处理音频输入。[105]试图通过采用机器学习和深度学习方法来改进股票波动率模型，提出的多Transformer模型是现有Transformer模型的变体，通过随机选取不同的训练数据子集，结合多注意方法生成最终结果，这种策略提高了注意过程的稳定性和精确性。[74]提出了一种完全基于注意力机制的新型Transformer编码器注意力（TEA）框架，以处理金融数据中的时间依赖性困难，并揭示与社交媒体文本相关的股票价格中的隐藏信息。TEA模型采用特征提取器和级联处理器结构，Transformer编码器、注意机制和归一化技术包括特征提取器。为了学习关键信息，特征提取器有效地从过去的文本和股票价格中收集了五个日历日的信息。[148]提出了一个基于Transformer的分层多任务（HTML）模型，用于预测短期和长期资产波动。除了常见的金融新闻和报道外，还利用音频数据进行预测。

强化学习RLRL（图5e）不同于有监督学习和无监督学习。RL的目标是找到一种策略，通过与环境的互动来最大化累积回报。在特定的状态下，学习的策略将采取最优的行动。在金融交易场景中，强化学习输出一系列动作，包括基于股票和账户信息等输入状态的买入、持有和卖出。RL通过奖励好的行动结果和惩罚差的行动结果来更新策略。

图片

[78]在对抗性训练方法的设置中比较了三种不同的RL算法，包括DDPG、PPO和REINFORCE，结果表明REINFORCE比其他算法更可取。本文以中国股票市场为例进行了实证研究，结果表明，基于策略梯度的方法在金融情景中表现最为突出。为了将历史信息引入到国家决策中，回归网络的策略梯度也是一个很好的尝试。Jiang、Xu和Liang[57]为投资组合管理构建了一个无模型的金融RL框架，包括三个部分：相同的独立评估者、投资组合向量记忆和在线随机批量学习。该框架建立在确定性策略梯度（DPG）的基础上，结合了CNN、RNN和LSTM。此外，该算法在加密货币市场和优于其他对比方法。与REINFORCE算法相比，基于行动者-批评者的方法通过引入状态值，可以减小策略方差。[134]使用了称为AlphaStock的以比率为导向的策略梯度方法来解决量化交易的挑战，如利润和风险之间的平衡。[13]指出仅仅利用价格信息和监督方法来预测未来的市场行为几乎是不可能的。为此，作者提出了一种基于DQN的多层集成交易智能体来弥补这一缺陷，实验结果均优于考虑的基线。[82]建立了一个FinRL库来实现金融交易中的DRL算法，专注于纯无模型算法。[84]指出当前任务上存在两个主要挑战：处理嘈杂的高频金融数据，以及在量化交易任务、市场条件识别和交易策略执行中平衡探索和利用。因此，他们提出了一种自适应交易方法，iRDPG，它结合了模仿学习和递归确定性策略梯度来解决上述挑战。数据集和模型输入

数据集在股票预测中，基于机器学习模型的角度，不同股票市场的数据集是多样的。在这些研究中，股票价格和价格变动预测是研究最多的两个任务。许多基于RL的研究侧重于交易策略的制定。当根据模型输入要素进行分类时，数据集大致由两组数据组成，即内部数据和外部数据。内在数据主要是从股票数据本身挖掘出来的信息，包括历史股价、财务指数和其他技术分析数据。由于股票数据的内在属性，其内在数据大多是时间序列。外部数据可能变化很大，包括文本信息、基础数据、行业知识图谱等。此外，数据集涵盖不同的时期，有的跨越数月，有的长达10年。表1详细列出了常用的股票市场缩写和国家信息。表2显示了综述文献的数据集和模型详细信息。

股票价格：股票价格最直接地反映了股票市场的表现，它既是模型的输入特征，也是预测目标。在本次调研所包含论文普遍使用的是股价。然而，基于不同的模型设计，股票价格含有几种类型，包括open、high、low和close数据。技术分析指标：技术分析指标是常规股票分析中常用的工具。这些指标与股票市场表现高度相关，包括汇率、市净率、成交量等实用财务指标。宏观经济数据：宏观经济信息反映了金融状况。消费者价格指数（CPI）和国内生产总值（GDP）是两个常用的指数，它们与所依赖的股票市场相关联，因为它们显示了市场状况和股票市场上涨或下跌的性质。基础数据：基础数据描述了一个经济实体的详细信息，可能包括财务状况、公司架构和向股东公布的任何其他信息。但是，在深度学习模型中，只有一小部分基础数据被利用，其中低报告频率和非结构化文本信息是两个主要限制。知识图谱：不同行业的企业可能存在内在联系，例如，两个公司合二为一，供应链可能会受到冲击。在最近的一些实验中，来自开源的知识图谱现在可以与传统的股票数据集成，并进一步提高模型的性能。文本信息：文本信息涵盖来自各种资源的文本，主要包括新闻、报道以及社交媒体帖子和用户评论。由于大多数文本信息是非结构化的，情感分析是通过深度机器学习进行利用的常用方法。信息可以被分类为几个类别（正面、中性或负面）以供进一步使用。

模型输入基于预测目标和数据集构成对输入特征进行提取和组织，大致可分为四组：时间序列、文本、知识图等。

时间序列：时间序列是股票预测中最常用的输入类型，因为大多数模型依赖于对股票价格时间序列建模来进行预测。基于不同的预测目标，包括日内和日间价格预测，股票价格时间序列可以由分钟级、小时级或日级数据组成。此外，在RL的场景中，时间序列数据也可以被形式化为其中特征可以用于状态和奖励生成的环境。通过这种方式，代理可以与环境交互并改进策略。文本：文本信息涵盖了大量外在信息，被认为对投资者情绪具有溢出效应。文本信息可能来自不同的语言和资源，如新闻。通常，文本信息在输入模型之前需要进行预处理和结构化。图：行业知识图谱是最常用的图，它不仅用来表示合作者之间的直接关系，也用来挖掘其内部关系，如上下游供应链。其他：以不同的视角为股票预测任务引入各种数据资源，包括图像数据和音频数据。这些数据被用作补充信息。

图片

模型评估

在股票市场预测中，评价指标是用来评估各种模型的预测值与实际值相比的优劣程度，因此定义良好的评价指标对股票市场预测研究至关重要。基于准确性的评估度量是分类模型的常用度量。基于误差的评价指标如MAE和RMSE常用于回归模型。本文将现有的常用评价指标分为三类，并对每一类指标进行详细讨论：（1）基于准确性的指标;（2）基于误差的指标;（3）基于收益的指标。基于精度和基于收益的评价方法得到的评价值越大，股票市场预测的效果越好。相反，用基于误差的评估方法获得的值越小，性能越好。表3显示了使用这三种评价指标的论文。

图片

基于准确性的评估指标分类任务中最常用的度量标准是准确度，它评估准确分类的预测与预测总数的比率。准确度可表示为下面公式：

图片

TP表示实际类别和模型预测都是正的。TN表示实际类别和模型预测都是负的。FP表示模型预测为阳性类别，而实际类别为阴性。FN表示当模型预测为阴性类别时为阳性类别。

图片

如图7所示，通过二进制分类混淆矩阵更直观地理解准确度。对于分类任务，准确度不是数据集的适当指标，特别当数据集是不平衡的，需要使用更多的指标来更准确地描述模型。因此，精确度、召回率和F1被提出用于评估模型性能。

图片

MCC是一个单值分类度量，有助于总结混淆矩阵。MCC描述了实际样本和预测样本之间的相关系数，取值范围为[-1，1]。MCC等于1时表示完全正相关。相反，当分类器错误分类时，获得值-1，表示完全负相关。MCC对类别不平衡的鲁棒性优于前面提到的基于准确性的度量。

图片

基于错误的度量测量预测值和实际值之间的误差是测量预测性能的最有效方法之一，其中误差越小表示结果越好。以下基于误差的评估指标通常用于股市预测，其中是实际值，是预测值。本次调查的主要误差评价方法包括平均绝对误差、均方误差、均方差和平均绝对百分比误差。

图片

基于收益率的评价指标基于收益率的评价指标是检验股市预测准确性的有效指标。我们总结了两个主要方面的常用财务相关的评估指标，以评估盈利：回报率和夏普比率。该值越高，预测效果越好。回报率一般可分为总回报率(持有期间回报率)和年回报率。总回报率是不论资金投入时间，直接计算总共的回报率，亦即：总回报率=利润/投入成本。

图片

夏普比率在金融领域衡量的是一项投资在对其调整风险后，相对于无风险资产的表现。它的定义是投资收益与无风险收益之差的期望值，再除以投资标准差（即其波动性）。它代表投资者额外承受的每一单位风险所获得的额外收益。

图片

五总结展望

本文深入分析了基于深度学习的股票市场预测的最重要研究成果,从任务类型，模型架构，评估度量和数据集的多个方面对现有工作进行了概述。我们希望这份调查能为读者提供关于使用深度学习进行股市预测的全面指导。虽然现有的工作对股市预测任务产生了深远的影响并奠定了坚实的基础，但得益于机器学习任务的发展，主要包括NLP和RL，股市预测任务也不断有新的解决方案出现。本节概述了一些潜在的研究方向和开放的问题，我们认为需要解决，以进一步推动这一领域。提高股市预测模型的泛化能力在机器学习中，泛化展示了模型分类或预测未知数据的能力。股票市场预测的深度学习模型对未来市场具有很高的无时间性和泛化能力。然而，一些先前的方法已经在训练数据上训练得很好，并且它们将推广到真实交易，或者在看不见的数据的子集上工作得不好。最近的研究[ 47，95，162]表明，将自监督学习任务合并到分类任务中可以导致更好的泛化。通过探索现有的和开发新的、实用的股票市场预测方法来填补这个空白是值得的。在这种情况下，一种提高泛化能力的自监督方法有望在未来得到探索。结合在线学习和深度学习方法在线学习是一种训练方法，它使用模型的在线训练结果作为反馈以实现模型调整。对于缓解股市波动性、不确定性、高噪声因素的影响大有裨益。投资者需要根据股价走势及时调整投资计划，将此方法应用于股票市场投资策略是明智的。它将同时更新模型，从而自动控制预测结果和期望值之间的差异。已经有一些关于将在线学习方法用于其他应用的工作，其中处理突然变化的时间序列是常见的。Habibi[103]建议使用贝叶斯设置进行在线变化点检测，他们考虑了道琼斯工业平均指数每日结果的突然变化。这项工作在及时发现变化点方面发挥了一定的作用，但并不提供改变交易策略的反馈。我们相信在线学习和机器学习的结合将是股票市场预测的一个很有前途的方向。股票市场预测的评价和数据集改进据我们所知，许多股票市场预测模型仍然只评估中间绩效指标，例如，股价变动预测准确性。它们能在多大程度上支持一个实际的交易体系尚不清楚，而且没有统一的评估标准盈利能力。几乎每篇论文在不同的数据集上都有不同的评价指标。新股市场预测应该能够评价财务相关指标，这可以分为三类。第一类是盈利标准，包括年化收益率（ARR）。第二个指标是风险标准，包括最大提取（MDD）和年化波动率（AVol）。另一个是风险收益准则，包括卡尔马比率（CR）、索蒂诺比率（SoR）和年化夏普比率（ASR）。此外，相关的股市预测任务较为零散，缺乏统一的基准数据集和清晰的任务衔接，严重阻碍了该领域的发展。股市预测中时间序列异常检测的改进从全市场数千只股票中快速有效地识别出业绩不佳的股票，是一个实用的命题。金融市场的不稳定给投资者带来重大风险;不稳定的例子包括系统性风险造成的市场崩溃和人为的大规模宣传造成的股价异常波动。大多数常见的股票市场预测模型在不考虑异常点存在的情况下，无法捕捉到最佳交易点。时间严重性异常检测可以捕捉股市交易价格中的异常点，从而帮助投资者调整策略，降低投资风险，为股市预测提供便利。此外，该模型还可用于对多个财务时间序列数据集建模，并捕捉感兴趣公司中的异常。为此，一种有前途且必要的异常检测将是设计基于时间序列异常检测任务的更好的机制，以便在真实世界中进行交易时捕获预测任务的最佳交易点。多任务集成的持续学习持续学习是一种用于连续地学习用于若干任务的模型同时牢记从较早任务学习的信息的技术，其中在训练新任务期间旧任务中的数据不再可用。因此，持续学习允许神经网络在股票预测的不同任务中连续地积累知识并且减轻灾难性遗忘。对于股票预测任务，深度模型主要在静态均匀分布的数据集上进行训练，这些数据集无法随时间调整或扩展其行为。据我们所知，没有专门为股市预测任务设计的持续学习模型。股市变化环境的波动剧烈，金融大气候下的深度学习模型需要自主获取新技能、适应新情况、完成新任务。现有的股票市场预测任务在单个数据集上评估单个任务，并且单个任务模型可能过拟合最近的输入数据，这对于定性地评估模型是具有挑战性的。持续学习方法帮助同一个模型输出多个任务，同时对多个任务进行评估。例如，基于参数隔离的持续学习方法解决了股票预测中的灾难性遗忘问题，并通过在学习每个任务之后冻结一部分参数并针对新任务有效地更新其他参数来提高准确性。股票交易的杠杆分配RL由于金融市场的高波动性和高噪声，量化交易算法仍然面临着收益和风险之间的权衡问题[2，122]。一种可能的解决方案是值分布强化学习。在C51的论文中。分布强化学习超越了统计学观点中的值的概念，其中值分布强化学习的主要概念是使用定义的随机变量，其期望值是状态动作值，以形成分布贝尔曼方程。证明了分布Bellman方程在-Wassertain距离测度下是收缩的。在RL领域，大多数最先进的Q学习算法是值分布强化学习，如C51、QR-DQN、IQN、FQF。值分布强化学习可以提供更多的收益分布信息，有助于算法降低风险或提高鲁棒性。之前的研究已经显示了值分布强化学习在雅达利游戏上的表现，在那里算法取得了比人类高得多的分数。然而，很少有研究者探讨值分布强化学习在金融交易中的应用。因此，探讨金融交易中值分布强化学习的可能性是值得的。将股票交易视为部分可观测马尔可夫决策过程（POMDP）许多研究人员正在利用RL算法进行金融交易，包括不同的model free方法，如策略梯度、Q-learning和混合方法。但是，所有这些方法都是基于充分观察到的MDP，金融市场是一个开放的环境，变化是无限的。因此，状态在任何时间步长都不相同，并且转换是唯一的。因此，只有当所有的转换都已知时，交易过程才应该被视为POMDP。因此，RL算法对于金融市场的许多假设可能是不正确的。有两种可能的方法可能有助于今后解决这一问题。第一种是收集所有的事务以使动态性被充分观察，这可能需要大量的存储和计算资源。Briola等人[10]在小范围内使用了交易数据，这可能为未来的发展方向提供了一个例子。另一种方式是基于在基于模型的RL的场景中的观测来近似动态。许多研究者[84，137，154]展示了过渡动力学模型的强大能力。因此，基于模型的方法在金融交易中的应用是需要也是值得探索的。

「核桃量化」

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

福辰股票配资