lstm 记忆 ann 为什么是隐含层 csdn 循环神经网络颜色

间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题，和回归分析模型的预测不同，时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。

举个栗子：根据过去两年某股票的每天的股价数据推测之后一周的股价变化；根据过去2年某店铺每周想消费人数预测下周来店消费的人数等等

RNN 和 LSTM 模型

时间序列模型最常用最强大的的工具就是递归神经网络（recurrent neural network, RNN）。相比与普通神经网络的各计算结果之间相互独立的特点，RNN的每一次隐含层的计算结果都与当前输入以及上一次的隐含层结果相关。通过这种方法，RNN的计算结果便具备了记忆之前几次结果的特点。

典型的RNN网路结构如下：

如何建立自己的算法交易

在股票市场中交易过两、三年的人，几乎都有一套自己的交易方法。

虽然你有方法但如果还没有形成交易系统，那也先别着急去勉强建立,因交易系统是自然形成的.并不可人为刻意能建起来的。就好比计划经济与市场经济不断的适应市场的变化，时间长了，如果你还能在市场中生存.交易系统自然形成。而如果过早的固定自己的交易行为使之系统化，固定不变，在没有充分的了解市场的前提下，面临的只能是品尝失败。

一套自己的交易系统，不是一劳永益的盖世绝招，而是你对市场每一个细微之处都能深入了解---达到很细微.并且很全面。要总结经验，形成框架，这个框架就是你对市场的初步认识，它决定着你的行为，也就是你的交易。随着研究的深入，逐渐系统化，而这个框架至关重要，决定你今后的发展方向，不要去计划什么，在你眼前只有一个目标，深入分析市场，不断实践总结，周而复始，直到有一天你的交易系统就会自然成型。

曾有一个用波浪理论的高手和我交流，他说其经常能够预测到价格波动的高低点，并且因此而获利。但总体上的交易成绩并不是很理想。

在我的大多数朋友开始向我学习的时候，几乎都有一些实战经验，事实上，很多人的成绩相当不错。但是在交易的系统性方面，却有明显的欠缺。

如果你想长期稳定的获利，那么整体的交易应该是一个过程，而绝不是简简单单的一次预测或者一次全仓买入。其间至少包括：

另一方面，大多数投机者相信有一个通向市场的魔术：一个指标，一个形态，或者一个机械的交易系统，他们还肯定一小部分人正在使用着-------我在网上还见过售价24万元的一个公式，据说可百战百胜--------他们努力的想揭开这个魔术的秘密，从此而获利。

正确答案是:有，且答案就在你自己身上。

我可明确的告诉你：成功交易的一个秘密就是找到一套适合你的交易系统。这交易系统是非机械的，适合你自己个性的，有完善的交易思想、细致的市场分析和整体操作方案的。

交易系统，或说系统的交易方法，才是你长期稳定获利的正确方法。

一、传统方法

在某些假设下的显式最优策略

【Bertsimas, Dimitris, and Andrew W. Lo. Optimal control of execution costs.Journal of Financial Markets1.1 (1998): 1-50.】这里假设了不同的价格冲击函数，然后求解得到最优的交易执行方案。根据参数的不同，最优的策略要么是全部开头卖掉、均匀减仓、或者全部最后卖掉。 %20control%20of%20execution%20costs.pdf

【Almgren, Robert, and Neil Chriss. Optimal execution of portfolio transactions. Journal of Risk 3 (2001): 5-40. 】这篇文章我们专栏前面有讲过，很著名的 Almgren-Chriss 模型。张楚珩：【交易执行】Almgren-Chriss Model

【Guéant O, Lehalle C A, Fernandez-Tapia J. Optimal portfolio liquidation with limit orders[J]. SIAM Journal on Financial Mathematics, 2012, 3(1):740-764.】这篇文章我们专栏前面也有讲过；前面的 Almgren-Chriss 其实考虑的是使用市价单，而这里考虑使用限价单进行交易。张楚珩：【交易执行】限价单交易执行

【Guéant, Olivier, and Charles‐Albert Lehalle. General intensity shapes in optimal liquidation. Mathematical Finance 25.3 (2015): 457-495.】这里也是考虑限价单进行交易，但是与前面不同的是：前一个假设限价单考虑的成交概率随着价格指数衰减，而这里考虑了一个更加一般的形式。

【Cartea A, Jaimungal S. Optimal execution with limit and market orders[J]. Quantitative Finance, 2015, 15(8): 1279-1291.】这里考虑同时使用限价单和市价单进行交易，从而能够完成 Almgren-Chriss 模型所规定的方案，或者找到一个更有的交易方案。

【Bulthuis, Brian, et al. Optimal execution of limit and market orders with trade director, speed limiter, and fill uncertainty. International Journal of Financial Engineering 4.02n03 (2017): 1750020.】也是考虑使用限价单和市价单一起交易。张楚珩：【交易执行】市价单+限价单最优执行

【Cartea A, Jaimungal S. Incorporating order-flow into optimal execution[J]. Mathematics and Financial Economics, 2016, 10(3): 339-364.】这里考虑市场所有交易者的订单都会产生线性的短期/长期市场冲击，因此可以估计未来一段时间的订单流向（买单总量和卖单总量的差），从而能够在 Almgren-Chriss 模型的基础上进行一定的调整，使得策略更优。

图书

【Cartea Á, Jaimungal S, Penalva J. Algorithmic and high-frequency trading[M]. Cambridge University Press, 2015.】讲交易执行的基础上，更侧重讲了一些数学工具。

【Guéant O. The Financial Mathematics of Market Liquidity: From optimal execution to market making[M]. CRC Press, 2016.】从 Almgren-Chriss 模型开始讲，一直到相应的拓展和实际的问题，十分推荐。

融合对于市场环境隐变量的估计

【Casgrain P, Jaimungal S. Trading algorithms with learning in latent alpha models[J]. Mathematical Finance, 2019, 29(3): 735-772.】市场交易者会根据不同的市场挂单和价格走势而采取不同的反映，因此我们也可以根据历史数据学习到各种情况下的价格后验分布，从而更好地帮助我们进行交易执行或者套利。最后的结果可以看做在 Almgren-Chriss 模型的基础上外加了一个调控项，反映我们对于未来的预期。

如何实现以按量加权平均价格（VWAP）交易

【Kakade, Sham M., et al. Competitive algorithms for VWAP and limit order trading. Proceedings of the 5th ACM conference on Electronic commerce. 2004.】从在线学习的角度提出了几个用于使得我们交易到 VWAP 价格的模型。为什么会关注 VWAP 的交易执行？当大的流通股股东需要减持的时候，为了避免直接出售引起的价格波动，一般是把需要减持的股票卖给券商，然后由券商来拆单出售，而交易价格一般为未来一段时间的 VWAP，因此券商需要尽量以 VWAP 来交易执行。

【Białkowski, Jędrzej, Serge Darolles, and Gaëlle Le Fol. Improving VWAP strategies: A dynamic volume approach. Journal of Banking & Finance 32.9 (2008): 1709-1722.】改进对于交易量的建模，从而得到更好的 VWAP 交易算法。把交易量拆分为两个部分，一部分是市场整体的交易量变动，另一部分是特定股票上的交易量模式。

以按时间加权平均价格（TWAP）交易

为了对称，可以介绍一下另一种加权平均的情形 TWAP，这种情形实现起来相对比较简单；如果不考虑市场冲击，就拆分到每个时间步上均匀出售即可实现。

可以证明 TWAP 交易在以下两种情形下最优：市场价格为布朗运动并且价格冲击为常数；对于晚交易没有惩罚（其实更晚交易意味着面临更大的风险），但是对于最后未完成交易的惩罚较大。

二、强化学习方法

基于传统模型的强化学习方法

【Hendricks D, Wilcox D. A reinforcement learning extension to the Almgren-Chriss framework for optimal trade execution[C]//2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr). IEEE, 2014: 457-464.】本专栏有讲。

强化学习 + 交易执行（Paper/Article）

【Nevmyvaka Y, Feng Y, Kearns M. Reinforcement learning for optimized trade execution[C]//Proceedings of the 23rd international conference on Machine learning. 2006: 673-680.】比较经典的一篇，发在 ICML 上，本专栏前面有讲。使用 DQN 方法，实现形式接近 DP。

【Dabérius K, Granat E, Karlsson P. Deep Execution-Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks[J]. Available at SSRN 3374766, 2019.】使用了 DDQN 和 PPO 方法，基于生成的价格序列来进行实验，使用特定的模型考虑短期和长期市场冲击。

【Ning B, Lin F H T, Jaimungal S. Double deep q-learning for optimal execution[J]. arXiv preprint arXiv:1812.06600, 2018.】DDQN 的强化学习解法，在美股上实验。

【Lin S, Beling P A. An End-to-End Optimal Trade Execution Framework based on Proximal Policy Optimization[C]//IJCAI. 2020: 4548-4554.】使用 PPO 的解法，比较有意思的是这里面的实验结果显示，使用 LSTM 和把历史数据全部堆叠起来用 MLP 效果差距不大。也是在美股上实验。

【Fang Y, Ren K, Liu W, et al. Universal Trading for Order Execution with Oracle Policy Distillation[J]. arXiv preprint arXiv:2103.10860, 2021.】在使用强化学习的基础上，引入了一个教师网络，教师网络学习一个基于未来数据的策略，并且用于训练学生网络。本专栏前面有讲。

【Vyetrenko S, Xu S. Risk-sensitive compact decision trees for autonomous execution in presence of simulated market response[J]. arXiv preprint arXiv:1906.02312, 2019.】ICML-19 的文章。构造了一个可以反映市价单市场冲击的模拟器；使用 tabular Q-learning 来学习基于决策树的模型；使用特征选择的方法来筛选特征。通过以上方式，能够学习到一个模型帮助决策什么时候应该下市价单、什么时候应该下限价单。

【Akbarzadeh N, Tekin C, van der Schaar M. Online learning in limit order book trade execution[J]. IEEE Transactions on Signal Processing, 2018, 66(17): 4626-4641.】从 online learning 的视角来解决这个问题，使用 DP 类的方法，分析 regret 。

【Wei H, Wang Y, Mangu L, et al. Model-based reinforcement learning for predictions and control for limit order books[J]. arXiv preprint arXiv:1910.03743, 2019.】专栏刚刚讲了的一篇文章，使用 model-based 类的强化学习算法，直接学习一个世界模型，然后让强化学习策略通过和世界模型的交互进行学习。

【Karpe M, Fang J, Ma Z, et al. Multi-agent reinforcement learning in a realistic limit order book market simulation[J]. arXiv preprint arXiv:2006.05574, 2020.】这里的多智能体似乎适用于结合历史数据生成其他市场参与者的动作，而最优策略的学习仍然是使用单智能体 DDQN 方法来做。他们开源了一个考虑多智能体的模拟环境 ABIDES。

【Schnaubelt M. Deep reinforcement learning for the optimal placement of cryptocurrency limit orders[J]. European Journal of Operational Research, 2022, 296(3): 993-1006.】研究数字货币上如何下限价单。对比了 PPO 和 DDQN，发现 PPO 更好。探索出了一些重要的因子，比如 current liquidity cost，queue imbalance 等。

强化学习 + 交易执行（Thesis）

【Hu R. Optimal Order Execution using Stochastic Control and Reinforcement Learning[J]. 2016.】KTH （瑞典）工程学院硕士论文。算法直接是基于价值函数的动态规划。不过提供了比较详细的模拟环境和算法伪代码。

【Rockwell B. Optimal Order Execution with Deep Reinforcement Learning[J]. 2019.】加拿大蒙特利尔高等商学院硕士论文。使用 TD3 和 DDPG 算法，不过实验是基于人工生成的数据的（skew-normal Brownian motion）。

【Reiter M B. An Application of Deep Reinforcement Learning for Order Execution[D]. School of Engineering Science, Osaka University, 2020.】多伦多大学本科毕业论文。在使用 A3C 算法的基础上，考虑了使用教师学生网络的方式进行迁移学习，并且考虑了短期市场冲击。

强化学习 + 风险偏好

Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets

Deep equal risk pricing of financial derivatives with non-translation invariant risk measures

强化学习 + 做市策略

Optimal Market Making by Reinforcement Learning

Optimizing Market Making using Multi-Agent Reinforcement Learning

Deep Reinforcement Learning for Market Making

Deep Recurrent Q-Networks for Market Making

Robust Market Making via Adversarial Reinforcement Learning

Market making via reinforcement learning

强化学习 + 资产组合

Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution

Robo-Advising: Enhancing Investment with Inverse Optimization and Deep Reinforcement Learning

Large Scale Continuous-Time Mean-Variance Portfolio Allocation via Reinforcement Learning

lstm 记忆 ann 为什么是隐含层 csdn 循环神经网络颜色