大家好,今天小编来为大家解答以下的问题,关于量化交易平台搭建流程,关于量化交易,这些入门知识你需要了解这个很多人还不知道,现在让我们一起来看看吧!
本文目录
一、做量化交易一般用什么软件
1、需要懂一些数学模型,比如统计分析、人工智能算法山扮知之类的,他的本质是利用数学模型分析数据潜在的规律寻找交易机会,并利用计算机程序来搜寻交易时机以及完成自动化交易。并没有现成的软件可以做这个,因为它需要一个搭建一个专业的平台,这不是一个人可以完成的。
2、国内有一些软件,比如大智慧提供数量分析,还有一些软件提供股票、期货的程序化交易。但是实际上这并不是真缺迅正意义上的量化交易。事实上,做一款纯粹的适合个人投资者的量化投资软件,难度是非常大逗消的,因为量化策略并不想传统的基本面、技术面那样存在已有既定的必然规律。他需要跨越多学科,多领域去挖掘数据的规律,然后利用得出的规律进行交易。但是不同时间、空间的数据的潜在规律并不一致,所以对量化过程进行标准化是一件很难完成的事情。
3、如果是计算机或者数学专业的人士,可以考虑使用C、C++、SQL等语言,其他的可以使用MATLAB/SAS等软件。不管是哪一种软件,要实现量化交易,肯定是需要一定的建模基础和编程基础的,其中最重要的东西是数学能力。
二、关于量化交易,这些入门知识你需要了解
1、这篇文章将向你介绍量化交易系统的一些基本概念。本文主要面向两类读者,第一类是正在努力寻找一份量化交易员工作的求职者,第二类是期望尝试开启自己量化交易事业的个人投资者。关于量化交易,这些入门知识你需要了解。
2、量化交易是数量金融学一个极其艰深复杂的领域。若要通过面试或构造你自己的交易策略,就需要你投入时间学习一些必备知识。
3、量化交易系统包括四个主要部分:
4、策略识别:搜索策略、挖掘优势、确定交易频率。
5、回溯测试:获取数据、分析策略性能、剔除偏差。
6、交割系统:连接经纪商、使交易自动化、使交易成本最小化。
7、风险管理:最优资本配置、最优赌注或凯利准则、交易心理学。
8、我们首先来谈谈如何识别一个交易策略。
9、所有量化交易流程都肇始于一个初期研究。这个研究流程包括搜索一个策略、检验它是否适合你可能正在运作的策略组合、获取任何测试策略时所需数据、努力优化策略使其预期年化预期收益更高且(或)风险更低。如果你是一个“散户”交易员,一定要清楚自己的资金是否充足,以及交易成本对策略的影响。
10、通过各种公开数据搜索可盈利的策略实际上十分简单,并没有大家想的那么难。研究学者会定期发表理论交易结果(虽然大多为交易成本总额)。一些数量金融学主题博文也会详细讨论策略。交易期刊还会简报一下基金管理公司使用的一些策略。
11、你可能会问,个人与公司怎么可能愿谈他们的可盈利策略,特别是当他们知道,如果其他人“复制相同的策略”,长期而言它终将失效。
12、原因就在于,他们通常不会透露具体的参数以及他们所使用的调参方法,而这些优化技能才是把一个表现平庸的策略调成一个回报丰厚的策略所需的关键技术。实际上,若要创建你自己的、独一无二的策略,一个最好的法子就是寻找相似的方法,尔后执行你自己的优化程序。
13、你所看到的很多策略都可清陆归入均值回归交易策略、趋势跟随或动量交易策略两类。
14、均值回归策略试图利用这么一个事实:“价格序列”(如两个关联资产的价差)存在一个长期均值,价格对均值的短期偏离终将回归。
15、动量交易策略则试图“搭上市场趋势的顺风车”,利用投资心理和大基金结构信息在一个方向积聚动量,跟随趋势直至回归。
16、定量交易还有一个重要方面,即交易策略的频率。低频交易(LowFrequencyTrading,LFT)通常指持有资产超过一个交易日的策略。相应地,高频交易(HighFrequencyTrading,HFT)通常指持有资产一个交易日的策略。
17、超高频交易(Ultra-HighFrequencyTrading,UHFT)指持有资产的时常达秒级与毫秒级的策略。虽然散户可以进行HFT与UHFT交易,但也只是在你掌握了交易“技术栈”与订单簿动力学的详细知识后才有可能。本篇入门文章,我们不会对这些问题做任何深入探讨。
18、策略或策略集合一旦确定,现在就需要在历史数据上测试其盈利能力,这就进入了回溯测试的工作范围。
19、回溯测试的目标是提供证据,佐以证明通过以上流程所确定的策略,无论是应用于历史(训练)数据还是测试数据均可盈利。它可以反映该策略未来在“真实世界”中的预期表现。
20、由于种种原因,回溯测试不能保证一定成功。这或许就是量化交易最为微妙之处,由于它包含了大量的偏差,我们必须尽尽力仔细审查并剔除它们。
21、我们将讨论几种常见类型的偏差,包括先窥偏差、幸存者偏差与优化偏差(亦称“数据窥视偏差”)。回溯测试中其他几个重要方面,包括历史数据的可用性与清洁度、真实交易成本及可靠回测平台上的决定。培正尘我们会在后续“交割系统”一节深入讨论交易成本。
22、策略一旦确定,我们就需要获取历史数据,并藉此展开测试,如有可能还可改进策略。现在卖数据的很多,所有资产类型的数据都有。通常,数据的质量、深度、时间间隔不同,其价格也不同。
23、刚入门的量化交易员(至少零售等级)最初使用雅虎金配禅融板块(YahooFinance)的免费数据就行。对于数据供应商,这里不再赘言。我想重点谈一谈处理历史数据时,时常遇到的问题。
24、对于历史数据,人们主要关心的问题,包括数据精度或清洁度、幸存者偏差、应对如分发红利、拆分股票等公司行为的调整。
25、精度与数据整体质量有关,无论数据是否包含错误。有时错误容易识别,比如使用一个窄带滤波器,就可以找出时间序列数据中的“窄带”并更正它们。其他时候,错误又很难甄别,经常需要根据多个数据供应商提供的数据进行对比检查。
26、幸存者偏差通常是免费数据集或廉价数据集的一个”特征“。对于一个带有幸存者偏差的数据集,它不包含已经不再交易的资产数据。不再交易的证券,则表示已经退市或破产公司的股票。如果数据集中含有此类偏差,策略在此数据集上的测试表现可能比在”真实世界“里表现的更好,毕竟历史”赢家“已经被预先筛选出来,作为训练数据使用。
27、公司行为即公司开展的常引发原始价格阶梯形变化的”逻辑“活动,它不应该计入价格预期年化预期收益。公司分发红利和拆分股票行为是引发调整的两个常见行为,二者无论发生哪一种,都需要进行一个”回调“的流程。我们一定要留心,不要把股票拆分和真实预期年化预期收益调整混为一谈。许多交易员在处理公司行为时都碰过壁!
28、为了开展回溯测试,我们必须使用一个软件平台。你可以选择一个专门的回测软件如MultiCharts,一个数值平台如Excel或MATLAB,或者一个用Python或C++完全自主实现的平台。对于MultiCharts(或类似平台),个人是比较介绍,对于编程的要求比较低。
29、在做系统回测时,一定要量化表示系统性能。定量策略的“业界标准”度量为最大资金回挫与夏普比率。最大资金回挫表示一段时间(通常一年)内账户资金曲线从波峰至波谷的最大跌幅,常使用百分比表示。
30、由于大量的统计因素,LFT策略比HFT策略的资金回挫更高。历史回测会显示过去的最大资金回挫,它能够较为贴切地反映策略的未来资金回挫情况。第二个度量指标是夏普比率,它被启发式地定义为“超额预期年化预期收益均值与超额预期年化预期收益标准差的比值”。
31、这里,超额预期年化预期收益表示策略预期年化预期收益超出某个预定基准,如标普500或三月期短期国债(预期年化预期收益)的额度。注意人们通常不使用历史预期年化预期收益指标,因为它忽略了策略波动性的影响,而夏普比率却考虑到了这一点。
32、如果经过回测,策略的夏普比率很高且其最大资金回挫已经最小化,则可以认为它趋于无偏,下一步就是要搭建一个交割系统。
33、交割系统是一个方法集合,由它来控制交易策略生成的交易列表的发送和经纪商的交割行为。事实上,交易可以半自动、甚至全自动生成,而执行机制可以手动、半自动(即“点击一次交割一项”)或者全自动。
34、尽管如此,对于LFT策略,手动和半自动技术却比较常见;对于HFT策略,则必须创建一个全自动交割机制,由于策略和技术彼此依赖,还要经常与交易指令生成器紧密相接。
35、在搭建交割系统时,我们需要考虑几个关键因素:连接经纪商的接口、交易成本(包括佣金、滑动价差与价差)最小化、实时系统与回测时系统性能的差异。
36、联系经纪人的方法有很多,你可以直接电话联系他,也可以通过一个全自动高性能的应用程序接口(API)实现。理想情况,就是希望交割交易的自动化程度尽可能高。这样一来,你不仅可以脱开身集中精力进行深入研究,还能运行多个策略、甚至HFT策略(实际上,如果没有自动化交割,HFT根本不可能)。
37、前面说过的几种常用回溯测试软件如MATLAB、Excel和MultiCharts,对于LFT策略或简单策略都是不错的选择。但是,如果要做真正的HFT,你就必须要构造一个用高性能语言(如C++)编写的内部交割系统。
38、说个我的亲身经历,以前受聘于一家基金管理公司,我们有一个十分钟的“交易周期”,每隔十分钟下载一次新的市场数据,然后根据这十分钟的信息进行交割。这里用的是一个优化的Python脚本。对于任何处理分钟级或秒级频率数据的工作,我相信C/C++更理想。
39、在一家大型的基金管理公司,交割系统的优化通常不在量化交易员的工作范围。但是,在小点的公司或高频交易公司,交易员就是交割人,所以技术面越广越好。你要想进一家基金管理公司,一定要记住这一点。你的编程能力不说比你的统计学和计量经济学禀赋更重要,至少也同样重要!
40、另外一个属于交割系统的重要问题是交易成本最小化。一般地,交易成本由三部分构成:佣金(或税收)、损耗与价差。佣金是向经纪商、交易所和证券交易委员会(或类似政府监管机构)支付的费用;滑动价差是你的预期交割价位与真实交割价位的差值;价差则是待交易证券的卖出价与买入价之差。注意价差不是常数,它依赖于市场当前流动性(即买单和卖单数量)。
41、交易成本是决定一个策略是高夏普比率且盈利丰厚,还是低夏普比率且极不盈利的关键。根据回溯测试正确预测未来的交易成本很具有挑战性,你需要根据策略频率,及时获取带有卖出价与买入价信息的历史交易数据。
42、为此,大型基金管理公司量化交易的整个团队都专注于交割优化。当基金管理公司需要抛售大量交易时(原因五花八门),如果向市场“倾泻”大批股票,会迅速压低价格,可能都来不及以最优价格交割。
43、因此,纵使遭受损耗风险,基金管理公式也会选择使用算法交易,通过“打点滴”的方式向市场出单。此外,其他策略如若“捕到”这些必要性条件,也能利用市场失效(获利)。这是基金结构性套利的内容。
44、交割系统最后一个主要问题关系到策略的实时性能与回测性能的差异。这种差异由多种因素造成,比如我们在“回溯测试”一节已经深入讨论过的前窥偏差与最优化偏差。
45、然而,对于有些策略,在部署之前不易测得这些偏差。这种情况对于HFT最为常见。交割系统和交易策略本身均可能存在程序错误,回溯测试时没有显现却在实时交易时出来捣乱。市场可能受到继交易策略部署后的一场政变的影响,而新的监管环境、投资者情绪与宏观经济形势的变化也均可能导致现实市场表现与回溯测试表现的差异,从而造成策略盈利性上的分歧。
46、量化交易迷宫的最后一块是风险管理程序。风险包含我们之前谈论的所有偏差。它包括技术风险,比如所有在交易所的服务器突然发生硬盘故障。它还包括经纪风险,如经纪商破产(此说并非危言耸听,引发恐慌的明富环球就是一个例子)。
47、总而言之,它覆盖了几乎所有可能干扰到交易实现的因素,而其来源各不相同。已经有成套的书籍介绍量化交易策略的风险管理,本人也就不再对所有可能的风险来源做详细说明。
48、风险管理还包括投资组合理论的一个分支,即所谓的“最优资本配置”,涉及到如何将资本分配给一组策略、如何将资本分配给策略内不同交易的方法。这是一个复杂的领域,依赖于一些高级数学知识。
49、最优资本配置与投资策略杠杆通过一个名为凯利准则的业界标准建立联系。本文是一篇入门文章,我在此不详谈其计算。凯利准则对策略预期年化预期收益的统计性质做过一些假设,但是它们在金融市场中并不一定成立,交易员因此在实现时通常会有所保留。
50、风险管理的另外一个关键成分涉及到交易员自身心理因素的处理。尽管大家都承认,算法交易若无人为干涉,不太容易出现问题。交易员在交易时,稍不留神仍然可能会掺入许多认知偏差。
51、一个常见的偏差是厌恶规避,当人发现损失已成定局,其所带来的痛苦,可能会麻痹人的行为,不能做到及时抛盘止损。类似地,由于太过忧心已经到手的预期年化预期收益可能赔掉,人们可能也会过早抛盘收利。
52、另外一个常见的偏差是所谓的偏好偏差:交易员太看重事件而非长远地看问题。此外,当然不能落下“恐惧与贪婪”这对经典的情绪偏差。这两种偏差常导致杠杆不足或杠杆过度,造成爆仓(账户资产净值近乎为零或更糟)或盈利缩水的局面。
53、由此观之,量化交易是数量金融学中一个虽趣味十足但极其复杂的领域。我对这个话题的讨论浅尝辄止,文章就已经这么长了!我在文中三言两句带过的问题,已经有大量的相关书籍和论文出版。
54、因此,在你申请量化基金交易职位前,务必要进行大量的基础调研,至少应当具有统计学和计量经济学的广泛背景,以及使用MultiCharts、MATLAB、Python或者R程序语言实现的丰富经验。如果应对的是更加复杂的高频端策略,你的技能组合可能还要包含Linux内核修改、C/C++、汇编编程和网络延迟优化。
三、数据体系搭建(二) — 指标体系
由于目前网上关于数据体系相关的知识较少,本文尝试从笔者从事过的产品设计与用户运营经验中,结合自己对数据分析的理解,从0开始搭建一个完整的数据体系,从顶至底拆分,将分析模块的不同功能抽象整合成各个子体系,力求梳理清楚其中的脉络关系,全文共分为6部分,以平台型电商为例子,一步步从框架设计拆解到具体的指标设计,可视化设计:
指标体系=数据主题+场景专题+指标量化
简单来说,就是将统计指标系统性地组织起来,指标体系是由体系与指标两部分组成的。
体系是数据主题+场景专题组成的:
数据主题:渠道、产品、用户、营销、商品、营收、服务、市场等
场景专题:用户规模、用户质量、健康度等;
指标则是依照着数据主题猜逗/场景专题进行抽象量化出来的:
用户指标:用户数、次数、人均次数、时长、点击率、渗透率、留存率等
指标是指标体系的砖块,而数据主题是楼层规划图,决定要建几层高,场景专题是室内规划图,每一层里面需要几厅几室几卫,只有先规划好楼高,并依照着室内规划图,才能将一堆毫无组织的砖头搭建成规整的,四平八稳的,有主题有内在逻辑关系的大楼。
指标体系是一个不断体验、熟悉产品,分析业务然后进行量化修正的过程,需要明确产品在各个阶段的关注重点,并且考虑不同角色的关注偏向,然后按照下方四个步骤来设计指标:
其中第1步跟第2步,是在整个指标体系,甚至整个数据体系的基础框架,需要在前期就制定好大致的内容与方向,后期只是在既定的基础上进行新增与调整,不会大幅变动,所以这两步非前激常重要。第3、4步主要是对前面定义的场景专题进行抽象,并设计指标进行量化的过程,在这个过程中,需要不断评估指标是否已经完整地描述了所要抽象的业务场景(场景专题),如果不完备,则需要继续设计补充,直到有足够的指标能够很好反映出该业务场景(场景专题)的各种变动情况。
下面从平台型电商的八大主题:渠道、产品、用户、营销、商品、营收、服务、市场,来简单介绍下“如何进行指标量化”
渠道的定义会比较宽泛,并不是只有应用市场,应用商店这种才属于渠道,只要能够有稳定的客流,能持续吸引来用户进入产品的客源入口都可以称为渠道,由此我们得知,渠道的存在目的是为了给产品导入流量,而我们导流都是花了真金白银的,自然我们会希望花出去的钱能够看到效果,以便我们能随时调整投放的比例。
所以我们需要对导入的用户进行监控并分析,判断渠道带来的用户的特性是如何?以及哪些用户质量比较好,哪些用户质量比较差?以这些数据可以对渠道进行评价。
那么我们需要监控的内容就包括:
产品是用户产生交互与交易这些行为的场所,所以我们需要从场所本身来监控,也就是产品自身的使用情况,包括产品各个功能的使用率,使用体验,产品主路径的转化情况,不同频道的商品分发情况等
用户是一个产品能否存活的根本所在,所以用户这个主题中,需要深入地去挖掘用户的信息,监控用户的日常变动情况,运用各种分层模型,以尽可能多,可能细的维度,对用户进行刻画。从用户注册到流失的每个阶段,每个周期,都需要有详细的指标在监控着,只有对用户有详尽的了解,再配合上对应的运营工具,才能对对用户进行分层分群的精细化运营,设计对应的运营策略,以达到做大用户盘子、促进用户成长、延长用户生命周期、最大化用户生命周期价值的目的。
用户主题的指标量化也有不少现有的模型可以参考,如AARRR海盗模型、RFM模型、生命周期模型等,都可以拆分出对应的指标来监控与分析。
用户流动情况是衡量历穗悔卖史到当前用户贡献的收益(生命周期价值是整个周期,包括未来),以及每天的价值流动、变化情况,它是精细化运营的前提,不同价值的用户采取不同策略使其流动以最大化效果。
营销是指在基本的市场商品交换行为上,辅以各种有助于销售的思维与行为,因为营销的范畴有点大,包括市场营销、活动营销、网络营销等,限于篇幅,在这边先狭义地理解成各种促销活动,如拼团、秒杀、满减等,这些都是电商常用的一些营销手段,目的是为了在一段时间内,快速促进商品的销售,所以我们需要监控营销活动中,用户的行为状态与交易状态,以便能清晰准确地的掌握促销活动的效果,为下次活动做好经验沉淀。
商品的整个生命周期第一步是招商的工作人员负责吸引供应商入驻,需要有一套对供应商的严格筛选标准,能直接决定商品的档次、品质和货源的稳定性等因素(平台型无)。
第二步是商品的选择,呈现给用户的得是有质量的好商品,包括商品的款式、质量、性价比等指标。细节的地方我们会涉及到商品的图片及文案,每个细节对商品的转化率都有比较大的影响,因为用户是否下单是有很多因素的,我们把可控的因素做到最好,那就可以比较好的提高转化率。
第三部是商品的销售环节,我们怎么通过数据挑出好卖的货给到我们的用户的呢?
最后商品卖出去后我们的售后怎么样、我们的发货速度怎么样,也是直接影响用户的体验,可以说商品的每个环节都直接决定我们产品给用户的价值。
电商平台的用户,进入产品的核心需求是购物,所有为了满足用户的需求,在商品这个主题下,也需要对商品的整个销售周期(进销存)进行监控,包括售前的商品总数、库存、上架数,售中识别商品的优势,商品销售过程是否健康,哪些畅销?哪些滞销了?以便运营人员可以及时发现并做出调整,售后的退货率,投诉率,满意度等。
商品的规模主要是从广度、宽度、深度三方面来描述,采购广度是商品品类,越充足的品类越能满足消费者的消费,采购宽度是SKU占比,代表商品供选择的丰富程度,采购深度是平均每个SKU的商品数量。
营收主题是所有主题中跟钱最直接相关的,主要从全平台的角度,对成本与收益等方面内容进行衡量,以便了解整个平台的流水情况
服务主题在整个业务过程中并没有明确的划分界限,而是分布在整个业务流程中,当用户注册时需要进行风控监测,用户购买时咨询客服,用户下单时需要检测支付风险,账号风险,以后售后相关的服务等等
从用户进入页面的的那一刻起,注册、登陆、领券、浏览、购物、仓配、评价到售后,每一个环节每一个步骤都进行统计。当某一个环节出现数据暴增等异常,就可以第一时间进行预警,控制风险的蔓延,并防止次生风险的发生。
市场类的数据一般比较难获得,来源渠道也比较多且杂,数据噪音会比较大,一般只是作为参考,但也有另外,如果你是开发平台类产品的话,平台上的商户足够多,这些商户汇总的一些统计性指标是可以当成一个市场类的参考值作为分析与监控的,如所有商户的均值可以作为基准来对比用户的新增、留存;交易的规模;商品的售卖情况等等。
1.完备性:通过指标体系能够对产品的经营状况一目了然;如产品现在增速如何?现状是否健康等?
2.系统性:通过指标体系能够粗略定位到数据波动的原因;如活动用户下降,通过指标体系能够拆解到大概原因。
3.可执行性:指标体系是可量化并实现的;
4.可解释性:所有指标的统计逻辑都是可解释的,容易被用户理解的。
好了,关于量化交易平台搭建流程和关于量化交易,这些入门知识你需要了解的问题到这里结束啦,希望可以解决您的问题哈!
声明:本文内容来自互联网不代表本站观点,转载请注明出处:https://www.41639.com/15_286860.html
