当前位置:品种资讯 > 现货投资技巧 > 文章正文

选择数据压缩方法

来源:  日期:2025/5/9

  

正常情况下市场数据以时间段为单位汇总,如以N分钟(如5-, 15-, 30-, 60-,或者90-分钟)、天、周、月、季、年为时间间隔。无论哪一种时间间隔,该阶段的所有价格变化都被压缩成一个数值,通常是这个时间间隔内的平均值或者是收盘值。从这方面来说,每一个时间框架都代表了一个数据压缩水平。数据压缩至少是以5分钟为时间间隔的,大多数是以年为间隔来压缩的。所有的压缩都把比给定时间间隔短的变化排除掉了,因为压缩已将这种短期变化纳入一个单一的数值里。
在周期分析中,选择正确的压缩水平非常重要。选择正确压缩方法有两个原则:如果周期在数据中出现的次数超过250次以上,就使用时间间隔长一点的压缩(如不使用小时的压缩数据而使用日压缩数据)。另一方面,如果周期发生少于15次,就使用时间间隔短一点的压缩(如用日压缩数据而不使用周压缩数据)。下面就是对一些主要压缩类型的性质和弊端的阐述:
1.日内数据。尽管我们可以在一天内的数据中发现周期,但这种短于一天的压缩有两个问题。第一,这类压缩包含了很多的偶然因素。(一般来说,少于30分钟的压缩数据里偶然因素太多了。)第二,如早前讨论过的,最好是把数据限制在2 000个数据点,如果太多,大多数重要的周期会被遗漏。然而,每小时或更长时间的压缩数据在很多的序列中确实很有效果,分析师愿意用这些数据来作实验。作为一般原则,平均日数据量越大,最小单位的数据包含重要周期的可能性就越高。
2.日数据。日数据是循环周期分析的最佳数据。可以用来被分析的最小实用周期是5,因为数据点更少使杂质去除非常困难。循环周期的上限等于数据长度的1/10,就像前边解释过的,太长的周期重复出现的次数太少,一旦发现也不能进行适当的检测。
使用日数据的唯一的大问题是怎样对付假日。这里有三种选择:(1)重复前日的数据点;(2)插入缺失的数据点;(3)忽略假日不计。尽管这里没有一个唯一正确的答案,根据经验,我们更趋向于重复数据点。
3.周数据。除了日内数据,周数据是数据组合中最成问题的,因为它们总是不能和任何季节的模式相协调。问题在于,期货数据中的变化受季节影响的程度很大。事实上,很多短期或中期的周期都是季节性的。由于一个月不等于4周,一年也不整等于52周,周数据就会与季节变换步调不一致。周数据的主要价值在于它们可以识别由于太长而不能用日数据发现的周期。一个勉强实用的方法是使用周数据去发现这样的长周期,然后把它转换成日周期和月周期,这样就避免了周期与数据中的季节模式不协调的问题。与日数据相似,周数据被用来寻找的周期的长度最小为5个星期,最大长度等于数据长度的1/10
4.月数据。同日数据一样,月数据是周期分析的最佳压缩选择。月数据根本没有偶然性的问题,因为它们是经过高度规则化的。它们也能同期货数据的季节倾向极好地协调。月数据被用来寻找长度从5个月到350个月的周期。(前面提到过,最大周期长度应是数据长度的1/10,尽管这个上限超过了此长度,但具体条件限制可以不那么严格,这是数据的性质决定的。)
5.季和年数据。一般对于期货数据来说,这些更长间隔的压缩不能为分析提供足够的数据点。然而,在有些市场,现货序列的持续时间很长,可以进行这样的分析。一般年数据比季数据有更好的结果。对这些较长间隔的压缩,分析者被迫采用复合(Spliced)数据。例如,年小麦价格的存在可追溯到1259年。一个年小麦价格序列要把四个分开的序列结合到一起考虑:先于美洲小麦数据存在的英国小麦价格和三种不同的美国价格序列,它们反映了先后在市场上占主要地位的小麦品种的变换(例如,硬红对软红(hard red versus soft red))。公认的复合方法是有至少10年交叠数据,证明在两个序列之间有一致性,然后根据最近期的序列将历史数据规则化。
步骤2:直观审查数据
现今大多数的周期分析是由计算机来做的,越来越多的人忘了在分析一个新的数据序列之前看一下价格表。这个趋势是令人遗憾的,因为直观审查有以下几个功能:
1.识别不好的数据点。实际上所有的数据都包含着错误。大的错误会给周期分析方法带来灾难。在数据图表前直观审查一下,可以使分析者迅速识别任何明显的不行的点,然后再对其进行精确的检查。
2.识别极端价格偏移。1980年的金银价格的高峰和19871019日的股票市场的崩溃是极端价格移动的例子。这些移动得如此极端的价格会使周期分析严重扭曲,从而很难发现能代表长时间跨度数据的周期。在这样的情况下,最好的方法是做两个单独的数据分析:第一套数据一直到不规则运动出现之前,第二套数据从这个价格偏移之后开始。把每一套数据得出的周期用可靠的统计学测试加以比较,然后选出其中一套。
3.对趋势进行评估。对图表的直观审查可以很容易识别数据中是否存在趋势,并评估这种趋势的强弱。这种了解在决定数据是否需要非趋势化以及选择最合适的非趋势化方法时很重要。
4.估量市场摆动的平均长度。用眼睛寻找周期比大多数周期运算法则更敏感。如果你的眼睛看不出移动,那很可能不是很重要的周期。用尺子或周期测量器(Cycle finder)来测量谷底间的距离,可以估计周期的长度。
步骤3:将数据转变为对数形式
要找到循环周期,所有的数学程序都假定使用的是静止的数据序列,即没有趋势的序列。因此,要恰当地使用这些数学程序,有必要将数据非趋势化。通常完成期货价格数据非趋势化要有两个独立的步骤:(1)将序列转化成对数形式;(2)将平滑后的对数数据转化成与移动平均的差值。这两个步骤不能连续执行,理由将在以后谈到。在这部分里,我们详细介绍非趋势化的步骤的第一步。
在未经调整的价格序列图中,一定比例的价格变化会随着价格升高显得越来越大。这是我们不想看到的,因为它会导致数据严重失真,尤其是在趋势显著的序列中。然而,当数据转化为对数形式(即将数据取对数)时,同样百分比的价格变化在图表上表示的垂直移动是相同的。
这些数据特征可以在图16.6中看到,该表描绘了道·琼斯工业指数从1900年到1995年早期的原始数据和对数形式。在原始数据图中,由于价格升高,任何给定百分比的价格移动都会导致更大的垂直移动(这就是原始数据具有渐近特征的原因),而在对数图中,所有价格水平的垂直移动都是同样的。例如,股票移动10%,在4 000的水平上等于400个点,在100的水平上等于10个点,而在对数图表中,不管基数如何不同,每个10%的价格移动显示出来都是相同的。
 
1数据对数转换的影响
即使在用其他非趋势化方法(如偏离移动平均的差值)时,也总要采用对数形式,理由是对数将价格移动百分比规则化。即使数据经过非趋势化之后,这也是有好处的。如果不用对数形式,一个在高价格水平上固定百分比的价格摆动会比在低价格水平上同样百分比的摆动要大。因此,在不同的价格摆动中的相对振幅会出现扭曲。例如,如果股票指数不采用取对数的方法来非趋势化,当价格上升时,以水平为轴的振幅渐渐随着时间的增加会越来越大。
本章的讨论是假定将循环周期分析应用在期货价格序列上。为了全面,提醒大家注意,如果在经济序列中使用循环周期分析,而该经济序列又有极强的趋势成分(例如,消费价格指数),将对数转化作为非趋势化的第一步是不适宜的。这类序列应该用以下两个方法中的任一个来完成非趋势化:变化率法或第一差额法(first differences)
变化率(ROC)是用目前的数据点除以前边的某一个数据点得出的。在月经济数据里,前边的数据点通常定为12个月以前的数据点。12个月的ROC实际上是每年变动的百分比。第一差额是用每一个数据点减去前边挨着的数据点。第一差额是最少使用的转换方法之一,因为它创造出的数据序列参差不齐。尽管对数变化可以和移动平均偏值综合起来使用(这在以后讨论),但不能同变化率和第一差额这些非趋势化方法同时使用。
步骤4:使数据平滑
平滑,以去除数据错误。只有当一个人要使用干净数据,而数据可能包含错误并能被去除时,这类平滑的程序才是必需的。对待可能包含错误的数据的最好的平滑法是杜奇三点(Tukey three-point)平滑法。这个程序包括将最初的数据都转化成三个点的移动中值(mdeian)——选三个连续数据点的中间值,更高的和更低的数值被舍弃。因此,如果在数据中有任何特殊点,它们将会被舍掉。当然,这个方法会在去掉错误数据的同时也去掉有效的特殊点。如果可能,最好是修正数据,完全避免使用这个方法。
平滑,以去除随机波动。我们以前论述过,一个数据序列可以被分成三个基本的构成部分:趋势、循环周期和随机波动。因此,要寻找循环周期,有必要在数据中去除趋势和随机波动。如果最初的数据序列被完全非趋势化,自由波动已经去除,得出的序列应该是一个循环。非趋势化已经谈过了,虽然最后的非趋势化步骤——移动平均差值——要留到以后再谈(为什么这样做以后一看便知)。
要用平滑法消除(或至少是减弱)随机波动,需要取一个短期的居中移动平均数据。居中移动平均与在技术分析和交易方法中普遍使用的那种移动平均有所不同:在后一种移动平均中,一个指定点的移动平均数值等于以那点为止点的所有价格的平均值(这种移动平均将在第十七章详细解释)。在周期分析中使用的移动平均数是居中的,即,它是给定点、之前一定数目点以及之后同一数目点的平均值。例如,11天的移动平均是:给定日、它前5天及后5天价格的平均值。一个居中移动平均总是奇数序列。序列两端任一端的数据点将被舍弃,长度等于完全移动平均长度的一半。下面是计算3天居中移动平均的例子:
初始数据 134.50 141.20 132.40 138.90
对数数据 2.1287 2.1498 2.1219 2.1427
居中移动平均计算 (2.12872.14982.1219)/3 (2.14982.12192.1427)/3
居中移动平均值 2.1335 2.1381
在平滑数据时,关键是分析者要选择比要找的最短周期更短的移动平均。因为如果平滑数据时用的移动平均比要找的周期长,将会颠倒初始周期的相位。这一点将在以后论述移动平均偏离时再作解释和举例说明。
步骤5:寻找可能存在的循环周期
通过目测寻找周期。也许发现周期最基本的方法就是在数据表上数一下相似高位和相似低位之间的时间。这正是研究者(如赛缪尔·贝纳)在18世纪寻找周期的方法。这一方法的主要问题就是太耗费时间。比这简单得多的办法是用尺子量图表上主要高点之间和主要低点之间的距离。一个大大简化这一程序的工具是艾烈治(Erlich)周期量度器。这是有九个点、可折叠的像手风琴似的工具,拉开后,这些点就在主要的高位和低位下面排列起来。但所有的目测都有一个问题:它们不能对发现的周期进行统计检测。不运用标准的数学技术,也很难把不同的周期联系起来。
周期图。基本周期图最早是舒斯特尔(Schuster)1898年发明的,是研究循环周期最有名、最重要的工具之一。周期图通过分析表格中的数据来力求识别循环周期。供使用的数据按时间顺序分成列,列的数目同要找的周期的长度相等。每一个要找的周期长度都要建一个单独的周期图表。例如,如果我们有135个年数据,要确认是否有一个9年的周期,我们要把数据分成9列,15行。第1个数据点在第1行,第1列;第2个数据点在第1行,第2列;第9个数据点在第1行,第9列;第10个数据点在第2行,第1列。以这样的形式填表,直到135个数据点都放置在9列,15行中,然后从每个列中得出一个平均数。如果数据中真的有9年周期,那么有一列的平均值是明显的峰,另一个列中是明显的谷底(在排除数据中的趋势影响之后,如果没有近似的9年周期,列平均值就比较接近)。
步骤3中将初始数据转化为对数形式,只是部分地非趋势化了数据,如前所述,数据中任何残留的趋势都会极大地影响统计测试的可靠性。移动平均差值是最好的完全非趋势化数据的方法。计算差值的方法是用原数据减去移动平均数据。既然移动平均反映了数据中存在的趋势,用数据减去它便产生了一个非趋势化的序列(见图16.11)。
用初始数据减去居中移动平均,得出的是由移动平均差值(departures)或叫残差(residuals)组成的一个新的时间序列。每一个被发现的周期(即每一个被光谱分析所识别的可能存在的周期)都要得出一个单独的差值序列。上面提到的差值序列的计算采用的数据与前边讲述居中移动平均时采用的数据相同:
初始数据  134.50  141.20  132.40  138.90
对数数据  2.1287  2.1498  2.1219  2.1427
居中移动平均数值   2.1335  2.1381
差值(残差)     0.0163 -0.0162
步骤7:测试循环以保证统计的意义
统计测试的必要性。一旦用以上的方法发现并使周期完全非趋势化以后,分析者必须用不同标准的统计技术来评估周期。这个步骤非常重要,原因在于:观察者有把周期看得比实际的要好的倾向。因此,重要是要使用客观的统计测试法。在周期分析中通常使用的重要测试有三种:Bartels测试、F-比率和卡方Chi-Square测试。这三种中,Bartels测试提供了测量周期有效性的最有意义、最可靠的方法。
对统计测试结果解释的一般考虑。在使用和解释这些统计测试时要注意几个要点:
1.周期分析中使用的所有的统计测试方法都会因趋势的存在而有偏差,这会导致统计测试不能充分揭示数据中周期的意义。这就是为什么在此步骤前要使数据完全非趋势化。
2.这些测试结果的意义大小取决于数据中周期发生的次数。因此,所有长度较短的周期由于在数据中重复出现得较多,容易有更好的测试结果。一般来说,在数据流中重复出现不到10次的周期(即频率小于10)统计测试的意义不大。然而,已给出的原则避免了寻找频率低于10的周期长度。
3.测试产生的统计值与概率是相关的。统计值越大,概率值越小——即,出于偶然形成周期的概率越低;或者这么说,真实周期的可能性越大。为避免混淆,分析者应该注意,使用周期分析软件得出的统计测试结果是用测试的特定统计值还是用概率值表示。在以前,概率值将根据用于测试的统计表查出。有一段时间,由于(测试)概率值的程序很复杂,测试结果一般用统计值来表示。然而,随着处理能力大大提高,计算机能迅速地直接计算出概率。结果是,现在周期分析软件更普遍地是用概率值来显示,因为它比统计值更直接地对结果做出解释。
4.一般来说,概率值大于0.05(5%)的周期要被舍弃。(概率为0.05意味着周期出于随机产生的偶然性是百分之五。)最好的周期的概率是0.0001(出现偶然的可能性是万分之一)或更少。
5.一个警告:统计测试显示的低概率只是表明一个明显的周期很可能不是出于偶然;它们并不能确保周期是真实的。即使在完全随机的数据序列中,统计测试偶尔也会识别一些重要的周期。因此,统计测试可被视为一个向导,而不是一个可以完全依赖的绝对真理。
周期分析中最重要的统计测试是Bartels测试,它需要先完成调和分析。下面所述是操作步骤。
 
调和分析。从实际上来说,它与光谱分析类似。因为需要大量计算,调和分析也需要使用计算机软件程序。调和分析将一个三角曲线配到周期图的列平均线上。例如,在图16.13中,将由调和分析导出的相配曲线叠加在图16.8中那条根据玉米每年价格的9列周期图导出的列平均线上。只有识别可能的周期长度后才能进行调和分析。这就是为什么必须先用光谱分析决定这些周期的长度的原因。调和分析得出的相配曲线被用来作为对周期可靠性进行统计测试的基础,大多数人使用Bartels测试,这是周期分析统计测试中最重要的一种。一般来说,调和曲线与周期图列平均线越相符,统计的可靠性越大。
Bartels测试。Bartels测试测量的是价格序列与调和曲线——它是根据进行测试的给定周期的长度导出的——的符合程度。Bartels测试将周期曲线配合到数据中出现的每一个循环中,根据随便估计的振幅对每一个循环的振幅进行测试。Bartels测试既测量振幅(形态),也测量周期的相位(出现时机)。当振幅和时间选择都稳定的时候,真实周期的数学测量值会是最高的(即,周期由于偶然原因产生的概率是最低的)。Bartels测试是专门设计用于进行连续相关数据(数据点的数值被前边数据点的数值作影响的数据)测试的。由于这个原因,Bartels测试对价格数据测试特别合适,因为价格数据是连续相关的。
 
F-比率。一般来说,统计学上的F-比率是两个方差的比率。方差是一个标准误差的平方,而误差是数据偏离的量度。一个数据点高度分散的数据序列的标准误差和方差就高。相反地,一个点很集中的数据序列的标准误差和方差就低。
在周期分析中,F-比率是周期图列平均的方差和周期图行平均的方差的比率。如果数据中不存在一个给定长度的周期,周期图的列平均就不会像谷物年数据的9列周期图的列平均那样,显示任何显著的方差(即,就不会有突出的列波峰和谷底)。因此,列平均的方差就不会比行平均的方差大得多,这就是说,F-比率就根本不会大于1.0。另一方面,如果数据中出现给定的周期长度,列平均的方差就会比行平均的方差大得多(当然,假设数据已经被非趋势化了),F-比率就会明显大于1.0F-比率越高,周期可能是偶然出现的可能性就越小。
在交易是否有可能利用周期获利方面,F-比率是非常好的指标。如果,用Bartels测试和卡方测试(下面讨论)表明明显出现了一个周期,但F-比率低(高F-率概率),这偶尔会发生,那么这个周期是否对交易有用就值得怀疑。F-比率对于趋势非常敏感,因为数据中的趋势会使周期图的行平均的方差急剧增加,这样就会减小F-比率。因此,如果数据没有被完全非趋势化,即便周期是有效的,F-比率也可能会显示周期无效。然而,如前所述,我们假设在周期测试阶段前数据已经完全被非趋势化了。
卡方测试。卡方测试(the Chi-Square test)提供的是关于周期相位(时间选择)可靠性的测量,即,周期高点和低点是否准时出现。在卡方测试中,每一个周期相位(即,周期图的行)被分成7个相等部分(或者叫仓(bins)),理论上,周期高峰处于中央仓。这样,在每一个周期相位中实际高峰所处的仓的位置就能被注意到,峰出现在每个仓的次数就可被记下来。如果有连续周期,就有一个趋势,即大多数的高点落在中央仓上,落在其旁边的仓的高点数目次之,离中仓越远,落在仓上的高点数越少。因此,每个仓之间高点数目的方差(误差)很高。相反地,如果没有周期,每一个仓的高点数目就趋向于均匀分布,每一个仓的高点数目的方差(误差)就会低。如果每一个仓的高点数目的方差比率相对比随机分布中估计的高点方差要大,卡方测试会显示周期是有意义的,即周期是偶然出现的概率很低。
总结:卡方测试测量的是周期相位(时机)的可靠性;F-比率测量的是周期振幅(形式)的可靠性;Bartels测试测量的是相位和振幅的可靠性。有效周期在所有三个统计测试中都能显示是有意义的,即每一个测试的概率都小于0.05
步骤8:联系和应用循环周期图
一旦主要的循环周期被发现,并被统计测试证明有效,下一个任务就是用这些循环周期预测和反映将来(一个又要使用循环周期分析软件的步骤)。典型的方法是在历史价格图表的下方放置主要周期,使其在未来时间内重复延伸。通常情况下,这个未来预测线应限制在得出周期的数据序列长度的1/3以内。例如,假设在周期分析中使用的是8年(96个月)的日数据(2 000余个数据点),周期预测线延伸到未来时间的长度不应超过32个月。分析者当然可以远在这个计划的终点没有达到之前充实新数据,执行新分析。
绘制周期图时有两种想法:(1)单独地绘制周期图;(2)用数学的方法把主要的几个周期综合成一个合成曲线。周期合成有一个问题,即当两个或三个周期的峰顶和谷底大约同时发生时,叠加周期会导致振幅变形。例如,一个20天的周期和一个30天的周期最后会在同样的时间达到峰顶和谷底。这会增大合成周期的量级,显示出主要高点和主要低点的形状,而它们仅仅是人为叠加的结果。任何合成的振幅并不意味着比最大的主要周期的振幅大,尽管综合周期给人以这种印象。这些问题并不意味着周期不应被综合,而是提醒交易者小心这个方法的陷阱。概括来说,综合周期对预测将来趋势是最有用的,而单独的周期最适合帮助确定交易时机。
 
在考虑周期预测时要谨慎:有的交易者犯的错误是把周期预测看成某种交易仙丹,是未来价格活动的指南,交易者可以凭借周期预测市场的转折点。应该强调的是周期预测只提供了可能性,而不是必然性。下面有两个原因来解释为什么事后证明周期预测会出错:
1.市场价格波动不是标准的正弦曲线。周期分析中的基本数学曲线是假定价格移动是完美对称的,而实际的价格移动并不对称:价格摆动在主要趋势方向上的时间比逆趋势移动的时间要长。
2.周期不是唯一推动市场变化的力量,其他价格因素可以常常盖过周期的影响。
不过,只要交易者认识到周期预测的局限性,不把它们作为交易决定的唯一依靠,周期预测就为我们增加了一个有用的分析工具。下一部分将详细来谈谈如何结合周期预测做交易决定。

重庆元梦电子商务有限公司 版权所有 渝ICP备19015798号

地址:中国.重庆 电话:值班电话:15330549969 公司邮箱:ncpbot@126.com 客服QQ:1987894693 微信号:15330549969^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^