金母鸡量化教学场如何做好因子特征工程

白癜风诊断 http://pf.39.net/xwdt/210612/9056233.html

本次的主题是如何做好特征因子工程,跟随我们一起往下看吧!

要做好特征工程主要是解决以下几个特征工程子问题:

一、特征提取

在数据挖掘领域,特征提取是将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBPHOG])或者统计意义或核的特征。比如通过变换特征取值来减少原始数据中某个特征的取值个数等。对于表格数据,可以在设计的特征矩阵上使用主要成分分析(PrincipalComponentAnalysis,PCA)来进行特征提取从而创建新的特征。对于图像数据,可能还包括了线或边缘检测。常用的特征提取的方法有:主成分分析(PCA)和线性判别分析(LDA)。

金融领域也是如此。特征提取的对象是原始数据(rawdata),它的目的是从原始数据中提取特征,比如我们获取股票的行情数据,行情数据里包含开盘价、最高价、最低价、收盘价、复权因子,我们不能直接使用这些股票价格作为特征,因为公司可能会有分红、派息等行为,因此股票价格不能反映真实的股价,所以要对其进行复权处理,进行处理以后,得到复权后的价格数据可以提取成新的特征了。

二、特征选择

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:

特征是否发散

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。比如我们选取股票ST状态(ST:0,非ST:1)这个特征,这个特征较长时间会保持不变,因此该特征不发散,这样的特征我们尽量不选取。

2、特征与目标的相关性

这点比较显见,与目标相关性高的特征,应当优选选择。在有效市场或强有效市场中,类似于成交价格、成交量这类行情特征能够很充分地反映股票的大部分信息,因此这类特征应该优先选择。另外,量化交易员开发策略时,特征的选择与策略的模式也高度相关。

比如,希望开发一个策略能够挖掘“长期低量盘整,价格突然持续拉高”的股票,如果这样的选股模式在金融市场上是可以盈利的,那么在选择特征的时候,应该选择长期平均成交量与短期成交量之比、长期移动平均值与短期移动平均值之比这类特征。这两个特征能够将具有“长期低量盘整,价格突然持续拉高”模式的股票选择出来。

三、特征构造

有时,原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法,在这种情况下,由原特征构造的新特征可能比原特征更有用。

我们举一个例子,考虑一个包含人工制品信息的历史数据集,该数据集包含每个人工制品的体积和质量,以及其他信息。假设这些人工制品使用少量材料(木材、陶土、铜、黄金)制造,并且我们希望根据制造材料对它们分类。在此情况下,由质量和体积特征构造的密度特征(即密度=质量/体积)可以直接地产生准确的分类。尽管有些人试图通过考察已有特征的简单的数学组合来自动地进行特征构造,但是最常见的方法还是使用专家意见构造特征。

在金融领域也是如此,比如我们想区分股票价格的波动性,我们可以构造一个收盘价标准差的一个特征,这个特征能够反映顾及近期的波动情况;此外,我们也可以构造一个平均振幅的一个特征,该特征是每日最高价减每日最低价的差值的平均值,从数值的角度反映股票价格的近期波情况。

如果你是专业的量化交易员,那么面临众多的特征,你可以根据你的行业经验和投资心得在浩瀚的特征海洋里构造新的特征来开发策略。



转载请注明地址:http://www.liqingxingye.com/lqgc/1962979.html
  • 上一篇文章:
  • 下一篇文章: 没有了