课程  因子投资  机器学习  Python  Poetry  ppw  tools  programming  Numpy  Pandas  pandas  算法  hdbscan  聚类  选股  Algo  minimum  numpy  algo  FFT  模式识别  配对交易  GBDT  LightGBM  XGBoost  statistics  CDF  KS-Test  monte-carlo  VaR  回测  过拟合  algorithms  machine learning  strategy  python  sklearn  pdf  概率  数学  面试题  量化交易  策略分类  风险管理  Info  interview  career  xgboost  PCA  wavelet  时序事件归因  SHAP  Figures  Behavioral Economics  graduate  arma  garch  人物  职场  Quantopian  figure  Banz  金融行业  买方  卖方  story  量化传奇  rsi  zigzag  穹顶压力  因子  ESG  因子策略  投资  策略  pe  ORB  Xgboost  Alligator  Indicator  factor  alpha101  alpha  技术指标  wave  quant  algorithm  pearson  spearman  tushare  因子分析  Alphalens  涨停板  herd-behaviour  momentum  因子评估  review  SMC  聪明钱  trade  history  indicators  zscore  波动率  强化学习  顶背离  freshman  resources  others  AI  DeepSeek  network  量子计算  金融交易  IBM  weekly  LLT  backtest  backtrader  研报  papers  UBL  quantlib  jupyter-notebook  scikit-learn  pypinyin  qmt  xtquant  blog  static-site  duckdb  工具  colors  free resources  barra  world quant  Alpha  openbb  数据  risk-management  llm  prompt  CANSLIM  Augment  arsenal  copilot  vscode  code  量化数据存储  hdf5  h5py  cursor  augment  trae  Jupyter  jupysql  pyarrow  parquet  数据源  quantstats  实盘  clickhouse  notebook  redis  remote-agent  AI-tools  Moonshot  回测,研报,tushare 

机构散户交易识别:算法指纹与动量反转

两大券商研报揭露A股市场惊人秘密!国泰君安用傅里叶变换『透视』机构算法交易,如同基因检测般精准识别大资金动向;东吴证券发现散户与机构的交易占比竟能预测股价反转!当传统动量因子失效,新的量化武器悄然崛起。机构的每一笔算法单都在高频数据中留下『指纹』,而散户的羊群效应正被精确量化。这场看不见的博弈中,谁掌握了交易者结构的密码,谁就握住了市场的脉搏。


Table of Content

Flora: 量化好声音,每晚都要听~,Hello大家好,我是Flora

Aaron: 我是Aaron,欢迎收听今天的播客

Aaron: Flora,咱们今天的任务繁重啊

Flora: 哦,怎么说呢?

Aaron: 我们上一期的播客提到了可以从高频数据中识别养老金在交易

Aaron: 有位同学听了之后比较好奇,

Aaron: 就加入我们群,提了一个问题,怎么识别哪些交易是养老基金的操作?

Flora: 这个题目有点大啊

Aaron: 对,投资者ID识别没有那么容易,并且还需要一些特别的数据,比如机构席位数据

Aaron: 没有这些数据,是无法最终知道某一笔交易是由谁发起的。

Flora: 但是,即使不能最终确定投资者身份,只要能像人工智能转录会议记录一样,把各个说话人识别出来,也非常有用。这方面有相关的研究吗?

Aaron: 对,今天我们将介绍国泰君安的<利用高频数据监测机构动向>

Aaron: 以及东吴证券的<交易者结构对动量因子的改进>

Aaron: 这两篇研报不仅对投资人ID识别进行了探索

Aaron: 而且进一步探讨了如何利用识别出来的身份,构建更好的策略

Flora: 这听起来就很有意思

Flora: 那我们直接切入正题

Flora: 来拆拆这些背后的逻辑吧

Aaron: 好的,那我们先聊国泰君安的这份研报

Aaron: 它关注的是 “算法交易”

Aaron: 认为机构更爱用高频、定时的算法交易

Aaron: 比如把大单拆成小单定时成交

Aaron: 而散户更多是低频、随机的交易

Aaron: 那怎么把这两种交易区分开呢?

Aaron: 他们用了个信号处理的工具,也就是傅里叶变换

Flora: 傅里叶变换?这个我知道

Flora: 简单来说,傅里叶变换能把交易数据从 “时间维度” 转到 “频率维度”

Aaron: 是的!这里的关键发现就是:机构爱用高频、定时的算法交易

Aaron: 比如把大单拆成小单,每隔固定时间成交

Aaron: 这种规律性会在频域里形成明显的 “峰值”

Aaron: 而散户交易频率低、随机性强,频域里就很难有突出的峰值

Aaron: 所以,找到这些高频峰值,就像抓住了机构交易的 “指纹”。

Flora: 哎,我越听越觉得

Flora: 这跟我以前做植物基因序列分析的研究有点类似。

Flora: 以前在研究植物抗病基因时

Flora: 我们常常会用拟南芥的某个已知抗病基因结构域作为 “种子序列”

Flora: 通过 BLAST 比对,在其他植物的基因组里找相似序列

Flora: 如果发现了高相似度的片段

Flora: 就可能是功能类似的同源基因

Flora: 这和傅里叶变换的思路简直异曲同工

Flora: 拟南芥的抗病基因结构域

Flora: 就像机构算法交易的 “高频峰值特征”

Flora: BLAST 比对工具

Flora: 就像傅里叶变换

Flora: 而庞大的基因组数据

Flora: 就像咱们的高频交易数据

Flora: 本质上都是从复杂数据中

Flora: 用已知特征去定位目标信息

Aaron: 非常形象!或者说我们也可以把交易者身份识别看成是声纹识别

Aaron: 毕竟声音跟金融数据一样,也是一种典型的时间序列。

Flora: 对,我最近在看Ernest P Chan的《量化交易:如何建立自己的算法交易业务》这本书,就发现Ernest P Chan在转入量化之前,是在IBM做语音识别。

Flora: 对,所以,这种跨学科的背景应该对他转入量化帮助很大。

Flora: 那研报中,他们找到机构交易的指纹之后,又是怎么用的?

Aaron: 那研究员们通过找这些峰值,最终构造了三个特征,即

Aaron: B+S(买卖单峰值总和,反映机构整体活跃度)

Aaron: B-S(买卖单峰值差)和

Aaron: B/S(买卖单峰值比,反映交易方向)

Flora: 那这些特征和股价有啥关系?

Aaron: 这篇研报最终得出的结论是这样的

Aaron: 那就是:机构越活跃(B+S 越高),中短期股价越容易跌

Aaron: 而机构交易的方向(B/S)和股价变动是一致的

Aaron: 比如买的峰值比卖的高,股价更可能涨

Flora: 好,这是第一份研报,第二份研报是?

Aaron: 接下来我们就聊一聊东吴证券的这篇报告

Aaron: 它的核心是想解决什么问题呢

Aaron: 他们研究了交易者结构是如何影响动量因子的表现

Aaron: 这个其实要从动量因子的一个背景说起

Flora: 动量因子?

Aaron: 对的,其实在量化投资领域

Aaron: 动量因子是一个非常经典的选股因子

Aaron: 但是一般认为,它在A股市场

Aaron: 却表现出了非常明显的

Aaron: 中长期的反转

Aaron: 而且这个反转效应还是不太稳定的

Flora: 怎么理解这个中长期反转?

Aaron: 动量因子作为经典的选股工具

Aaron: 其核心逻辑是历史收益趋势的延续性

Aaron: 即 “强者恒强”

Aaron: 这在美股等成熟市场得到了广泛验证

Aaron: 然而,这一因子在 A 股市场却呈现出显著的中长期反转特征

Aaron: 即过去表现好的股票在长期反而表现不佳

Aaron: 而过去表现差的股票可能出现反弹

Aaron: 这种现象的形成与 A 股市场的特殊结构、投资者行为及制度环境密切相关

Aaron: 今天时间原因我们就不铺展开讲啦

Flora: 好的,大致明白啦,那我们继续

Aaron: 好的,那东吴证券的这篇研报呢

Aaron: 就是把成交量按照交易者的类型

Aaron: 做了一个更细致的划分

Aaron: 他们先是把交易者

Aaron: 按照它的挂单金额的大小

Aaron: 分成了机构、大户、中户和散户

Aaron: 这四大类

Aaron: 然后呢去统计了一下

Aaron: 它从10年到23年

Aaron: 这整个的A股市场的交易数据

Aaron: 他们就发现啊

Aaron: 中户和散户

Aaron: 他们的交易占比是非常高的

Aaron: 两者加起来平均能占到70%以上

Aaron: 所以这就直接决定了

Aaron: 这个市场的基本的交易特征

Flora: 听起来好像这个中户和散户,他们的这个主导地位还挺强的

Aaron: 对,然后更有意思的是

Aaron: 通过将资产按照某一类投资者的交易占比,从低到高排序

Aaron: 然后分成五组去考察每一组的这个局部的因子的表现

Aaron: 就发现 大单的交易占比越高

Aaron: 这个动量因子的反转效应就越强

Aaron: 而小单的交易者

Aaron: 比如说散户和中户

Aaron: 他们的占比越低的话

Aaron: 这个反转效应同样也是越强的

Aaron: 对,而且更有意思的是

Aaron: 这个散户和机构的这个交易占比

Aaron: 它对于这个涨跌幅因子的区分能力是最强的

Aaron: 就是你可以看到一个非常明显的

Aaron: 从反转到动量的一个变化的趋势

Flora: 那我们能不能基于这个交易者的结构

Aaron: 构造出一个新的动量因子

Flora: 并且这个新的因子会有更好的选择标的能力呢

Aaron: 当然可以啊

Aaron: 他们还是以这个散户的交易占比为例

Aaron: 去提取出信息最强的那个部分

Aaron: 然后构造了一个新的因子

Aaron: 回测下来发现这个新的因子

Aaron: 它的月度的IC均值可以达到-0.051

Aaron: 年化收益可以达到23.23%

Aaron: 而且它的这个月度的胜率也非常的高

Aaron: 达到了72.46%

Aaron: 就是它的表现各个方面

Aaron: 都远远的超过了传统的动量因子

Flora: 哇 听起来这个新的因子真的很厉害

Flora: 那它跟其他的风格因子

Flora: 有没有什么比较特别的关系

Aaron: 研报也做了分析

Aaron: 就是这个新的因子

Aaron: 它跟常见的Barra风格因子的相关性

Aaron: 都是非常低的

Aaron: 然后我们甚至可以通过回归的方法

Aaron: 去剔除掉市场的风格和行业的影响

Aaron: 得到一个更纯净的新因子

Aaron: 那这个因子的表现也是非常好的

Aaron: 就是它可以进一步的

Aaron: 去提高这个选择标的的精度和稳定性

Flora: 好的,那我来总结一下东吴这篇研报的核心内容啊。

Flora: 它呢是把交易者按挂单金额分成了机构、大户、中户、散户,

Flora: 发现不同群体的交易占比

Flora: 会显著影响股价的动量或反转效应

Flora: 比如机构、大户这类 “大单交易者” 占比越高,股价反转效应越强;

Flora: 而散户占比越高,动量效应越明显。

Flora: 最后,研报还基于散户交易占比,构造了新的动量因子,效果呢比传统因子好不少。

Flora: 听到这,感觉和国泰君安的研究能对上了

Flora: Aaron麻烦你帮我们捋捋这两者的 “默契”吧

Aaron: 好勒!首先第一点,这两篇研报啊都抓住了 “机构和散户交易行为的本质差异”

Aaron: 东吴证券是按 “金额大小” 分群体,国泰君安是按 “交易频率” 分类型

Aaron: 前者看 “谁在交易”,后者看 “交易方式”,

Aaron: 但最终都指向了同一个核心

Aaron: 机构和散户的交易逻辑不同,对股价的影响也不同

Flora: 嗯嗯,确实是这样的

Aaron: 对的,那第二点呢,他们都发现 “机构交易占比高时,股价更容易反转”

Flora: 这个还挺好理解的

Flora: 东吴证券说机构、大户占比高,反转效应强

Flora: 国泰君安说机构算法交易活跃(B+S 高),中短期股价会跌

Flora: 这不就是 “机构交易密集时,股价容易回调” 的两种表述吗?

Flora: 背后可能的逻辑是:机构交易量大、容易短期推高股价,之后获利了结导致反转

Flora: 而散户交易占比高时,更可能延续原来的趋势,也就是动量效应

Aaron: 哎!Flora,你的进步很大嘛!概括的很好!为你点赞!

Aaron: 那第三呢,我们说,这两篇研报啊,都为量化投资提供了 “细分数据” 的新思路。

Flora: 哦,此话怎讲呢?

Aaron: 东吴证券通过拆分交易者结构改进了动量因子

Aaron: 国泰君安通过高频算法交易特征预测收益

Aaron: 本质上都是跳出 “整体交易数据”,去挖 “结构性信息”

Aaron: 这告诉我们,市场不是铁板一块,把交易拆开来看,才能抓到更精准的信号。

Aaron: 当然,两者的方法也有区别

Aaron: 东吴证券更偏向 “截面分类”

Aaron: 比如把股票按散户占比分成几组,看不同组的动量表现

Aaron: 那国泰君安就是 “时序 + 频率分析”

Aaron: 用傅里叶变换从高频数据里扒机构的痕迹咯

Flora: 嗯!这么看,他们一个像 “给交易群体贴标签”

Flora: 一个像 “给交易行为拍 X 光”

Flora: 但最终,殊途同归!

Flora: Aaron,那这些研究对咱们实际投资都有啥用呢?

Aaron: 我认为啊,至少有两个启示

Aaron: 一是别只看股价涨跌

Aaron: 得琢磨琢磨到底是谁在买、谁在卖

Aaron: 机构和散户的脚印中啊,藏着未来的趋势

Aaron: 二是传统的动量、涨跌因子不够用了

Aaron: 结合交易者结构或高频特征,能让策略更精准

Aaron: 比如今天提到的东吴证券的新动量因子

Aaron: 和国泰君安的 B/S 特征能辅助判断机构方向

Aaron: 都是很好的例子

Flora: 最后也得提一句风险

Flora: 两篇研报都强调 “历史数据不代表未来”

Flora: 市场结构在变

Flora: 机构和散户的交易习惯也可能调整

Flora: 所以这些因子得动态跟踪

Flora: 啊!今天也是收获满满的一天啊!

Flora: 总结一下,无论是按交易者结构拆分

Flora: 还是用傅里叶变换抓高频算法单

Flora: 核心都是在 “读懂市场参与者的心思”

Flora: 下次咱们可以再聊聊

Flora: 这些方法能不能结合起来用

Flora: 比如既看机构的交易金额

Flora: 又看他们的交易频率

Flora: 会不会挖出更厉害的信号?

Aaron: 好的,如果大家对我们的播客内容感兴趣,欢迎订阅「量化好声音」

Aaron: 此外呢,我们的微信公众号:量化风云

Aaron: 也提供了非常多与量化相关的干货

Aaron: 欢迎关注哦!

Flora: 那我们下期再见啦!

Flora: 咱们下期再见~