实现方案:基于智能体的金融市场投资中有效技术指标挖掘的研究
一、核心逻辑理解
1.1 逻辑对比
| 参考论文 (AI-Powered-Scholarship) |
你们的项目 |
| 原材料:COMPUSTAT 100+ 个会计科目 |
原材料:股票 OHLCV 数据 × 过去20天 |
| 第一层加工:财务指标原始值 |
第一层加工:单变量滚动聚合(均值/最值) |
| 第二层加工:两两相除(ratio)或相减(diff) |
第二层加工:两两组合成技术指标 |
| 筛选:四重门 t 检验 |
筛选:四重门 t 检验 + FDR 多重检验校正 |
| 输出:95个有效会计信号 → AI写论文 |
输出:N个有效技术指标 → 写论文 |
1.2 为什么叫"基于智能体"?
- 感知:自动读取 100 维量价数据。
- 探索:系统自动生成数千个候选指标,消除人工偏见。
- 评估:利用统计检验作为“奖励函数”自动筛选。
- 输出:最终沉淀最优指标组合。
二、整体架构(四层漏斗)
flowchart TD
A["📥 原始数据\nHigh, Low, Open, Close, Volume"] --> B
B["🔧 Layer 1:单变量滚动聚合\n50个基础指标"] --> C
C["🔀 Layer 2:成对组合运算\n≈ 2000~5000 个候选信号"] --> D
D["📊 单变量排序回测\nHAC t检验 / 五分位分组"] --> E
E["🚦 四重门筛选\n多规格t检验 + FDR校正"] --> F
F["✅ 有效技术指标清单\neffective_signals.csv"] --> G["📝 论文产出"]
三、数据方案
3.1 格式要求
系统需要以下三个 Parquet 文件:
data/
├── stock_daily.parquet (日频行情)
├── factors_daily.parquet (FF因子)
└── market_cap.parquet (市值数据)
待确认问题 Q1:数据来源选项
A: Tushare (推荐) | B: AKShare | C: CSMAR | D: 模拟数据
待确认问题 Q2:股票池
推荐:沪深300,时间范围:2010-2024
四、现有代码状态
| 模块 | 状态 | 说明 |
| config.py / indicators.py | ✅ 完整 | 参数与指标生成逻辑已就绪 |
| backtest.py / filter.py | ✅ 完整 | 回测与筛选框架已完成 |
| data_loader.py | 🔴 缺失 | 需要实现真实数据下载接口 |
| visualization.py | 🟡 缺失 | 需要实现漏斗图、热力图 |
五、智能体概念包装
flowchart LR
subgraph "传统方法"
A1[人工经验选择指标] --> A2[小规模验证]
end
subgraph "本文智能体方法"
B1[全量数据感知] --> B2[空间自动探索] --> B3[统计严谨评估]
end
六、时间规划
Day 1: 方案确认与环境测试。
Day 2:
08:00 数据下载 | 11:00 核心回测 | 15:00 图表生成 | 17:00-24:00 论文撰写。
七、论文结构建议
- 引言:技术分析争议与本文创新。
- 文献综述:FDR校正与量化挖掘前沿。
- 研究方法:两层构造体系与四重门检验。
- 实证结果:漏斗筛选、收益曲线、热力图分析。
- 结论。