实现方案:基于智能体的金融市场投资中有效技术指标挖掘的研究

一、核心逻辑理解

1.1 逻辑对比

参考论文 (AI-Powered-Scholarship) 你们的项目
原材料:COMPUSTAT 100+ 个会计科目 原材料:股票 OHLCV 数据 × 过去20天
第一层加工:财务指标原始值 第一层加工:单变量滚动聚合(均值/最值)
第二层加工:两两相除(ratio)或相减(diff) 第二层加工:两两组合成技术指标
筛选:四重门 t 检验 筛选:四重门 t 检验 + FDR 多重检验校正
输出:95个有效会计信号 → AI写论文 输出:N个有效技术指标 → 写论文

1.2 为什么叫"基于智能体"?

二、整体架构(四层漏斗)

flowchart TD A["📥 原始数据\nHigh, Low, Open, Close, Volume"] --> B B["🔧 Layer 1:单变量滚动聚合\n50个基础指标"] --> C C["🔀 Layer 2:成对组合运算\n≈ 2000~5000 个候选信号"] --> D D["📊 单变量排序回测\nHAC t检验 / 五分位分组"] --> E E["🚦 四重门筛选\n多规格t检验 + FDR校正"] --> F F["✅ 有效技术指标清单\neffective_signals.csv"] --> G["📝 论文产出"]

三、数据方案

3.1 格式要求

系统需要以下三个 Parquet 文件:

data/
├── stock_daily.parquet (日频行情)
├── factors_daily.parquet (FF因子)
└── market_cap.parquet (市值数据)

待确认问题 Q1:数据来源选项

A: Tushare (推荐) | B: AKShare | C: CSMAR | D: 模拟数据

待确认问题 Q2:股票池

推荐:沪深300,时间范围:2010-2024

四、现有代码状态

模块状态说明
config.py / indicators.py✅ 完整参数与指标生成逻辑已就绪
backtest.py / filter.py✅ 完整回测与筛选框架已完成
data_loader.py🔴 缺失需要实现真实数据下载接口
visualization.py🟡 缺失需要实现漏斗图、热力图

五、智能体概念包装

flowchart LR subgraph "传统方法" A1[人工经验选择指标] --> A2[小规模验证] end subgraph "本文智能体方法" B1[全量数据感知] --> B2[空间自动探索] --> B3[统计严谨评估] end

六、时间规划

Day 1: 方案确认与环境测试。

Day 2: 08:00 数据下载 | 11:00 核心回测 | 15:00 图表生成 | 17:00-24:00 论文撰写。

七、论文结构建议

  1. 引言:技术分析争议与本文创新。
  2. 文献综述:FDR校正与量化挖掘前沿。
  3. 研究方法:两层构造体系与四重门检验。
  4. 实证结果:漏斗筛选、收益曲线、热力图分析。
  5. 结论。