# 项目说明

## 项目概述
用户数据提取和分析工具集，用于从各种数据源（ES、数据库等）导出和分析用户数据。

## 脚本列表

### export_realtime_asr.py
**功能**: 导出流式语音 ASR 数据

**版本**: v1.0

**数据源**:
- Elasticsearch 索引: `llm_realtime_asr_log`

**配置说明**:
- 在脚本开头配置开始和结束日期（8位数字格式，如 20260101）
- ES 连接信息通过环境变量配置（需要创建 .env 文件）

**依赖包**:
```
elasticsearch
pandas
openpyxl
python-dotenv
```

**运行方式**:
```bash
python export_realtime_asr.py
```

**输出**:
- 输出目录: `output/`
- 文件命名: `realtime_asr_export_{开始日期}_{结束日期}.xlsx`
- Excel 列: voice_id, asr_prompt, result_str, timestamp, audio_url, source

**数据处理逻辑**:
- 从 ES 使用 scroll API 分批读取数据（每批1000条）
- 按 voice_id 聚合，仅保留恰好有2条记录的 voice_id
- 取两条记录中最新的 timestamp
- 自动拼接 audio_url

**特点**:
- 支持大数据量处理（几十万级别）
- 实时进度显示
- 自动过滤异常数据（非2条记录的 voice_id）

---

### 其他脚本
- `export_user_id_data.py`: 用户ID数据导出
- `batch_add_shengtong_result.py`: 批量添加声通评测结果
- `shengtong_eval.py`: 声通评测
- `calc_score_diff_stats.py`: 分数差异统计
- `export_unit_summary.py`: 单元总结统计导出

## 环境配置

需要创建 `.env` 文件，包含以下配置:
```
ES_HOST=xxx
ES_PORT=9200
ES_SCHEME=https
ES_USER=elastic
ES_PASSWORD=xxx
```

## 最近更新
- 2026-01-27: 新增 export_realtime_asr.py 脚本，支持流式语音 ASR 数据导出