# 项目说明 ## 项目概述 用户数据提取和分析工具集,用于从各种数据源(ES、数据库等)导出和分析用户数据。 ## 脚本列表 ### export_realtime_asr.py **功能**: 导出流式语音 ASR 数据 **版本**: v1.0 **数据源**: - Elasticsearch 索引: `llm_realtime_asr_log` **配置说明**: - 在脚本开头配置开始和结束日期(8位数字格式,如 20260101) - ES 连接信息通过环境变量配置(需要创建 .env 文件) **依赖包**: ``` elasticsearch pandas openpyxl python-dotenv ``` **运行方式**: ```bash python export_realtime_asr.py ``` **输出**: - 输出目录: `output/` - 文件命名: `realtime_asr_export_{开始日期}_{结束日期}.xlsx` - Excel 列: voice_id, asr_prompt, result_str, timestamp, audio_url, source **数据处理逻辑**: - 从 ES 使用 scroll API 分批读取数据(每批1000条) - 按 voice_id 聚合,仅保留恰好有2条记录的 voice_id - 取两条记录中最新的 timestamp - 自动拼接 audio_url **特点**: - 支持大数据量处理(几十万级别) - 实时进度显示 - 自动过滤异常数据(非2条记录的 voice_id) --- ### 其他脚本 - `export_user_id_data.py`: 用户ID数据导出 - `batch_add_shengtong_result.py`: 批量添加声通评测结果 - `shengtong_eval.py`: 声通评测 - `calc_score_diff_stats.py`: 分数差异统计 - `export_unit_summary.py`: 单元总结统计导出 ## 环境配置 需要创建 `.env` 文件,包含以下配置: ``` ES_HOST=xxx ES_PORT=9200 ES_SCHEME=https ES_USER=elastic ES_PASSWORD=xxx ``` ## 最近更新 - 2026-01-27: 新增 export_realtime_asr.py 脚本,支持流式语音 ASR 数据导出