1.7 KiB
1.7 KiB
项目说明
项目概述
用户数据提取和分析工具集,用于从各种数据源(ES、数据库等)导出和分析用户数据。
脚本列表
export_realtime_asr.py
功能: 导出流式语音 ASR 数据
版本: v1.0
数据源:
- Elasticsearch 索引:
llm_realtime_asr_log
配置说明:
- 在脚本开头配置开始和结束日期(8位数字格式,如 20260101)
- ES 连接信息通过环境变量配置(需要创建 .env 文件)
依赖包:
elasticsearch
pandas
openpyxl
python-dotenv
运行方式:
python export_realtime_asr.py
输出:
- 输出目录:
output/ - 文件命名:
realtime_asr_export_{开始日期}_{结束日期}.xlsx - Excel 列: voice_id, asr_prompt, result_str, timestamp, audio_url, source
数据处理逻辑:
- 从 ES 使用 scroll API 分批读取数据(每批1000条)
- 按 voice_id 聚合,仅保留恰好有2条记录的 voice_id
- 取两条记录中最新的 timestamp
- 自动拼接 audio_url
特点:
- 支持大数据量处理(几十万级别)
- 实时进度显示
- 自动过滤异常数据(非2条记录的 voice_id)
其他脚本
export_user_id_data.py: 用户ID数据导出batch_add_shengtong_result.py: 批量添加声通评测结果shengtong_eval.py: 声通评测calc_score_diff_stats.py: 分数差异统计export_unit_summary.py: 单元总结统计导出
环境配置
需要创建 .env 文件,包含以下配置:
ES_HOST=xxx
ES_PORT=9200
ES_SCHEME=https
ES_USER=elastic
ES_PASSWORD=xxx
最近更新
- 2026-01-27: 新增 export_realtime_asr.py 脚本,支持流式语音 ASR 数据导出