ai_member_xiaoxi/business_knowledge/git_scripts/CLAUDE.md

1.7 KiB
Raw Blame History

项目说明

项目概述

用户数据提取和分析工具集用于从各种数据源ES、数据库等导出和分析用户数据。

脚本列表

export_realtime_asr.py

功能: 导出流式语音 ASR 数据

版本: v1.0

数据源:

  • Elasticsearch 索引: llm_realtime_asr_log

配置说明:

  • 在脚本开头配置开始和结束日期8位数字格式如 20260101
  • ES 连接信息通过环境变量配置(需要创建 .env 文件)

依赖包:

elasticsearch
pandas
openpyxl
python-dotenv

运行方式:

python export_realtime_asr.py

输出:

  • 输出目录: output/
  • 文件命名: realtime_asr_export_{开始日期}_{结束日期}.xlsx
  • Excel 列: voice_id, asr_prompt, result_str, timestamp, audio_url, source

数据处理逻辑:

  • 从 ES 使用 scroll API 分批读取数据每批1000条
  • 按 voice_id 聚合仅保留恰好有2条记录的 voice_id
  • 取两条记录中最新的 timestamp
  • 自动拼接 audio_url

特点:

  • 支持大数据量处理(几十万级别)
  • 实时进度显示
  • 自动过滤异常数据非2条记录的 voice_id

其他脚本

  • export_user_id_data.py: 用户ID数据导出
  • batch_add_shengtong_result.py: 批量添加声通评测结果
  • shengtong_eval.py: 声通评测
  • calc_score_diff_stats.py: 分数差异统计
  • export_unit_summary.py: 单元总结统计导出

环境配置

需要创建 .env 文件,包含以下配置:

ES_HOST=xxx
ES_PORT=9200
ES_SCHEME=https
ES_USER=elastic
ES_PASSWORD=xxx

最近更新

  • 2026-01-27: 新增 export_realtime_asr.py 脚本,支持流式语音 ASR 数据导出