Session: 2026-05-22 15:18:29 GMT+8
- Session Key: agent:main:feishu:direct:ou_e63ce6b760ad39382852472f28fbe2a2
- Session ID: 3a4b1f73-c319-4473-989d-55043f21e6bb
- Source: feishu
Conversation Summary
user: 跟我说一下你接入的数据库有哪些
assistant: 承龙你好!
我目前接入了 6 个数据库,按用途分为两类:
📦 业务数据(MySQL)
| 数据库 |
用途 |
访问权限 |
| Online MySQL (线上版本) |
线上发布版本的配置数据、用户订单/用户信息等 |
只读 |
| Test MySQL (测试环境) |
最新版本配置数据、内部开发用户数据 |
只读 |
📊 用户行为数据(PostgreSQL vala_bi 库)
| 数据库 |
用途 |
访问权限 |
| Online PostgreSQL (正式环境) |
正式环境的用户行为数据、订单表、账户表、课程明细等核心 BI 数据 |
只读 |
| Test PostgreSQL (测试环境) |
测试环境的行为数据 |
只读 |
📝 服务日志(Elasticsearch)
| 数据库 |
用途 |
访问权限 |
| Online ES (正式环境) |
正式环境的服务日志 |
只读 |
| Test ES (测试环境) |
测试环境的服务日志 |
只读 |
⚠️ 所有数据库均为只读权限,不会进行写入或删除操作。
核心的业务分析数据(订单、用户、课程、学习行为等)主要存放在 Online PostgreSQL vala_bi 库中。需要查什么数据随时说~
user: 读取一下online es,跟我说说里面都有什么
assistant: 好的,我来连接 Online ES 查看一下都有哪些索引和数据。
assistant: 认证失败,让我确认下密码变量名。
assistant: 数据拿到了,我来整理一下。Online ES 里主要有以下几类索引:
📊 Online ES 索引总览
🎯 核心业务索引(重点关注)
| 索引名 |
文档数 |
存储大小 |
说明 |
user_behavior_buried_points |
2,707万 |
8 GB |
🔥 用户行为埋点,最大索引 |
user-audio |
403万 |
2.4 GB |
用户音频数据 |
llm_pron_eval |
155万 |
1.3 GB |
发音评估 |
llm_api_stat |
535万 |
968 MB |
LLM API 调用统计 |
llm_asr_log |
225万 |
1.4 GB |
语音识别(ASR)日志 |
llm_tts_log |
230万 |
1.4 GB |
文字转语音(TTS)日志 |
llm_roleplayagent_round_log |
138万 |
5.5 GB |
角色扮演对话轮次日志 |
llm_realtime_asr_log |
108万 |
471 MB |
实时语音识别日志 |
🗣️ 口语/对话相关
| 索引名 |
文档数 |
说明 |
llm_image_speaking |
39.7万 |
看图说话 |
llm_api_error_based_correction |
5.3万 |
基于错误的纠错API |
llm_ai_tools_log |
27.4万 |
AI 工具调用日志 |
llm_core_speaking_monologue |
374 |
核心口语独白 |
llm_scene_chat_log |
55 |
场景对话日志 |
pronunciation_eval_logs |
4 |
发音评估日志 |
📈 其他业务索引
| 索引名 |
文档数 |
说明 |
growth_activity_behavior |
3.5万 |
增长活动行为 |
word_sentence_learn_data |
439 |
单词句子学习数据 |
llm_api_writing |
7,920 |
API 写作日志 |
llm_instruction_control_log |
3,298 |
指令控制日志 |
vala-user-chat-log |
1,547 |
用户对话日志 |
llm_audio_denoise |
0 |
音频降噪(空) |
⚙️ 系统/监控索引(内部使用)
.monitoring-es-7-* / .monitoring-kibana-7-* — ES/Kibana 自身监控
.kibana_* — Kibana 系统配置
.watches / .triggered_watches — 告警监控
.security-7 — 安全配置
📌 总结
Online ES 总共有 ~58 个索引,核心是用户行为埋点(2,700 万条,8GB)和各种 LLM/AI 交互日志(ASR 语音识别、TTS 语音合成、发音评估、角色扮演对话等),主要记录的是用户在 App 中的学习行为和AI 引擎调用的详细日志。
需要我深入查看某个具体索引的结构吗?
user: 我想看看user_behavior_buried_points的结构
assistant: 再看几条样例数据,更直观地了解内容:
assistant: 好的,以下是 user_behavior_buried_points 的完整结构:
📊 user_behavior_buried_points 结构
数据量:2,707 万条 / 8 GB(Online ES 最大的一条索引)
🏷️ 埋点标识
| 字段 |
类型 |
说明 |
buryingPointId |
long |
埋点大类 ID(如 300=关卡内操作,400=组件内操作) |
buryingPointName |
text |
埋点大类名称 |
buryingPointSubId |
long |
埋点子类 ID |
buryingPointSubName |
text |
埋点子类名称(如"点击下一句时"、"TimeAction触发组件时") |
👤 用户信息
| 字段 |
类型 |
说明 |
accountId |
long |
用户账号 ID(关联 bi_vala_app_account.id) |
accountName |
text |
账号名(手机号脱敏,如 193****7248) |
characterId |
long |
角色 ID |
characterName |
text |
角色名(如 Sophia) |
⏱️ 行为记录
| 字段 |
类型 |
说明 |
activeTime |
long |
行为时间戳(秒) |
action |
keyword |
行为动作 |
stepDuration |
long |
步骤耗时(秒) |
finishStatus |
text |
完成状态 |
versionId |
text |
App 版本号 |
dataVersion |
keyword |
数据版本 |
📚 课程/关卡上下文
| 字段 |
类型 |
说明 |
seasonPackageId |
long |
季包 ID |
seasonPackageName |
text |
季包名(如"序章") |
unitId |
long |
单元 ID |
unitName |
text |
单元名(如"出发瓦拉") |
lessonId |
long |
课时 ID |
lessonName |
text |
课时名(如"空中劫持") |
🧩 组件/模块详情
| 字段 |
类型 |
说明 |
componentId |
long |
组件 ID |
componentName |
text |
组件名(如"告诉Otis现在的状况") |
cType |
text |
组件类型(如 mid_grammar_cloze、mid_sentence_dialogue) |
cId |
text |
组件编号 |
learningModuleId |
long |
学习模块 ID |
learningModuleName |
text |
学习模块名 |
learningPointId |
long |
学习点 ID |
learningPointName |
text |
学习点名 |
cardId |
long |
卡片 ID |
cardName |
text |
卡片名(如 "Me") |
🔧 扩展字段
| 字段 |
类型 |
说明 |
ex2 ~ ex6 |
keyword |
预留扩展字段 |
num1 ~ num3 |
double |
预留数值扩展字段 |
location |
keyword |
位置信息 |
button |
keyword |
按钮标识 |
📌 一句话总结
这张表就是瓦拉 App 中用户每一次操作行为的全量埋点日志——谁(accountId/characterId)、在什么课程位置(Season → Unit → Lesson → Component)、做了什么操作(buryingPointId/Sub)、花了多少时间(stepDuration)、用的是什么版本(versionId),全部记录在内。
可以做用户行为路径分析、功能使用频率统计、各环节耗时分析等。需要我基于这个数据跑什么分析吗?