ai_member_xiaoxi/memory/2026-05-22-1518.md
2026-05-23 08:00:01 +08:00

7.0 KiB
Raw Permalink Blame History

Session: 2026-05-22 15:18:29 GMT+8

  • Session Key: agent:main:feishu:direct:ou_e63ce6b760ad39382852472f28fbe2a2
  • Session ID: 3a4b1f73-c319-4473-989d-55043f21e6bb
  • Source: feishu

Conversation Summary

user: 跟我说一下你接入的数据库有哪些 assistant: 承龙你好!

我目前接入了 6 个数据库,按用途分为两类:


📦 业务数据MySQL

数据库 用途 访问权限
Online MySQL (线上版本) 线上发布版本的配置数据、用户订单/用户信息等 只读
Test MySQL (测试环境) 最新版本配置数据、内部开发用户数据 只读

📊 用户行为数据PostgreSQL vala_bi 库)

数据库 用途 访问权限
Online PostgreSQL (正式环境) 正式环境的用户行为数据、订单表、账户表、课程明细等核心 BI 数据 只读
Test PostgreSQL (测试环境) 测试环境的行为数据 只读

📝 服务日志Elasticsearch

数据库 用途 访问权限
Online ES (正式环境) 正式环境的服务日志 只读
Test ES (测试环境) 测试环境的服务日志 只读

⚠️ 所有数据库均为只读权限,不会进行写入或删除操作。

核心的业务分析数据(订单、用户、课程、学习行为等)主要存放在 Online PostgreSQL vala_bi中。需要查什么数据随时说~ user: 读取一下online es跟我说说里面都有什么 assistant: 好的,我来连接 Online ES 查看一下都有哪些索引和数据。 assistant: 认证失败,让我确认下密码变量名。 assistant: 数据拿到了我来整理一下。Online ES 里主要有以下几类索引:


📊 Online ES 索引总览

🎯 核心业务索引(重点关注)

索引名 文档数 存储大小 说明
user_behavior_buried_points 2,707万 8 GB 🔥 用户行为埋点,最大索引
user-audio 403万 2.4 GB 用户音频数据
llm_pron_eval 155万 1.3 GB 发音评估
llm_api_stat 535万 968 MB LLM API 调用统计
llm_asr_log 225万 1.4 GB 语音识别ASR日志
llm_tts_log 230万 1.4 GB 文字转语音TTS日志
llm_roleplayagent_round_log 138万 5.5 GB 角色扮演对话轮次日志
llm_realtime_asr_log 108万 471 MB 实时语音识别日志

🗣️ 口语/对话相关

索引名 文档数 说明
llm_image_speaking 39.7万 看图说话
llm_api_error_based_correction 5.3万 基于错误的纠错API
llm_ai_tools_log 27.4万 AI 工具调用日志
llm_core_speaking_monologue 374 核心口语独白
llm_scene_chat_log 55 场景对话日志
pronunciation_eval_logs 4 发音评估日志

📈 其他业务索引

索引名 文档数 说明
growth_activity_behavior 3.5万 增长活动行为
word_sentence_learn_data 439 单词句子学习数据
llm_api_writing 7,920 API 写作日志
llm_instruction_control_log 3,298 指令控制日志
vala-user-chat-log 1,547 用户对话日志
llm_audio_denoise 0 音频降噪(空)

⚙️ 系统/监控索引(内部使用)

  • .monitoring-es-7-* / .monitoring-kibana-7-* — ES/Kibana 自身监控
  • .kibana_* — Kibana 系统配置
  • .watches / .triggered_watches — 告警监控
  • .security-7 — 安全配置

📌 总结

Online ES 总共有 ~58 个索引,核心是用户行为埋点2,700 万条8GB各种 LLM/AI 交互日志ASR 语音识别、TTS 语音合成、发音评估、角色扮演对话等),主要记录的是用户在 App 中的学习行为AI 引擎调用的详细日志。

需要我深入查看某个具体索引的结构吗? user: 我想看看user_behavior_buried_points的结构 assistant: 再看几条样例数据,更直观地了解内容: assistant: 好的,以下是 user_behavior_buried_points 的完整结构:


📊 user_behavior_buried_points 结构

数据量2,707 万条 / 8 GBOnline ES 最大的一条索引)

🏷️ 埋点标识

字段 类型 说明
buryingPointId long 埋点大类 ID如 300=关卡内操作400=组件内操作)
buryingPointName text 埋点大类名称
buryingPointSubId long 埋点子类 ID
buryingPointSubName text 埋点子类名称(如"点击下一句时"、"TimeAction触发组件时"

👤 用户信息

字段 类型 说明
accountId long 用户账号 ID关联 bi_vala_app_account.id
accountName text 账号名(手机号脱敏,如 193****7248
characterId long 角色 ID
characterName text 角色名(如 Sophia

⏱️ 行为记录

字段 类型 说明
activeTime long 行为时间戳(秒)
action keyword 行为动作
stepDuration long 步骤耗时(秒)
finishStatus text 完成状态
versionId text App 版本号
dataVersion keyword 数据版本

📚 课程/关卡上下文

字段 类型 说明
seasonPackageId long 季包 ID
seasonPackageName text 季包名(如"序章"
unitId long 单元 ID
unitName text 单元名(如"出发瓦拉"
lessonId long 课时 ID
lessonName text 课时名(如"空中劫持"

🧩 组件/模块详情

字段 类型 说明
componentId long 组件 ID
componentName text 组件名(如"告诉Otis现在的状况"
cType text 组件类型(如 mid_grammar_clozemid_sentence_dialogue
cId text 组件编号
learningModuleId long 学习模块 ID
learningModuleName text 学习模块名
learningPointId long 学习点 ID
learningPointName text 学习点名
cardId long 卡片 ID
cardName text 卡片名(如 "Me"

🔧 扩展字段

字段 类型 说明
ex2 ~ ex6 keyword 预留扩展字段
num1 ~ num3 double 预留数值扩展字段
location keyword 位置信息
button keyword 按钮标识

📌 一句话总结

这张表就是瓦拉 App 中用户每一次操作行为的全量埋点日志——谁accountId/characterId、在什么课程位置Season → Unit → Lesson → Component、做了什么操作buryingPointId/Sub、花了多少时间stepDuration、用的是什么版本versionId全部记录在内。

可以做用户行为路径分析、功能使用频率统计、各环节耗时分析等。需要我基于这个数据跑什么分析吗?