# Session: 2026-05-22 15:18:29 GMT+8 - **Session Key**: agent:main:feishu:direct:ou_e63ce6b760ad39382852472f28fbe2a2 - **Session ID**: 3a4b1f73-c319-4473-989d-55043f21e6bb - **Source**: feishu ## Conversation Summary user: 跟我说一下你接入的数据库有哪些 assistant: 承龙你好! 我目前接入了 **6 个数据库**,按用途分为两类: --- ### 📦 业务数据(MySQL) | 数据库 | 用途 | 访问权限 | |--------|------|----------| | **Online MySQL** (线上版本) | 线上发布版本的配置数据、用户订单/用户信息等 | 只读 | | **Test MySQL** (测试环境) | 最新版本配置数据、内部开发用户数据 | 只读 | ### 📊 用户行为数据(PostgreSQL `vala_bi` 库) | 数据库 | 用途 | 访问权限 | |--------|------|----------| | **Online PostgreSQL** (正式环境) | 正式环境的用户行为数据、订单表、账户表、课程明细等核心 BI 数据 | 只读 | | **Test PostgreSQL** (测试环境) | 测试环境的行为数据 | 只读 | ### 📝 服务日志(Elasticsearch) | 数据库 | 用途 | 访问权限 | |--------|------|----------| | **Online ES** (正式环境) | 正式环境的服务日志 | 只读 | | **Test ES** (测试环境) | 测试环境的服务日志 | 只读 | --- > ⚠️ 所有数据库均为**只读**权限,不会进行写入或删除操作。 核心的业务分析数据(订单、用户、课程、学习行为等)主要存放在 **Online PostgreSQL `vala_bi` 库**中。需要查什么数据随时说~ user: 读取一下online es,跟我说说里面都有什么 assistant: 好的,我来连接 Online ES 查看一下都有哪些索引和数据。 assistant: 认证失败,让我确认下密码变量名。 assistant: 数据拿到了,我来整理一下。Online ES 里主要有以下几类索引: --- ## 📊 Online ES 索引总览 ### 🎯 核心业务索引(重点关注) | 索引名 | 文档数 | 存储大小 | 说明 | |--------|--------|----------|------| | `user_behavior_buried_points` | **2,707万** | **8 GB** | 🔥 用户行为埋点,最大索引 | | `user-audio` | 403万 | 2.4 GB | 用户音频数据 | | `llm_pron_eval` | 155万 | 1.3 GB | 发音评估 | | `llm_api_stat` | 535万 | 968 MB | LLM API 调用统计 | | `llm_asr_log` | 225万 | 1.4 GB | 语音识别(ASR)日志 | | `llm_tts_log` | 230万 | 1.4 GB | 文字转语音(TTS)日志 | | `llm_roleplayagent_round_log` | 138万 | 5.5 GB | 角色扮演对话轮次日志 | | `llm_realtime_asr_log` | 108万 | 471 MB | 实时语音识别日志 | ### 🗣️ 口语/对话相关 | 索引名 | 文档数 | 说明 | |--------|--------|------| | `llm_image_speaking` | 39.7万 | 看图说话 | | `llm_api_error_based_correction` | 5.3万 | 基于错误的纠错API | | `llm_ai_tools_log` | 27.4万 | AI 工具调用日志 | | `llm_core_speaking_monologue` | 374 | 核心口语独白 | | `llm_scene_chat_log` | 55 | 场景对话日志 | | `pronunciation_eval_logs` | 4 | 发音评估日志 | ### 📈 其他业务索引 | 索引名 | 文档数 | 说明 | |--------|--------|------| | `growth_activity_behavior` | 3.5万 | 增长活动行为 | | `word_sentence_learn_data` | 439 | 单词句子学习数据 | | `llm_api_writing` | 7,920 | API 写作日志 | | `llm_instruction_control_log` | 3,298 | 指令控制日志 | | `vala-user-chat-log` | 1,547 | 用户对话日志 | | `llm_audio_denoise` | 0 | 音频降噪(空) | ### ⚙️ 系统/监控索引(内部使用) - `.monitoring-es-7-*` / `.monitoring-kibana-7-*` — ES/Kibana 自身监控 - `.kibana_*` — Kibana 系统配置 - `.watches` / `.triggered_watches` — 告警监控 - `.security-7` — 安全配置 --- ### 📌 总结 Online ES 总共有 **~58 个索引**,核心是**用户行为埋点**(2,700 万条,8GB)和**各种 LLM/AI 交互日志**(ASR 语音识别、TTS 语音合成、发音评估、角色扮演对话等),主要记录的是用户在 App 中的**学习行为**和**AI 引擎调用**的详细日志。 需要我深入查看某个具体索引的结构吗? user: 我想看看user_behavior_buried_points的结构 assistant: 再看几条样例数据,更直观地了解内容: assistant: 好的,以下是 `user_behavior_buried_points` 的完整结构: --- ## 📊 user_behavior_buried_points 结构 **数据量:2,707 万条 / 8 GB**(Online ES 最大的一条索引) ### 🏷️ 埋点标识 | 字段 | 类型 | 说明 | |------|------|------| | `buryingPointId` | long | 埋点大类 ID(如 300=关卡内操作,400=组件内操作) | | `buryingPointName` | text | 埋点大类名称 | | `buryingPointSubId` | long | 埋点子类 ID | | `buryingPointSubName` | text | 埋点子类名称(如"点击下一句时"、"TimeAction触发组件时") | ### 👤 用户信息 | 字段 | 类型 | 说明 | |------|------|------| | `accountId` | long | 用户账号 ID(关联 `bi_vala_app_account.id`) | | `accountName` | text | 账号名(手机号脱敏,如 `193****7248`) | | `characterId` | long | 角色 ID | | `characterName` | text | 角色名(如 Sophia) | ### ⏱️ 行为记录 | 字段 | 类型 | 说明 | |------|------|------| | `activeTime` | long | 行为时间戳(秒) | | `action` | keyword | 行为动作 | | `stepDuration` | long | 步骤耗时(秒) | | `finishStatus` | text | 完成状态 | | `versionId` | text | App 版本号 | | `dataVersion` | keyword | 数据版本 | ### 📚 课程/关卡上下文 | 字段 | 类型 | 说明 | |------|------|------| | `seasonPackageId` | long | 季包 ID | | `seasonPackageName` | text | 季包名(如"序章") | | `unitId` | long | 单元 ID | | `unitName` | text | 单元名(如"出发瓦拉") | | `lessonId` | long | 课时 ID | | `lessonName` | text | 课时名(如"空中劫持") | ### 🧩 组件/模块详情 | 字段 | 类型 | 说明 | |------|------|------| | `componentId` | long | 组件 ID | | `componentName` | text | 组件名(如"告诉Otis现在的状况") | | `cType` | text | 组件类型(如 `mid_grammar_cloze`、`mid_sentence_dialogue`) | | `cId` | text | 组件编号 | | `learningModuleId` | long | 学习模块 ID | | `learningModuleName` | text | 学习模块名 | | `learningPointId` | long | 学习点 ID | | `learningPointName` | text | 学习点名 | | `cardId` | long | 卡片 ID | | `cardName` | text | 卡片名(如 "Me") | ### 🔧 扩展字段 | 字段 | 类型 | 说明 | |------|------|------| | `ex2` ~ `ex6` | keyword | 预留扩展字段 | | `num1` ~ `num3` | double | 预留数值扩展字段 | | `location` | keyword | 位置信息 | | `button` | keyword | 按钮标识 | --- ### 📌 一句话总结 这张表就是瓦拉 App 中**用户每一次操作行为的全量埋点日志**——谁(accountId/characterId)、在什么课程位置(Season → Unit → Lesson → Component)、做了什么操作(buryingPointId/Sub)、花了多少时间(stepDuration)、用的是什么版本(versionId),全部记录在内。 可以做用户行为路径分析、功能使用频率统计、各环节耗时分析等。需要我基于这个数据跑什么分析吗?