ai_member_xiaoxi/memory/2026-05-22-1518.md

# Session: 2026-05-22 15:18:29 GMT+8

- **Session Key**: agent:main:feishu:direct:ou_e63ce6b760ad39382852472f28fbe2a2
- **Session ID**: 3a4b1f73-c319-4473-989d-55043f21e6bb
- **Source**: feishu

## Conversation Summary

user: 跟我说一下你接入的数据库有哪些
assistant: 承龙你好！

我目前接入了 **6 个数据库**，按用途分为两类：

---

### 📦 业务数据（MySQL）

| 数据库 | 用途 | 访问权限 |
|--------|------|----------|
| **Online MySQL** (线上版本) | 线上发布版本的配置数据、用户订单/用户信息等 | 只读 |
| **Test MySQL** (测试环境) | 最新版本配置数据、内部开发用户数据 | 只读 |

### 📊 用户行为数据（PostgreSQL `vala_bi` 库）

| 数据库 | 用途 | 访问权限 |
|--------|------|----------|
| **Online PostgreSQL** (正式环境) | 正式环境的用户行为数据、订单表、账户表、课程明细等核心 BI 数据 | 只读 |
| **Test PostgreSQL** (测试环境) | 测试环境的行为数据 | 只读 |

### 📝 服务日志（Elasticsearch）

| 数据库 | 用途 | 访问权限 |
|--------|------|----------|
| **Online ES** (正式环境) | 正式环境的服务日志 | 只读 |
| **Test ES** (测试环境) | 测试环境的服务日志 | 只读 |

---

> ⚠️ 所有数据库均为**只读**权限，不会进行写入或删除操作。

核心的业务分析数据（订单、用户、课程、学习行为等）主要存放在 **Online PostgreSQL `vala_bi` 库**中。需要查什么数据随时说~
user: 读取一下online es，跟我说说里面都有什么
assistant: 好的，我来连接 Online ES 查看一下都有哪些索引和数据。
assistant: 认证失败，让我确认下密码变量名。
assistant: 数据拿到了，我来整理一下。Online ES 里主要有以下几类索引：

---

## 📊 Online ES 索引总览

### 🎯 核心业务索引（重点关注）

| 索引名 | 文档数 | 存储大小 | 说明 |
|--------|--------|----------|------|
| `user_behavior_buried_points` | **2,707万** | **8 GB** | 🔥 用户行为埋点，最大索引 |
| `user-audio` | 403万 | 2.4 GB | 用户音频数据 |
| `llm_pron_eval` | 155万 | 1.3 GB | 发音评估 |
| `llm_api_stat` | 535万 | 968 MB | LLM API 调用统计 |
| `llm_asr_log` | 225万 | 1.4 GB | 语音识别（ASR）日志 |
| `llm_tts_log` | 230万 | 1.4 GB | 文字转语音（TTS）日志 |
| `llm_roleplayagent_round_log` | 138万 | 5.5 GB | 角色扮演对话轮次日志 |
| `llm_realtime_asr_log` | 108万 | 471 MB | 实时语音识别日志 |

### 🗣️ 口语/对话相关

| 索引名 | 文档数 | 说明 |
|--------|--------|------|
| `llm_image_speaking` | 39.7万 | 看图说话 |
| `llm_api_error_based_correction` | 5.3万 | 基于错误的纠错API |
| `llm_ai_tools_log` | 27.4万 | AI 工具调用日志 |
| `llm_core_speaking_monologue` | 374 | 核心口语独白 |
| `llm_scene_chat_log` | 55 | 场景对话日志 |
| `pronunciation_eval_logs` | 4 | 发音评估日志 |

### 📈 其他业务索引

| 索引名 | 文档数 | 说明 |
|--------|--------|------|
| `growth_activity_behavior` | 3.5万 | 增长活动行为 |
| `word_sentence_learn_data` | 439 | 单词句子学习数据 |
| `llm_api_writing` | 7,920 | API 写作日志 |
| `llm_instruction_control_log` | 3,298 | 指令控制日志 |
| `vala-user-chat-log` | 1,547 | 用户对话日志 |
| `llm_audio_denoise` | 0 | 音频降噪（空） |

### ⚙️ 系统/监控索引（内部使用）

- `.monitoring-es-7-*` / `.monitoring-kibana-7-*` — ES/Kibana 自身监控
- `.kibana_*` — Kibana 系统配置
- `.watches` / `.triggered_watches` — 告警监控
- `.security-7` — 安全配置

---

### 📌 总结

Online ES 总共有 **~58 个索引**，核心是**用户行为埋点**（2,700 万条，8GB）和**各种 LLM/AI 交互日志**（ASR 语音识别、TTS 语音合成、发音评估、角色扮演对话等），主要记录的是用户在 App 中的**学习行为**和**AI 引擎调用**的详细日志。

需要我深入查看某个具体索引的结构吗？
user: 我想看看user_behavior_buried_points的结构
assistant: 再看几条样例数据，更直观地了解内容：
assistant: 好的，以下是 `user_behavior_buried_points` 的完整结构：

---

## 📊 user_behavior_buried_points 结构

**数据量：2,707 万条 / 8 GB**（Online ES 最大的一条索引）

### 🏷️ 埋点标识

| 字段 | 类型 | 说明 |
|------|------|------|
| `buryingPointId` | long | 埋点大类 ID（如 300=关卡内操作，400=组件内操作） |
| `buryingPointName` | text | 埋点大类名称 |
| `buryingPointSubId` | long | 埋点子类 ID |
| `buryingPointSubName` | text | 埋点子类名称（如"点击下一句时"、"TimeAction触发组件时"） |

### 👤 用户信息

| 字段 | 类型 | 说明 |
|------|------|------|
| `accountId` | long | 用户账号 ID（关联 `bi_vala_app_account.id`） |
| `accountName` | text | 账号名（手机号脱敏，如 `193****7248`） |
| `characterId` | long | 角色 ID |
| `characterName` | text | 角色名（如 Sophia） |

### ⏱️ 行为记录

| 字段 | 类型 | 说明 |
|------|------|------|
| `activeTime` | long | 行为时间戳（秒） |
| `action` | keyword | 行为动作 |
| `stepDuration` | long | 步骤耗时（秒） |
| `finishStatus` | text | 完成状态 |
| `versionId` | text | App 版本号 |
| `dataVersion` | keyword | 数据版本 |

### 📚 课程/关卡上下文

| 字段 | 类型 | 说明 |
|------|------|------|
| `seasonPackageId` | long | 季包 ID |
| `seasonPackageName` | text | 季包名（如"序章"） |
| `unitId` | long | 单元 ID |
| `unitName` | text | 单元名（如"出发瓦拉"） |
| `lessonId` | long | 课时 ID |
| `lessonName` | text | 课时名（如"空中劫持"） |

### 🧩 组件/模块详情

| 字段 | 类型 | 说明 |
|------|------|------|
| `componentId` | long | 组件 ID |
| `componentName` | text | 组件名（如"告诉Otis现在的状况"） |
| `cType` | text | 组件类型（如 `mid_grammar_cloze`、`mid_sentence_dialogue`） |
| `cId` | text | 组件编号 |
| `learningModuleId` | long | 学习模块 ID |
| `learningModuleName` | text | 学习模块名 |
| `learningPointId` | long | 学习点 ID |
| `learningPointName` | text | 学习点名 |
| `cardId` | long | 卡片 ID |
| `cardName` | text | 卡片名（如 "Me"） |

### 🔧 扩展字段

| 字段 | 类型 | 说明 |
|------|------|------|
| `ex2` ~ `ex6` | keyword | 预留扩展字段 |
| `num1` ~ `num3` | double | 预留数值扩展字段 |
| `location` | keyword | 位置信息 |
| `button` | keyword | 按钮标识 |

---

### 📌 一句话总结

这张表就是瓦拉 App 中**用户每一次操作行为的全量埋点日志**——谁（accountId/characterId）、在什么课程位置（Season → Unit → Lesson → Component）、做了什么操作（buryingPointId/Sub）、花了多少时间（stepDuration）、用的是什么版本（versionId），全部记录在内。

可以做用户行为路径分析、功能使用频率统计、各环节耗时分析等。需要我基于这个数据跑什么分析吗？