181 lines
7.0 KiB
Markdown
181 lines
7.0 KiB
Markdown
# Session: 2026-05-22 15:18:29 GMT+8
|
||
|
||
- **Session Key**: agent:main:feishu:direct:ou_e63ce6b760ad39382852472f28fbe2a2
|
||
- **Session ID**: 3a4b1f73-c319-4473-989d-55043f21e6bb
|
||
- **Source**: feishu
|
||
|
||
## Conversation Summary
|
||
|
||
user: 跟我说一下你接入的数据库有哪些
|
||
assistant: 承龙你好!
|
||
|
||
我目前接入了 **6 个数据库**,按用途分为两类:
|
||
|
||
---
|
||
|
||
### 📦 业务数据(MySQL)
|
||
|
||
| 数据库 | 用途 | 访问权限 |
|
||
|--------|------|----------|
|
||
| **Online MySQL** (线上版本) | 线上发布版本的配置数据、用户订单/用户信息等 | 只读 |
|
||
| **Test MySQL** (测试环境) | 最新版本配置数据、内部开发用户数据 | 只读 |
|
||
|
||
### 📊 用户行为数据(PostgreSQL `vala_bi` 库)
|
||
|
||
| 数据库 | 用途 | 访问权限 |
|
||
|--------|------|----------|
|
||
| **Online PostgreSQL** (正式环境) | 正式环境的用户行为数据、订单表、账户表、课程明细等核心 BI 数据 | 只读 |
|
||
| **Test PostgreSQL** (测试环境) | 测试环境的行为数据 | 只读 |
|
||
|
||
### 📝 服务日志(Elasticsearch)
|
||
|
||
| 数据库 | 用途 | 访问权限 |
|
||
|--------|------|----------|
|
||
| **Online ES** (正式环境) | 正式环境的服务日志 | 只读 |
|
||
| **Test ES** (测试环境) | 测试环境的服务日志 | 只读 |
|
||
|
||
---
|
||
|
||
> ⚠️ 所有数据库均为**只读**权限,不会进行写入或删除操作。
|
||
|
||
核心的业务分析数据(订单、用户、课程、学习行为等)主要存放在 **Online PostgreSQL `vala_bi` 库**中。需要查什么数据随时说~
|
||
user: 读取一下online es,跟我说说里面都有什么
|
||
assistant: 好的,我来连接 Online ES 查看一下都有哪些索引和数据。
|
||
assistant: 认证失败,让我确认下密码变量名。
|
||
assistant: 数据拿到了,我来整理一下。Online ES 里主要有以下几类索引:
|
||
|
||
---
|
||
|
||
## 📊 Online ES 索引总览
|
||
|
||
### 🎯 核心业务索引(重点关注)
|
||
|
||
| 索引名 | 文档数 | 存储大小 | 说明 |
|
||
|--------|--------|----------|------|
|
||
| `user_behavior_buried_points` | **2,707万** | **8 GB** | 🔥 用户行为埋点,最大索引 |
|
||
| `user-audio` | 403万 | 2.4 GB | 用户音频数据 |
|
||
| `llm_pron_eval` | 155万 | 1.3 GB | 发音评估 |
|
||
| `llm_api_stat` | 535万 | 968 MB | LLM API 调用统计 |
|
||
| `llm_asr_log` | 225万 | 1.4 GB | 语音识别(ASR)日志 |
|
||
| `llm_tts_log` | 230万 | 1.4 GB | 文字转语音(TTS)日志 |
|
||
| `llm_roleplayagent_round_log` | 138万 | 5.5 GB | 角色扮演对话轮次日志 |
|
||
| `llm_realtime_asr_log` | 108万 | 471 MB | 实时语音识别日志 |
|
||
|
||
### 🗣️ 口语/对话相关
|
||
|
||
| 索引名 | 文档数 | 说明 |
|
||
|--------|--------|------|
|
||
| `llm_image_speaking` | 39.7万 | 看图说话 |
|
||
| `llm_api_error_based_correction` | 5.3万 | 基于错误的纠错API |
|
||
| `llm_ai_tools_log` | 27.4万 | AI 工具调用日志 |
|
||
| `llm_core_speaking_monologue` | 374 | 核心口语独白 |
|
||
| `llm_scene_chat_log` | 55 | 场景对话日志 |
|
||
| `pronunciation_eval_logs` | 4 | 发音评估日志 |
|
||
|
||
### 📈 其他业务索引
|
||
|
||
| 索引名 | 文档数 | 说明 |
|
||
|--------|--------|------|
|
||
| `growth_activity_behavior` | 3.5万 | 增长活动行为 |
|
||
| `word_sentence_learn_data` | 439 | 单词句子学习数据 |
|
||
| `llm_api_writing` | 7,920 | API 写作日志 |
|
||
| `llm_instruction_control_log` | 3,298 | 指令控制日志 |
|
||
| `vala-user-chat-log` | 1,547 | 用户对话日志 |
|
||
| `llm_audio_denoise` | 0 | 音频降噪(空) |
|
||
|
||
### ⚙️ 系统/监控索引(内部使用)
|
||
|
||
- `.monitoring-es-7-*` / `.monitoring-kibana-7-*` — ES/Kibana 自身监控
|
||
- `.kibana_*` — Kibana 系统配置
|
||
- `.watches` / `.triggered_watches` — 告警监控
|
||
- `.security-7` — 安全配置
|
||
|
||
---
|
||
|
||
### 📌 总结
|
||
|
||
Online ES 总共有 **~58 个索引**,核心是**用户行为埋点**(2,700 万条,8GB)和**各种 LLM/AI 交互日志**(ASR 语音识别、TTS 语音合成、发音评估、角色扮演对话等),主要记录的是用户在 App 中的**学习行为**和**AI 引擎调用**的详细日志。
|
||
|
||
需要我深入查看某个具体索引的结构吗?
|
||
user: 我想看看user_behavior_buried_points的结构
|
||
assistant: 再看几条样例数据,更直观地了解内容:
|
||
assistant: 好的,以下是 `user_behavior_buried_points` 的完整结构:
|
||
|
||
---
|
||
|
||
## 📊 user_behavior_buried_points 结构
|
||
|
||
**数据量:2,707 万条 / 8 GB**(Online ES 最大的一条索引)
|
||
|
||
### 🏷️ 埋点标识
|
||
|
||
| 字段 | 类型 | 说明 |
|
||
|------|------|------|
|
||
| `buryingPointId` | long | 埋点大类 ID(如 300=关卡内操作,400=组件内操作) |
|
||
| `buryingPointName` | text | 埋点大类名称 |
|
||
| `buryingPointSubId` | long | 埋点子类 ID |
|
||
| `buryingPointSubName` | text | 埋点子类名称(如"点击下一句时"、"TimeAction触发组件时") |
|
||
|
||
### 👤 用户信息
|
||
|
||
| 字段 | 类型 | 说明 |
|
||
|------|------|------|
|
||
| `accountId` | long | 用户账号 ID(关联 `bi_vala_app_account.id`) |
|
||
| `accountName` | text | 账号名(手机号脱敏,如 `193****7248`) |
|
||
| `characterId` | long | 角色 ID |
|
||
| `characterName` | text | 角色名(如 Sophia) |
|
||
|
||
### ⏱️ 行为记录
|
||
|
||
| 字段 | 类型 | 说明 |
|
||
|------|------|------|
|
||
| `activeTime` | long | 行为时间戳(秒) |
|
||
| `action` | keyword | 行为动作 |
|
||
| `stepDuration` | long | 步骤耗时(秒) |
|
||
| `finishStatus` | text | 完成状态 |
|
||
| `versionId` | text | App 版本号 |
|
||
| `dataVersion` | keyword | 数据版本 |
|
||
|
||
### 📚 课程/关卡上下文
|
||
|
||
| 字段 | 类型 | 说明 |
|
||
|------|------|------|
|
||
| `seasonPackageId` | long | 季包 ID |
|
||
| `seasonPackageName` | text | 季包名(如"序章") |
|
||
| `unitId` | long | 单元 ID |
|
||
| `unitName` | text | 单元名(如"出发瓦拉") |
|
||
| `lessonId` | long | 课时 ID |
|
||
| `lessonName` | text | 课时名(如"空中劫持") |
|
||
|
||
### 🧩 组件/模块详情
|
||
|
||
| 字段 | 类型 | 说明 |
|
||
|------|------|------|
|
||
| `componentId` | long | 组件 ID |
|
||
| `componentName` | text | 组件名(如"告诉Otis现在的状况") |
|
||
| `cType` | text | 组件类型(如 `mid_grammar_cloze`、`mid_sentence_dialogue`) |
|
||
| `cId` | text | 组件编号 |
|
||
| `learningModuleId` | long | 学习模块 ID |
|
||
| `learningModuleName` | text | 学习模块名 |
|
||
| `learningPointId` | long | 学习点 ID |
|
||
| `learningPointName` | text | 学习点名 |
|
||
| `cardId` | long | 卡片 ID |
|
||
| `cardName` | text | 卡片名(如 "Me") |
|
||
|
||
### 🔧 扩展字段
|
||
|
||
| 字段 | 类型 | 说明 |
|
||
|------|------|------|
|
||
| `ex2` ~ `ex6` | keyword | 预留扩展字段 |
|
||
| `num1` ~ `num3` | double | 预留数值扩展字段 |
|
||
| `location` | keyword | 位置信息 |
|
||
| `button` | keyword | 按钮标识 |
|
||
|
||
---
|
||
|
||
### 📌 一句话总结
|
||
|
||
这张表就是瓦拉 App 中**用户每一次操作行为的全量埋点日志**——谁(accountId/characterId)、在什么课程位置(Season → Unit → Lesson → Component)、做了什么操作(buryingPointId/Sub)、花了多少时间(stepDuration)、用的是什么版本(versionId),全部记录在内。
|
||
|
||
可以做用户行为路径分析、功能使用频率统计、各环节耗时分析等。需要我基于这个数据跑什么分析吗?
|