ai_member_xiaoban/memory/2026-06-25-1810.md

# Session: 2026-06-25 18:10:56 GMT+8

- **Session Key**: agent:xiaoban:feishu:direct:ou_b93fcdb5b87ae37919fae9f4473026c9
- **Session ID**: d67c0079-fad2-4a0b-9a74-22396fef67b1
- **Source**: feishu

## Conversation Summary

assistant: 好的，请发过来，我准备好了。
user: [message_id: om_x100b6cfdf3adc488c455d69bdae7ac3]
李应瑛: https://makee-interactive.feishu.cn/wiki/PzcVw5isNif2cLk38XHc4aBOnEh?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/O6OzwCURyiadaWku4prcRbmLn78?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/IXVIwMkBtiWoPlkcIgKcPAw8n2c?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/JXwmwoHpJisyQWkT3OucDH91nef?from=from_copylinkhttps://makee-interactive.feishu.cn/docx/Pn5nd9JlQoYoClx7KQmcVExEnMb?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/IstxwTF3miHpQEkyG2Jcx3winlh?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/BUj6wdHagiSlj3kSxGBcCEOfnmd?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/PqAVwwn3xi23A9k6PWFcYhKznfg?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/Sx1PwWj9liFvs0kEmJOcHypPnAg?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/VU2QwVZTsik3thk70dRc309Ennb?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/VXO2wWKHQi25vWkkrjTcUc7Cn1W?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/EZrMw8zliibtH3kCTgDcpD34n8d?from=from_copylinkhttps://makee-interactive.feishu.cn/docx/JVPIdu1OOoK285xk1p6cGpgPnXf?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/Nc18wsvvIil4YFkVvYIcRs1in6e?from=from_copylinkhttps://makee-interactive.feishu.cn/wiki/DBtZwQhbWiMrIBk6BXeciRchnVh?from=from_copylink请留意每份文件的修改时间。
assistant: 收到 15 份文档。我先批量获取节点信息，再逐一读取。注意：第 5 和第 13 份是 `/docx/` 路径（个人文档），我先尝试，如果无法访问会告知你。


assistant: 现在批量读取 13 份 Wiki 文档（2 份 `/docx/` 路径跳过）。按修改时间排序，从最早到最新：


assistant: 15 份文档已全部读完（2 份 `/docx/` 个人文档路径不在我的权限范围内，已跳过）。以下是综合归纳。

---

## 学习效果：从定义到感知的完整理解

### 一、学习效果的定义演变

团队对"学习效果"的思考经历了三个阶段，从模糊到清晰：

| 阶段 | 时间 | 核心定义 | 代表文档 |
|------|------|---------|---------|
| 探索期 | 2023-2024 | "无提示表达" → "自主完成对话" | 学习效果与学习报告 |
| 成型期 | 2024-2025 | "用得上" = 场景问题 × 语言知识 × 运用能力 | 学习效果定义 v4.0 |
| 成熟期 | 2025-2026 | "有意义的学习行为的重复" + "提分" | Vala产品逻辑思考、关于学习效果的思考 |

当前共识可归纳为 **四层效果模型**：

```
动力层（愿不愿意学）→ 习得层（学没学会）→ 应用层（用不用得上）→ 迁移层（考不考得出）
```

---

### 二、团队内部的核心张力

这些文档中存在几组明显的观点碰撞，不是"谁对谁错"，而是不同视角的互补：

#### 张力 1：趣味 vs 提分

- **早期（2024.01）：** "在喜欢但没效果 vs 有效果但不想玩之间，选前者"
- **后期（2026.06 Kingson）：** "我们是系统课，就是提分。谁对提分没信心就来找我聊"

**实质不是对立，是先后顺序。** 趣味是入口，提分是出口。没有趣味孩子根本不用，提分无从谈起；没有提分家长不买单，产品无法持续。两者是"先活下来再活得好"的关系。

#### 张力 2：主线剧情是"检测"还是"学习"

- **Vala产品定义（2025.06）：** 主线剧情核心作用是"检测"——暴露学生问题，真正的掌握在回顾/总结/挑战中完成
- **教研方法论：** 主线剧情同时承担"以练代学"的可理解性输入

**实质是分工问题。** 主线剧情 = 情境导入 + 问题暴露 + 初步输入；关卡外 = 针对性练习 + 巩固掌握。两者不是非此即彼，是"发现问题"和"解决问题"的分工。

#### 张力 3：自由表达 vs 标准化评估

- 核心互动希望用户自由表达（"想怎么说就怎么说"）
- 但自由表达导致 Oops 率高（L1 看图说话 Oops 率 30%），学习报告不好看

**这是产品设计层面的真实矛盾。** 文档中已有方案雏形：分级提示（A2 给子任务、B1 不给）、分层通过规则（Perfect/Good/Pass 三档对外、五档对内）。

#### 张力 4：情境课 vs 系统课

- 产品 DNA 是"情境教学法"（CBL）
- Kingson 坚持对外定位是"系统课"（= 主菜，不是辅菜）

**这不是矛盾，是内外有别。** 情境是"怎么做"（how），系统课是"是什么"（what）。对家长说"我们是系统课"建立品类认知，用"情境学习法"解释为什么比别人好。

---

### 三、我对学习效果的归纳理解

综合所有文档，Vala 的学习效果可以表述为：

> **让孩子在真实情境中，通过高频互动和有意义重复，从"被提示说"到"自主说"再到"自主说得好"，最终转化为可验证的考试成绩提升。**

拆开来看是四个递进：

1. **学得进去**（动力）：剧情牵引 + 高频互动（每40秒一次）+ 自由+意外+难度适中+个性化反馈 → 孩子主动参与、动脑思考
2. **学得会**（习得）：先输入后输出 → 支架辅助 → 提示递减 → 自主表达。中互动打基础（单词/句型），核心互动练综合应用
3. **用得上**（应用）：场景问题越来越多、语言知识越来越丰富、提示次数越来越少。从生活具象问题到专业抽象问题逐步覆盖
4. **考得出**（迁移）：知识体系对齐 KET + 新课标，主题覆盖主流教材，重难点反复练（一个知识点 5 遍以上），错题自动收集+专题专练

---

### 四、如何让用户/家长感知学习效果

文档中对此有大量讨论，按时间维度整理：

#### 短期感知（1天-2周）：让家长"看到孩子在学"

| 感知点 | 怎么说 | 怎么证明 |
|--------|--------|---------|
| **高频互动** | "每40秒一次互动，超过一对一课" | 数据对比：双师大班10分钟/次，小班5分钟/次 |
| **学进去了** | "孩子是故事主角，每次都在动脑子" | 互动不是机械点击，是听辨+理解+记忆的综合 |
| **学习闭环** | "学-练-固-测-补，一个知识点学5遍" | 展示一个知识点从情境导入→互动练习→回顾巩固→挑战检测→错题补救的完整路径 |
| **量化数据** | "今天学了X个单词、Y个句型、自主对话Z次" | 学习报告：互动次数、耗时、Perfect率、Oops率 |

**核心洞察（来自 Kingson 的学而思经验）：** 家长看短期效果，本质是判断"孩子学进去了没有"。老师、互动、服务三个维度都是为这个判断服务的。我们没有真人老师，但我们的互动频次碾压真人课堂——这是必须打透的点。

#### 中期感知（1-2个月）：让家长"感受到变化"

| 感知点 | 怎么说 | 怎么证明 |
|--------|--------|---------|
| **兴趣持续** | "孩子用了两个月还主动要学" | 连续学习天数、主动打开率 |
| **偶发惊喜** | "孩子突然在家说英语了" | 收集用户证言、"高光时刻"自动录制推送家长 |
| **进步轨迹** | "三个月前只会X，现在能Y了" | 学习报告趋势图：自主对话率提升、Oops率下降 |

**关键：** 中期效果靠"偶发惊喜"和"持续兴趣"双驱动。偶发惊喜需要产品机制来制造（如自动生成孩子配音小视频推给家长），而不是等家长自己发现。

#### 长期感知（3个月+）：让家长"相信能提分"

| 感知点 | 怎么说 | 怎么证明 |
|--------|--------|---------|
| **懂学校** | "你孩子在学X教材第Y单元，我们这关正好覆盖" | 6个主流版本教材逐单元对照表 |
| **懂考试** | "here和there的区别连续10年是丢分Top10，我们设计了5遍" | 具体知识点在考试中的错误率 + 我们的教学处理 |
| **内容对齐** | "L1学980个单词，覆盖新课标505词 + YLE Mover 700词" | 词汇量对照、主题对照 |
| **改革一致** | "新课标要求情境化教学，我们就是为此设计的" | 新课标中"情境"出现次数（语文50次、数学173次、英语46次） |
| **真实案例** | "XX小朋友用了半年，KET卓越" | 用户证言 + 成绩单 |

**核心洞察（来自 Kingson）：** 长期效果是售卖/塑品重点。如果用户/达人不相信长期效果，就不会下单，无从体会短期效果。长期效果靠两句话打透：**"我懂你们学校怎么教的"** + **"我懂考试怎么考的"**。

---

### 五、当前最关键的 Gap

从文档中能清晰看到，团队已经想得很深，但有几个关键缺口：

1. **短期和长期之间的桥梁缺失。** 40秒一次互动 → 提分，这个逻辑链对家长来说太长了。需要一个中间概念来连接，比如"每关掌握3个单词+1个句型，一年就是1440个单词+960个句型"。

2. **"效果不可见"是退费第一原因。** 课程效果维度研究文档明确指出：60%+退费用户反馈"看不到效果"，但实际掌握度比用户感知高 20-30%。这是产品外化的问题，不是效果本身的问题。

3. **用户证言严重不足。** 多份文档都提到需要用户证言但当前缺失。竞品（可汗、多邻国）都有 RCT 研究背书，Vala 目前只有内部数据。

4. **L2 产品健康度堪忧。** 快慢用户耗时差 38.5 分钟、核心互动分层正确率差 41.5%、全链路转化率仅 27.53%——这些问题不解决，长期效果交付会打折扣。

---

总结一句话：**Vala 的学习效果在设计和理论层面已经非常扎实，当前的核心挑战不是"有没有效果"，而是"如何让家长在买单前就相信有效果，在买单后持续看到效果"。**
user: [message_id: om_x100b6cfe417034ecc3718d39df69255]
李应瑛: 好。接下来我们还需要解决两个问题：张力 3：自由表达 vs 标准化评估
\- 核心互动希望用户自由表达（"想怎么说就怎么说"）
\- 但自由表达导致 Oops 率高（L1 看图说话 Oops 率 30%），学习报告不好看

这是产品设计层面的真实矛盾。 文档中已有方案雏形：分级提示（A2 给子任务、B1 不给）、分层通过规则（Perfect/Good/Pass 三档对外、五档对内）。这一点应该怎么处理？
assistant: 这是一个很关键的产品设计问题。让我从根上拆解。

---

## 自由表达 vs 标准化评估：系统性处理方案

### 先理清矛盾的本质

核心互动的 Oops 率高，不是"用户不会"，而是**评估标准与互动目标错配**。

```
核心互动的设计目标：检测真实能力 → 暴露问题 → 驱动后续针对性练习
当前评估方式：       对/错二元判断 → 自由表达天然"错"多 → Oops 率高
```

问题出在：用"考试"的尺子量"诊断"的结果。诊断发现问题是好事，但报告里显示一堆 Oops 就像在说"你孩子不行"。

---

### 处理方案：三层解耦

#### 第一层：输入端 — 分级提示，降低"不必要的 Oops"

不是所有 Oops 都有价值。用户因为"不知道要说什么"而卡住，和"知道要说什么但英语表达不准确"而卡住，是两种完全不同的问题。前者是任务设计问题，后者才是学习诊断价值。

**分级方案：**

| 级别 | 任务描述 | 子任务提示 | 适用场景 |
|------|---------|-----------|---------|
| A2 | 给 | 给（如"介绍外观→介绍功能"） | 降低理解门槛，聚焦语言输出 |
| B1 | 给 | 不给 | 检测思路组织+语言输出 |
| B2+ | 不给 | 不给 | 完全自主，检测综合能力 |

**关键原则：** 同一任务可以有多级配置。U0-L1 的"记者采访自我介绍"对初学者给子任务（"说名字→说去向→说准备好了"），对进阶用户不给。

这样，A2 用户的 Oops 更多来自"语言能力不足"（有价值的诊断），而非"不知道要干啥"（无价值的噪音）。

---

#### 第二层：评估端 — 从二元判断到多维评估

核心互动不应该只有一个"对/错"。自由表达的价值恰恰在于：用户说的可能不标准，但能完成任务。

**改为四维评估：**

```
任务完成度：用户是否完成了场景目标？（0-5分）
语言准确度：语法、用词是否正确？（0-5分）
语言丰富度：是否用了目标词汇/句型？（0-5分）
自主程度：  用了多少提示？（0-5分）
```

**综合判定规则：**

| 对外等级 | 对内等级 | 判定条件 |
|---------|---------|---------|
| ⭐⭐⭐ Perfect | 无提示首通 | 四维均≥4，无提示 |
| ⭐⭐⭐ Perfect | 有提示首通 | 四维均≥4，有提示但自主程度≥3 |
| ⭐⭐ Good | 无提示通过 | 任务完成度≥3，其他有短板 |
| ⭐⭐ Good | 有提示通过 | 任务完成度≥3，用了提示 |
| ⭐ Pass | 降级通过 | 多次尝试后完成，或用了直接答案 |
| — | 失败再试 | 未完成但愿意再试 |
| — | 失败跳过 | 连续失败后跳过 |

**对外只展示三档（Perfect / Good / Pass），对内保留五档用于数据分析。**

这样，用户说 "I go Vala" 而不是 "I am going to Vala"——任务完成度 4 分（对方听懂了），语言准确度 2 分（语法错误），语言丰富度 2 分（没用目标句型），自主程度 5 分（完全自主）。综合判定：**Good**。

不会因为语法不完美就被判 Oops，但系统内部记录了"语法需要加强"，后续回顾会针对性练习 "I am going to"。

---

#### 第三层：展示端 — 把"问题"转化为"进步空间"

这是最关键的一层。学习报告不能展示原始 Oops 率，需要语义转化。

**当前（有问题）：**
> 核心互动 Oops 率：30%
> → 家长理解：我孩子 30% 的内容没学会

**改为（转化后）：**
> 本次自主表达 5 次，其中 3 次完美达成，2 次发现了提升空间
> 已为你生成了 2 个针对性练习：语法（I am going to）、词汇（clothes 用法）
> → 家长理解：产品发现了我孩子的薄弱点，并且已经在补了

**学习报告的核心叙事逻辑应该是：**

```
"孩子今天在X个真实场景中用英语完成了任务
  → 其中Y个完成得很棒
  → Z个发现了提升空间
  → 我们已经针对性安排了练习"
```

而不是：
```
"孩子今天错了X次"
```

---

### 核心互动的定位需要重新明确

文档中 Vala 产品逻辑已经说得很清楚：

> 主线剧情核心作用是「检测」——发现并判断学生的卡点/问题
> 真正的「掌握和运用」在回顾/总结/挑战中完成

但这个定位目前没有体现在评估和展示上。核心互动用了"考试"的评估方式（对/错），但承担的是"诊断"的功能。

**需要对齐的认知：**

| | 核心互动（主线） | 单元挑战 |
|------|------|------|
| 功能 | 诊断：暴露问题 | 考试：验证掌握 |
| 评估方式 | 多维度（完成度+准确度+丰富度+自主度） | 标准化（对/错，模仿 KET） |
| 对外展示 | 进步空间 + 已安排练习 | 得分 + 等级 |
| 高错误率意味着 | 检测有效，发现了很多可提升的点 | 掌握不足 |

**这样家长看到的是完整闭环：**
1. 核心互动发现了问题 →
2. 回顾/总结针对性练习 →
3. 挑战验证掌握程度 →
4. 错题本持续巩固

每一步都有明确的"效果证据"，而不是孤立的 Oops 数字。

---

### 总结：三个关键决策

1. **核心互动不再用"对/错"评估**，改为四维打分 + 三档对外展示（Perfect/Good/Pass）。让"不完美但能完成任务"的表达得到合理评价。

2. **学习报告不再展示 Oops 率**，改为"发现 X 个提升空间 → 已安排 Y 个针对性练习"的叙事。把"问题"转化为"产品的主动服务"。

3. **核心互动明确定位为"诊断"而非"考试"**，高错误率不是产品问题而是诊断有效的证明。真正的"考试"在单元挑战，那里才是家长应该关注的分数。

这三件事如果落地，自由表达和标准化评估的矛盾就从"非此即彼"变成了"各司其职"——核心互动负责发现问题（自由表达），挑战负责验证结果（标准化评估），中间的回顾/总结负责解决问题。
user: [message_id: om_x100b6cfec6c704b8c23bf277e1462ec]
李应瑛: 类比：演出是探索推进奖励，中互动是小怪战（小练一下）、核心互动是BOSS战（考验孩子的能力）
现在的关键是“孩子通过了核心互动，是不是真的全靠自己的能力”，这点和传统游戏不同。这个理解你觉得对吗？学习过程和游戏过程有什么不同呢
assistant: 这个类比非常精准，而且你点出的那个矛盾正是问题的核心。让我展开分析。

---

## 游戏 BOSS 战 vs 学习核心互动：本质差异

### 你的类比是对的，但需要补一个关键差异

```
游戏：小怪战（练操作）→ BOSS战（验证操作）→ 打不过 = 回去再练
学习：中互动（练单词/句型）→ 核心互动（综合应用）→ 卡住了 = 给提示帮过，记下来回头再练
```

**游戏 BOSS 战的逻辑是"验证"：** 你之前练了就是练了，没练就是没练。BOSS 是一道闸门，打不过就过不去。通过了就是真通过了。

**学习核心互动的逻辑是"诊断"：** 你卡住了不意味着你永远不行，只是意味着这个知识点需要更多练习。核心互动不是闸门，是体检。

这就是你说的"孩子通过了核心互动，是不是真的全靠自己的能力"——在游戏里，答案是"是"；在学习里，答案应该是"不一定，而且不一定需要是"。

---

### 学习过程和游戏过程的三层本质不同

#### 不同 1：失败的价值完全相反

| | 游戏 | 学习 |
|------|------|------|
| 失败的含义 | 你不够强，回去练 | 你还没掌握，换个方式再学 |
| 失败的情绪 | 挫败感（但可接受，因为能重来） | 挫败感（且不可接受，因为意味着"我笨"） |
| 失败后的行为 | 玩家主动回去刷怪 | 需要系统引导，否则容易放弃 |
| 设计目标 | 适度的失败让胜利更甜 | 失败是数据，不是体验目标 |

**关键推论：** 游戏可以设计"你必须死三次才能找到 BOSS 的弱点"，学习不能设计"你必须错三次才能学会这个单词"。因为学习的失败承载了"我是不是不行"的自我评价，而游戏的失败承载的是"这关好难，但我能过"的挑战感。

#### 不同 2：通过 ≠ 掌握

这是你问题的核心。

```
游戏 BOSS 战通过 = 你在这次战斗中确实做到了
学习核心互动通过 = 你完成了任务，但不一定掌握了目标知识
```

为什么？因为学习中有太多"非知识因素"可以帮助通过：

- **情境线索：** 用户不是真的听懂了英语，而是看画面猜到了要做什么
- **提示辅助：** 用了中文提示、子任务拆解、NPC 引导
- **排除法：** 选择题可以猜，对话可以蒙
- **短期记忆：** 刚在中互动里练过，5 分钟后还能记住，但明天就忘了

**这恰恰是 Vala 产品设计已经意识到的——** 文档中明确说："主线剧情核心作用是检测，真正的掌握在回顾/总结/挑战中完成。"

但当前的问题是：**产品体验上，核心互动通过的那一刻，给用户的感受是"我赢了 BOSS"，而不是"我完成了一次体检"。**

#### 不同 3：重复的意义不同

| | 游戏 | 学习 |
|------|------|------|
| 重复的内容 | 同一场 BOSS 战反复打 | 同一个知识点在不同情境中反复出现 |
| 重复的体验 | 越来越熟练，直到碾压 | 间隔重复，对抗遗忘曲线 |
| 重复的驱动力 | 我想赢 | 我需要被安排 |

**关键推论：** 游戏里玩家会主动反复刷 BOSS，学习里用户不会主动反复练同一个知识点。所以学习的重复必须被"包装"——不能是"请再练一遍 clothes"，而是"在新的故事里，你又遇到了 clothes"。

---

### 回到核心问题：怎么判断"真的靠自己"？

你的直觉是对的——不能简单用"通过了"来等同于"掌握了"。需要一个更细粒度的判断框架：

```
核心互动通过 ≠ 掌握
核心互动通过 + 无提示 + 无重试 + 使用了目标语言 = 大概率掌握
核心互动通过 + 有提示 + 重试了 + 回避了目标语言 = 需要观察
```

**具体判断维度：**

| 信号 | 说明 |
|------|------|
| 是否使用了目标词汇/句型 | 用了 "I am going to Vala" 还是只说 "I go Vala"？后者虽然能完成任务，但说明目标句型未掌握 |
| 是否需要提示 | 无提示自主完成 vs 看了中文提示才说出来 |
| 是否重试 | 一次过 vs 试了两次才过 |
| 回应是否匹配任务 | 任务要求"自我介绍"，用户确实做了自我介绍，还是偏离了？ |

**然后，真正的"验证"不在核心互动，在后续环节：**

- **回顾中的同一知识点**：如果用户在中互动里 Perfect，在核心互动里也用了目标句型，但在回顾里又错了 → 说明核心互动的"通过"有情境线索依赖，不是真掌握
- **挑战中的间隔测试**：Unit 挑战是 5 个 Lesson 之后的综合测试，中间隔了时间。如果挑战中正确 → 真掌握
- **跨 Unit 复用**：Unit 2 的句型在 Unit 5 的情境中再次出现，用户能否自主使用？

---

### 所以，怎么处理这个矛盾？

**核心原则：把"通过"和"掌握"解耦，在产品和数据两个层面分别处理。**

#### 产品体验层：让用户感受到"我在成长"，而不是"我通过了"

```
当前：核心互动结束 → "Perfect!" → 用户觉得"我赢了"
改为：核心互动结束 → "你完成了自我介绍！发现了 1 个可以更强的地方" → 用户觉得"我知道下一步练什么"
```

具体做法：
- 核心互动通过后，不展示"对/错"，展示"你做到了什么 + 发现了什么"
- 把"诊断结果"转化为"成长建议"："你用了 I am ready，很棒！下次试试用 I am going to 说出你的目的地"
- BOSS 战的"胜利感"保留（剧情推进、奖励），但增加"体检报告"的认知

#### 数据层：用"掌握度"替代"通过率"

```
不看的指标：核心互动通过率（容易造假，因为有提示和情境线索）
要看的指标：
  - 目标词汇/句型在核心互动中的实际使用率
  - 核心互动自主完成率（无提示 + 使用了目标语言）
  - 回顾中同一知识点的正确率（去情境化验证）
  - 挑战中间隔测试的正确率（去短期记忆验证）
```

#### 叙事层：对家长讲清楚"诊断 → 练习 → 验证"的闭环

```
"核心互动不是考试，是实战演练。
 孩子在真实场景中用英语完成任务，
 我们发现他哪里还不够熟练，
 然后在回顾和挑战中针对性地帮他练到真正掌握。"
```

---

### 一句话总结

**游戏 BOSS 战是终点（打过了就过了），学习核心互动是中转站（完成了任务，但真正的掌握验证在后面）。** 产品设计上需要让这个逻辑对用户可见——不是隐藏"你没掌握"，而是展示"我们发现了一个你可以变得更强的地方，并且已经在帮你练了"。
user: [message_id: om_x100b6cf8018f3490c3651c3a70d791a]
李应瑛: 0213041的所有用户Ooops率，excel发给我
assistant: Now let me compute the Oops rates and generate the Excel file.


assistant: Excel 已生成，现在发送给你。


assistant: Excel 已发送。快速汇总：

**组件 `mid_sentence_material-0213041` Oops 率数据：**

| 指标 | 数值 |
|------|------|
| 总用户数 | 230 |
| 总尝试次数 | 255 |
| Perfect | 93 次（36.47%） |
| Pass | 145 次（56.86%） |
| Failed | 16 次（6.27%） |
| None | 1 次（0.39%） |
| **整体 Oops 率** | **6.27%** |

这是一个中互动组件（`mid_sentence_material`），Oops 率 6.27%，远低于核心互动的 7.68%（L1），属于健康范围。Excel 里有两个 sheet——"用户明细"列出了每个用户的详细数据，"汇总统计"是整体指标。
user: [message_id: om_x100b6cfb9af340acc4354e570949b5c]
李应瑛: 统计互动库，按照中互动总数排列，给出排名前十的中互动
assistant: 数据出来了。按中互动总尝试次数排列，前十名：

---

## 中互动排名 Top 10（按总尝试次数）

| 排名 | 组件 ID | 类型 | 总次数 | Perfect | Pass | Failed+Oops | **Oops率** |
|------|---------|------|--------|---------|------|-------------|-----------|
| 1 | `mid_dialog_repeat-1000102` | 对话朗读 | 19,505 | 14,723 | 1,206 | 3,576 | **18.33%** |
| 2 | `mid_dialog_repeat-1000103` | 对话朗读 | 16,930 | 13,771 | 1,047 | 2,112 | **12.47%** |
| 3 | `mid_vocab_item-0000001` | 词汇物品 | 15,832 | 13,786 | 1,687 | 359 | **2.27%** |
| 4 | `mid_dialog_fillin-1000104` | 对话挖空 | 15,209 | 14,079 | 341 | 789 | **5.19%** |
| 5 | `mid_sentence_dialogue-0000091` | 句型对话 | 14,440 | 8,895 | 2,318 | 3,227 | **22.35%** |
| 6 | `mid_dialog_repeat-1000106` | 对话朗读 | 13,618 | 10,678 | 1,550 | 1,390 | **10.21%** |
| 7 | `mid_sentence_dialogue-0000002` | 句型对话 | 13,200 | 8,673 | 2,547 | 1,980 | **15.00%** |
| 8 | `mid_dialog_repeat-1000107` | 对话朗读 | 12,913 | 10,727 | 1,557 | 629 | **4.87%** |
| 9 | `mid_sentence_dialogue-0000003` | 句型对话 | 12,459 | 5,840 | 4,580 | 2,039 | **16.37%** |
| 10 | `mid_vocab_image-0000025` | 图片词汇 | 12,459 | 11,562 | 364 | 533 | **4.28%** |

---

### 几个值得关注的点：

1. **句型对话（sentence_dialogue）是 Oops 重灾区。** 第 5 名 22.35%、第 9 名 16.37%、第 7 名 15.00%，全部超过 15% 阈值。这类组件要求用户在情境中组织完整句子，难度天然高于单词类。

2. **对话朗读（dialog_repeat）分化明显。** 第 1 名 18.33% 偏高，但第 8 名仅 4.87%。差异可能来自语音识别准确度或句子复杂度——需要具体看 1000102 和 1000107 分别对应什么内容。

3. **词汇类（vocab_item / vocab_image）最稳。** Oops 率 2.27% 和 4.28%，说明单词层面的互动设计成熟。

4. **对话挖空（dialog_fillin）表现好。** 5.19%，有支架辅助的填空比完全自由组织句子容易得多。

需要我把这份数据也导出 Excel 吗？或者针对某几个高 Oops 率的组件深入分析？