优化 字幕清洗方案
This commit is contained in:
parent
f8a758ff40
commit
43a59dd593
|
|
@ -336,15 +336,13 @@ namespace VideoAnalysisCore.AICore.GPT.DeepSeek
|
|||
长度一致:输入 N 条,输出必须 N 条。
|
||||
时间锁定:输出的第 i 条 `t` 必须等于输入的第 i 条 `t`。
|
||||
原地修正:禁止跨行移动文本。即使一句话被切分在两行,也不要合并它们,只需分别修正各自行的错别字即可。
|
||||
|
||||
2. 上下文关联修正 (核心任务):
|
||||
2. 内容清洗标准:
|
||||
口语过滤:删除“那个、然后、嗯、啊、就是”等无意义填充词。若该行被清空,`r` 设为 `""`,保留对象。
|
||||
LaTeX 格式化:数学/科学公式必须转换为 LaTeX (如 `$\\frac{a}{b}$`),JSON 中反斜杠需双重转义 (`\\\\`)。
|
||||
3. 上下文关联修正 (核心任务):
|
||||
全局理解,局部修正:请阅读前后多行内容来确定当前行特定词汇的含义,解决同音错别字。
|
||||
案例:如果上一行是“求函数的”,当前行是“集值”,结合数学上下文应修正为“极值”。
|
||||
逻辑:修正依据是“上下文语义”,但修正范围仅限“当前行文本”。
|
||||
|
||||
3. 内容清洗标准:
|
||||
口语过滤:删除“那个、然后、嗯、啊、就是”等无意义填充词。若该行被清空,`r` 设为 `""`,保留对象。
|
||||
LaTeX 格式化:数学/科学公式必须转换为 LaTeX (如 `$\\frac{a}{b}$`),JSON 中反斜杠需双重转义 (`\\\\`)。
|
||||
# Task Data
|
||||
待处理数据 (共 {{cStrArr.Count()}} 条):
|
||||
{{nowCaptionStr}}
|
||||
|
|
|
|||
|
|
@ -255,7 +255,7 @@ namespace VideoAnalysisCore.Common
|
|||
}
|
||||
}
|
||||
var sp = spList.Distinct().ToList();
|
||||
if (sp.Count > 0)
|
||||
if (sp.Count > 0 && !string.IsNullOrWhiteSpace(segment.Text))
|
||||
results.Add(segment, sp);
|
||||
}
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue