上海枫泾古镇正门_20240824上海枫泾古镇正门_20240824

复旦大学推出AI文本分割框架EAFormer,助力图像文本识别与编辑

上海,2024年8月15日– 复旦大学近日发布了名为EAFormer的AI文本分割框架,该框架在图像文本识别和编辑领域展现出强大的能力,为相关应用场景带来了新的突破。

EAFormer 能够在图片中精准地识别和分割文字,即使文字边缘模糊或背景复杂,也能准确地将其从背景中分离出来。这得益于其独特的技术原理,包括:

  • 文本边缘提取器: 利用Canny算法检测图像边缘,并结合轻量级文本检测模型过滤非文本区域的边缘,确保只保留文本区域的边缘信息。
  • 边缘引导编码器: 基于SegFormer框架构建,通过对称交叉注意力层在编码过程中融入边缘信息,增强模型对文本边缘的感知能力。
  • MLP解码器: 采用多层感知机(MLP)层融合特征并预测最终的文本mask,实现文本区域的精确分割。
  • 损失函数设计: 使用文本检测损失和文本分割损失两种交叉熵损失进行优化,简化了超参数选择的复杂性。
  • 数据集重新标注: 针对COCOTS和MLTS等数据集的标注质量问题,进行了重新标注,确保评估结果的可靠性和模型训练的准确性。
  • 特征融合策略: 在边缘引导编码器中,通过设计的对称交叉注意机制仅在第一层融合边缘信息,避免了在所有层中融合边缘信息可能带来的性能下降。
  • 轻量级文本检测器: 在文本边缘提取器中使用,包括基于ResNet的骨干网络和MLP解码器,用于提取文本区域特征并辅助边缘过滤。

EAFormer 的应用场景非常广泛,包括:

  • 场景文本识别: 在自然场景或图片中识别和分割文本,用于信息提取或数据挖掘。
  • 图像编辑: 辅助图像编辑软件精确地擦除或替换图像中的文本,保持背景的自然和连贯性。
  • 广告屏蔽: 在视频流或图像中自动检测并遮挡广告或其他不希望出现的文本。
  • 版权保护: 帮助识别和保护版权文本,防止未经授权的复制或分发。
  • 文档处理: 自动化文档扫描和数字化过程中的文本识别,提高文档处理的效率和准确性。

EAFormer 的发布标志着 AI 在图像文本识别和编辑领域取得了新的进展,为相关应用场景提供了更强大的工具。该框架的开源代码和技术论文已发布在GitHub和arXiv上,供研究人员和开发者使用和学习。

EAFormer 项目地址:

展望未来,EAFormer 将继续优化和改进,在更多场景中发挥作用,为用户带来更便捷、更智能的体验。

【source】https://ai-bot.cn/eaformer/

Views: 6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注