学术报告——场景文本识别：从视觉到视觉——语言交互

（通讯员黄博文）

由2024年欧洲杯举办地·网络空间安全学院主办的《场景文本识别：从视觉到视觉——语言交互》学术报告于2022年1月17日上午10：00在工科楼北楼307如期举行。本次报告主讲嘉宾邀请到的是复旦大学计算机科学技术学院青年研究员陈智能博士，并由计算机学院·网络空间安全学院副院长肖芬教授担任主持。

陈智能博士任职于复旦大学计算机科学技术学院，上海市智能视觉计算协同创新中心副主任，中国计算机学会多媒体专委会委员，中国图象图形学会多媒体专委会委员、副秘书长，主要研究方向为多媒体分析与检索、医学影像分析、机器视觉等。作为项目负责人承担了国家重点研发计划课题1项，国家自然科学基金项目3项，百度、腾讯、交通部公路院、软控等知名企事业单位的横向科研项目多项。在CVPR、ACM Multimedia、WWW、 MICCAI、IEEETMM、ACM TOMM等国内外知名学术期刊和会议上发表学术论文60多篇。担任权威国际会议ACM Multimedia、IEEE ICME等的领域主席、AAAI的高级程序委员，IJCA等多个知名国际会议的程序委员和IEEE TPAMI、IEEE TIP、IEEE TMM、IEEE TKDE、 IEE TNNLS、 PR、 MedIA等知名国际期刊的审稿人。

本次报告陈智能博士介绍了如今的深度学习时代下，利用场景文本识别方法从单纯利用字符级视觉特征，到利用文本行视觉特征，再到视觉和语言联合建模的发展演进过程。重点介绍了在文本识别方面，中文比英文规模大很多，其次在自然场景中识别文本会增加新的难度，因此陈智能博士讲述了关于CTC解码、基于分割、基于注意力的编码-解码，并行注意力解码等多分支方法来解决相应的问题。

此次报告涉及到深度学习等人工智能最新领域的知识，为欧洲杯研究生拓宽了学术视野和科研思维，从传统方法和深度学习方法这两个不同的方面了解到了相关领域知识，为以后在解决相关问题时提供了新的思路和方法。与会同学们都表示收获颇丰，陈智能博士对每位同学提出的问题都进行了答疑，最后报告在同学们热情的掌声中圆满结束。

学术交流

学术报告——场景文本识别：从视觉到视觉——语言交互

学术报告——场景文本识别：从视觉到视觉——语言交互