第31届ACM国际信息与知识管理大会(The 31th ACM International Conference on Information and Knowledge Management ,CIKM 2022)于2022年10月17-21日在美国亚特拉大举行,我院2019级计算机科学与技术(师范)专业本科生李骅航在学院青年英才老师李双印的指导下,以共同第一作者身份在CIKM 2022上发表学术论文(学校二类层次成果),并进行了线上大会报告。该论文题目为“CoPatE: A Novel Contrastive Learning Framework for Patent Embeddings”,方向为文本数据挖掘。
CIKM(CCF B类会议)是数据库、数据挖掘、内容检索领域的顶级国际学术会议,本科生通过参与我院导师的科研项目,取得高质量的科研成果并在这个领域被认可,实属不易。这体现了学院在鼓励更多青年教师进行学术创新,加强本科生参与前沿科学研究指导力度方面的探索取得一定成效。
附成果详情:
在文本挖掘领域中,如何针对长文本(例如科技文献数据中的专利文本)进行有效的信息检索一直是一个热点问题。专利是发明者在一定时期内保护其发明产权的法律文献,在当今的技术发展中发挥着重要作用。随着每年专利数量的不断增加,要从大量的专利中确定一项发明与现有技术的不同之处,这就需要一个高效的专利管理和检索系统。然而,现阶段广泛使用的仍然是基于关键字的传统布尔检索,这需要复杂的布尔表达式并且检索性能不佳,在后期处理中也需花费较多的人力进行过滤。为了解决这些问题,李双印老师团队提出的对比学习框架CoPatE,设计了一个语义压缩模块来提取专利权利要求的关键信息,从而降低了算法的时空的复杂度。为了获得与标签相关的专利嵌入,该框架同时提出了一种标签辅助学习方法,使模型不仅关注文本信息,而且还考虑专利的类别信息。另外,该框架创新性地设计了一种更加有效的监督对比学习损失函数,使其更适合于专利文献,从而有效地改善了表示向量在潜在嵌入空间中的分布。最终,CoPatE获得了精度极高的专利向量表示,并在专利检索和专利分类这两项任务上均取得了极佳的效果。