近日,一则好消息传来,我校计算机学院蒙古文信息处理技术实验室的飞龙副教授带领实验室的路敏和王勇等学生研发了一款高效的蒙古文自动校正系统,该系统可以校正蒙古文的形同内码错误,解决多音字、格后缀使用错误等问题,并且能够对外形错误的错别字进行标记和提示,校正准确率达到了97%以上,可以满足应用要求。该系统的诞生可以有效地解决目前使用蒙古文国家标准编码当中存在的大量形同内码错误、后缀使用错误等问题,对进一步规范和正确使用蒙古文国家标准编码具有重要的意义。我们特别采访了该校正系统研发者飞龙老师,走近他别样的发明人生。
初次见到飞龙老师的时候,他正端坐在办公室的电脑桌前看着编码。熨烫到没有一丝褶皱的立领蓝色衬衫,外面套一件深蓝色的无袖毛衣,裤线笔直的酒红色长裤外加一双暗咖色的皮鞋,鞋边是暗红色的,配着从窗外蔓进来的黄昏时分暖意的霞,这个年轻的科研学者俨然融入了一幅天地间绝丽的风景画。“文艺、复古”,这是飞龙老师给人的第一印象。
近日,他带领博士研究生路敏、硕士研究生王勇和齐心研发出一款高效的蒙古文自动校正系统,使蒙古文文本校正的准确度显著提升,为蒙文识别、语音合成等技术的发展开辟了一条新的道路。“理性、创新”,这就是飞龙老师给人的第二印象了。
蓝色是经过校对更改正确的,红色是原本错误未能改正的
几十年来,很多专家教授致力于研发蒙古文校正系统,但校对文本的正确率却始终停留在50%,大量的形同内码错误、多音字及格后缀使用错误给蒙古文的调用带来了严重不便。蒙文处理中存在的最大的问题是蒙编码的不统一。现在的蒙文语料大部分从网上获取,蒙编码不统一直接导致转化时出现许多错误。内蒙古大学计算机学院的大部分学者也都在从事蒙古文校对系统的研究,可惜校正效果却始终不尽人意。就在此时,飞龙决定试试。
多年的信息处理经验在他的思路中碰撞出灵感的火光,直至去年年初,飞龙突然想到了一个新的办法——利用“中间码”——蒙文中有许多元音外形相同但其所示意义不同,运用“中间码”理念可以把所有外形一样的词用一个中间字符表示,结合上下文本内容,再把这个中间字符对应其正确的词义。思路确定以后,实验便全面展开。一位老师,两名学生,三台电脑,自去年年初至今年深秋,每天超过10小时的工作量,飞龙老师放弃假期休息时间一心致力于系统的研发,跟随老师一同参与实验的博士研究生和硕士研究生与老师一起留在学校工作,整个暑假都没有回家。就这样,几十年的难题在短短一年半的时间里,被他们拿下了。
飞龙老师亲自演示系统的使用:“看,蓝色是经过校对更改正确的,红色是原本错误未能改正的。”一篇从权威媒体内蒙日报社刊登的蒙文文本正确率只有55.43%,经蒙古文自动校正系统校正后,正确率可高达98.26%。飞龙老师接着说:“我们专门对内蒙日报社的蒙文文本进行了统计查询,出错率高到不能及格。现在这个系统可以推广到蒙古语日报社和电视台进行文字校正,这样就把蒙文转化的基本问题解决了。”
蓝色是桃李湖鱼儿眼中深邃的海,红色是内大学子心中赤诚的火
飞龙,于2001年考入内蒙古大学读预科,次年进入本校计算机学院进行本科学习,2006年攻读内蒙古大学硕士研究生,同时开始进一步深入蒙古文信息处理方面的学习研究,2013年博士毕业后留校任教,现任职内蒙古大学计算机学院副教授。从2006年到2016年,十年磨一剑,滴水穿石终得硕果。
内蒙古大学于1957年建校,60年的积淀使内大逐步形成了“立足边疆、面向全国、育人为本、特色强校”的办学理念,形成了特有的“求真务实”的内大精神。天南海北的学子汇聚到这里受教,毕业后又走向五湖四海世界各地。
飞龙不走,他要留下来,留在春天连翘花开满台前的计算机学院,留在秋天红叶满墙的内蒙古大学。他选择最普通的方式回报母校,他的爱是陪伴,是守护。他留校任教,要做一辈子的内大人。一直以内大为骄傲的飞龙如今已让母校为之自豪,目前他所带的研究生超过20个,研究方向呈现多样化,内大精神薪火相传,生生不息。
飞龙老师现在仍在优化蒙古文自动校正系统,发现失误立即解决。一个在科学上一丝不苟的人,在私下却是一个宽容体贴的大哥哥。他从不批评学生,也不发火,做错了大不了从头来过,他是年轻的科学家,是绅士般的学者。科学是一条漫长的道路,蒙古文校正系统中错误的审查和系统的优化改良依旧是他现在十分关注的事情。科技探索贯穿人类文明,他眼中有蔚蓝的科研银河,心中燃烧着创新烈焰。蓝色是桃李湖鱼儿眼中深邃的海,红色是内大学子心中赤诚的火。
“飞龙老师,别看您年轻,可算一算,您在内大可真有年头了啊!”零一年到现在,整十五年。来了就没离开过。
“我的根在这里,我哪也不去。”
蓝色是仰望星空心怀梦想,红色是脚踏实地养得深根
蒙古文校正系统主要针对在社会上公布的蒙文文本的校正,不仅有效地解决目前使用蒙古文国家标准编码当中存在的大量形同内码错误、后缀使用错误等问题,对进一步规范和正确使用蒙古文国家标准编码也具有重要的意义。目前,该系统已申请了软件著作权,软件著作权名称为“蒙古文自动校正系统V1.0”。此外,实验室在云平台上搭建了蒙古文校对系统的web服务,为软件开发者在蒙古文其他应用系统中的调用提供了方便。
飞龙老师平日工作繁忙,采访预约的时间是周五晚上六点,赶在一周中最后一个工作日的下班时间。事后与协助他完成蒙古文自动校正系统研发的学生王勇和交流,被问及老师为什么到了下班时间还不走,王勇和笑着说:“别说是周五的六点了,你就是周六的九点来,他也在。”
王勇和对飞龙老师只有四个字的评价——“相当敬业”。每天8点准时到实验室工作,直到晚上9点才离开,学生工作到几点他就陪到几点,有时甚至走得比学生更晚。他研究的方向涉及多个领域,在语音识别、语音合成、信息检索和蒙文处理等方面都有较高的科研成就。他是实验室里的小太阳生物钟,不论周六周日,也不管节日假日,他每天随着太阳东升而出发,等到地球自转到夜深而归还。日复一日,年复一年。
问及对学生的期望和祝愿,飞龙老师这样说:“人首先要有梦想,然后去努力,养得深根,日后才能枝繁叶茂。” 蓝色是仰望星空心怀梦想,红色是脚踏实地养得深根。
还记得初见飞龙老师的那天——深蓝色的衬衫和毛衣,酒红色的长裤和鞋边,内蒙古大学的天空之上燃起一片紫色的火烧云,一半是海水,一半是火焰。
(指导老师:田梅林)