10月8号,礼拜一上午九点,中海理工大综合实验大楼自然语言识别研究所。
和煦的阳光穿过纱窗照射在檀木色办公桌说,留下一块块明暗交替的光斑,戴着老花镜的唐天华教授正手持钢笔修改材料。
就在这时,办公室门被人“咚咚咚”的敲响了。
“进来。”
门“咔哒”一声被人从外面拧开,唐教授下意识看过去,等见到进来的人后,那张不苟言笑的脸上却是露出了笑容。
进来的人自然便是陈序了,走到办公桌前面有些局促的喊道:“老师好!”
唐教授笑着伸手示意了一下说:“坐下说。”
陈序走到墙根便的实木椅旁坐下。
唐教授挪动了一下身体,靠在椅背上慈眉善目的笑问道:“怎么样,有没有决定好研究方向?”
说实话,唐教授也对陈序的功课进行了一番了解,在看到那些连优秀都称不上的成绩单时,心里是有些动摇的,想着是不是再观察观察?
不过那篇让他为之惊艳的论文时,所有疑虑都打消了。
这是一个在自然语言处理方面非常有天赋的年轻人,他打算好好培养一番。
陈序挠挠头说:“呃……词法与句法分析。”
听到陈序的选择,唐教授皱了皱眉头。
从那篇《自然语言处理的前瞻》里就能看出来,这是一个有着勃勃野心的年轻人,他想挑战当今世界自然语言处理中最核心的难题也在情理之中。
不过嘛……
唐教授说:“你要想清楚了,一旦选错方向,可能会走上很多弯路,浪费时间浪费精力,你确定要选择词法与句法分析?”
面前唐教授劝解的话语,陈序坚定的点点头,“我确定。”
燕京HD区中关村科学院南路6号,这里是“中国计算机协会”的总部,同时也是国内最顶尖的计算机期刊《计算机科学技术学报》、英文名JCST的办公地点。
上午9点,刘成林教授来到协会处理一些公务。
刘成林不仅是中国计算机协会的副会长、JSCT国内总负责人、国内语音识别方面的权威教授,同时也是青木大学的博导。
10点半,刘成林在处理完国庆期间积压下来的公务后,来到自己办公室稍作休息,等下便准备下楼吃午饭。
走到办公桌前瞄了眼案头,果然又是厚厚一摞的论文稿子。
对此刘成林已经习惯了。
现在人工智能是计算机热门专业,而语音识别又是热门里的热门,全国那么多高校,可以想象从事相关方面研究的人何其多?
他作为这方面的权威专家教授,每天要收到很多帮忙审稿的请托。都是一些学术界同仁好友的学生后辈之类的。
趁着吃午饭前的片刻功夫,刘成林想看看这些论文里有没有什么新颖的思路。
拿起第一份,题目是《Dvlopnt of Mult-Prson Spch Rcognton Softar for Mol Phon Basd on Androd Syst(基于Androd系统的手机多人语音识别软件开)》。
翻开随便看了看,没有新意,没有亮点,对现有语音识别技术的提升没有任何帮助,唯一值得肯定的就是还算严密的算法结构。
刘成林摇摇头,把这篇论文放到了一边,拿起下一本,《Spch Rcognton Basd on Dp Larnng and Its Applcaton(基于深度学习的语音识别及其应用研究)》
顺手翻开看了看,还不如上一篇呢,都是一些炒冷饭的东西,甚至连语言表述都有些颠三倒四,不知道这样的论文怎么就敢拿给他审阅的。
“这都是些什么人啊!”刘成林有些生气,顺手把论文扔到办公桌上。
想了想他又拿起论文看了看第二作者,现是在一个国际学术会议上认识的国内某二流大学教授。
刘成林摇摇头,拿起红笔在论文上面画了个×,然后又在×外面画了个圈,表示退稿并且不再接收。
平息了一下心情,刘成林伸手从案头上又拿了份论文。
让他没想到的是,这份论文竟然非常厚,粗略估测起码有一百页。
“嚯~好家伙。”刘成林托起论文凑到眼前看了看题目,终于不再是“基于某某某”了,而是《自然语言处理的前瞻》。
“哟,口气不小嘛!”
看到这个题目,刘成林和唐天华的反应差不多,第一时间就想笑,再加上这么厚厚一摞,他怀疑这个作者怕不是把论文当小说写了吧。
看了眼论文题目后面的作者名,第一作者不认识,第二作者名字叫唐天华。
刘成林楞了一下才想起来唐天华是谁。
双方是在国内的一次专家会议上认识的,印象中这个唐天华在语言识别方面颇有建树,算是少见的实干型人才。
不过对唐天华的好印象,并不能改变刘成林连翻开论文看一眼的欲望都没有的心情。
勉强翻开第一页。
【摘要:在确定国际自然语言处理领域使用频率最高的97个关键词的基础上,运用共词分析法,以SPSS数据分析软件为工具,通过因子分析和聚类分析的方法,并借鉴最新研究成果,探讨国际自然语言处理现状以及未来展】
四平八稳的开头虽然没有让刘成林有眼前一亮的感觉,但也对对方接下来的所要论述的内容产生的好奇感,想看看对方到底怎么“编”?
不过刘成林的想法很快便消失了。
这个论文作者不仅没有“编”,而且一切都在用国际最权威的数据说话。
从自然语言处理中的最基本也是最重要的词法、语法、语义开始说起,层层推进,步步为营,用最简单、最朴实无华的语句来告诉读者,什么是词法、语法、语义分析?
现在国际最顶级的大咖研究到了哪里?
他们遇到了哪些问题?
如果你要从事这方面的研究,你应该从何入手?
看完第一段之后,刘成林有些惊叹。
这个作者的论文思路清晰、语句通顺、层次分明,观点表达精确,叙述风格已经到了返璞归真的地步了,他已经很久很久没有看到过这样精彩的科普性论文了。
更重要的是,对方在自然语言处理方面,有着扎实的基础,这是一般人做不到的。
刘成林忍不住合起论文看了眼名字:陈序。
然后刘成林翻开论文继续朝下面看……
……
从综合实验大楼回来后,陈序便忙碌了起来。
把市面上有关于词法、语法、语义分析方面书籍统统收集回来,然后逐一录入到小白的资料库当中。
小白是强大,不需要告诉它什么是分词,词性,词的颗粒度,词所在语句的位置,同义词,转意词等等等等。
但是,未来基于自然语言处理开出来的翻译软件/机器,那是要投入到商业应用当中去的,不可能让小白充当智脑来翻译,这也不现实。
所以还是要攻克自然语言处理当中的难题。
比如,怎么样才能让机器理解人类基于情感式的、模糊的语义表达?
这需要小白在当今自然语言处理的研究基础上,不停的进行推演,破解掉词法、语法、语义分析的终极密码。
到时候再进行句法分析、篇章分析、建立语言认知模型等等,会易如反掌,整个自然语言处理中的难题会如同多米诺骨牌一样轰然倒地。
而他作为小白的“人生导师”,需要引领小白朝某这个方向努力前进,就像之前不停地填充写作素材库一样。
另外,未来软件开出来,他要作为“开者”和来自世界各地的专家学者进行交流的,如果连技术的基本原理都不懂,那也太不像话了。
所以在小白学习的同时,陈序也从人工智能方面的科普性书籍读起,目的是为了帮助小白更好的成长……