惠普中国研究院推出缩略词搜索引擎

Filed under: 科技 |
Posted on

也许不少同事都知道,惠普中国研究院的一大主要研究方向是:互联网信息分析与挖掘。几年前,惠普中国研究院曾经面向高校学生推出过在线课程搜索引擎“OF COURSE”。如今,他们推出了一个全新的垂直搜索引擎,它就是专门帮助大家查找缩略词的——缩略词搜索引擎。为此,我们特别采访了该引擎的创造者,惠普中国研究院的冯是聪博士。在如今这个信息爆炸的时代,缩略词几乎渗透到了我们生活的每个角落。喜欢体育的人大概都知道NBA或者F1,喜欢电脑的人难免不接触CPU或者GPU,就连大家熟悉的惠普——HP两个字母,其实也是缩略词。那么要问这些缩略词究竟是哪些词的缩写,这就不是每个人都能回答的问题了。而在现实工作和学习中,我们接触的各种缩略词更会经常让人摸不着头脑,很有可能一个缩略词在某个组织中是一个意思,到了另外一个组织,就变成了别的意思。很多人都曾有过这样的困惑,目前的搜索引擎并非专为搜索缩略词而设计,查找起来往往费时费力,究竟有没有办法,可以更加快捷而且精准地查找想要知道的缩略词呢?这次我们送给大家的缩略词搜索引擎将帮助大家解决这个问题。为此,我们特别采访了该引擎的创造者,惠普中国研究院的冯是聪博士。

“这个搜索引擎的诞生,起源于制作在线课程搜索引擎时,遇到的了很多的缩略词,”冯博士笑着为我们讲起缩略词引擎的诞生经历:“最初只是为了帮助分析在线课程,可是后来发现,这个系统在日常生活中也经常能用到,因为如今使用缩略词是一个普遍的语言现象。再后来,同事们都觉得用起来不错,一传十,十传百,就这么用开了。”冯博士毕业于北京大学,在校期间曾参与过中国最早的搜索引擎“天网”的研发,他于2006年7月加入惠普中国研究院,主要专注于信息检索和信息抽取方面的研究。他表示,目前这个搜索引擎只支持英文,接下来,他们将推出中文版本。“中文里的缩略词也有很多,比如我们常说的中国,其实就是中华人民共和国的缩写。”

该缩略词搜索引擎的编写过程中,也曾遇到过困难。“提取部分并不困难,最难的问题就是怎么区分真假,”冯博士说起这个部分还会皱起眉头:“对于人来说,区分真假很容易,但对机器来说,就没那么简单了。”好在惠普中国研究院正好有一个部门在研究“机器学习”,最终冯博士他们找到了办法,让电脑以“无监督的排序方式”识别缩略词的真假。在谈到搜索引擎的技术发展时,冯博士表示:“中国的搜索引擎技术在国际上并不差,特别在中文的搜索技术上。信息搜索未来的发展空间还很广阔,机器学习在未来的搜索引擎开发中将扮演重要的角色。”

缩略词搜索引擎网址:http://fusion.hpl.hp.com/acronym/
使用提示:
可信度阈值:1(可信)——0(不可信),越接近1越可信,越接近0越不可信
特定范围查找:在缩略词后加上(空格+site:+限定范围网址,例如:HP site:hp.com)
支持编辑与新词提交
特别提示:该系统还在处于不断完善的过程中,我们将来会提供更多的功能。

下面我们就几个常用词给出范例:
搜索引擎首页,可以在版权信息看到HP Labs China(惠普中国研究院字样)
输入要搜索的文字,例如HP
查找到的结果,可以看出排在第一的Hewlett Packard(两位创始人的名字)就是正确答案,它后面的数字1.0代表了其可信度最高值。

 怎么样,是否觉得很有趣呢?有什么你想知道的缩略词吗?来试试惠普中国研究院的搜索引擎吧!

Trackback url : u can trackback from your own site

Leave a Reply