作者:DIGITIMES陈宜君
凭借中、英文之间的语言差异,国内搜寻引擎巨擘百度在一项人工智能(AI)自然语言处理竞赛中,击败微软(Microsoft)和全球搜寻引擎龙头Google,夺得冠军。
在自然语言理解的通用语言理解评估(General Language Understanding Evaluation;GLUE)基准与分析平台上,百度的ERNIE模型获得最高的90.1分,超越微软的89.9分和Google的89.7分。
ERNIE模型最初是为理解中文语言而开发,不过百度研究人员很快就发现此模型也能更正确理解英语。
ERNIE是受Google用来训练AI理解人类语言的BERT模型启发而来。BERT是一种屏蔽式语言模型,会在给定的每份文本中遮隐15%的单词,然后尝试根据上下文进行预测。
不过许多汉字唯有与其他汉字组合在一起时,才会有明确的内在含意,这是中、英文的一项重要语言差异。百度团队必须训练其AI模型理解如何先隐藏一串有意义的汉字,再预测这些被遮隐的内容。
百度团队在其原始码代管平台Github页面上说明ERNIE所采用的技术时,以哈利波特(Harry Potter)是英国小说家罗琳(J. K. Rowling)所写的系列奇幻小说,作为说明范例。
该说明指出,BERT模型能透过文本中同时出现的J、K和Rowling等单词,确定K在这份文本中所代表的意思,却无法学习和J. K. Rowling有关的任何知识;ERNIE则能透过分析单词和实体所隐藏的知识,推论Harry Potter和J. K. Rowling之间的关系,进而推论Harry Potter是J. K. Rowling所写的小说。
随着百度算法开始能理解有意义的单词,不再只是识别单一汉字后,ERNIE模型在中、英文理解上都有更好的表现。此后百度就将ERNIE应用于实际生活中,利用此AI模型提供更好的搜寻结果。人工智能促进协会(Association for the Advancement of Artificial Intelligence)曾在2019年2月的年会中,接受一篇以ERNIE模型为主题的报告在会上发表。
自Google在2010年退出国内后,国内搜寻引擎市场一直由百度独霸,囊括70%的市占率。不过网际网络使用模式的改变,让百度的优势开始松动。包括腾讯微信在内的自成一体超级应用程序(App)生态体系在中国崛起,意味民众观赏影片、阅读新闻、在在线购物或下单美食外送时,都不必再仰赖传统搜寻引擎。
此外,因短片App抖音风靡全球而崛起的字节跳动公司在2019年推出头条搜索,在国内搜寻引擎市场掀起新一波竞争。字节跳动声称,正在打造一个通用搜寻引擎,以提供更理想的用户体验。
推荐阅读:南方都市网
-
你不知道武汉有多美!
武汉有长江穿城而过,武汉有中国最好的高等学府,武汉有最赋文化底蕴的黄鹤楼,武汉有代表当代科技最前沿的中国光谷……现在武汉整座城市按下了暂停键,我们期待这座城市醒...
2020-03-18 -
“开着百万豪车去自驾”?阳光沙滩还避寒!忙碌
开篇:春节怎么过?经典画面就是包饺子、看春晚、一家人团团圆圆坐在一起吃年夜饭,等着新年的钟声敲响。不过越来越多的人选择过一个不同的新年,比如和家人一起自驾游去旅...
2020-03-18 -
海拔2160米空中栈道晋升“网红景点”,游客
华山这个地方,无论你有没有去过,但总算听说过吧,它会经常出现在各种各样的古装影视剧中,尤其是金庸老先生,钟爱此地,一定程度上来看,正是凭借老先生之手,将这座山“...
2020-03-18 -
世界遗产浙江江郎山,壮美中国红的一部分,除免
浙江江郎山发展旅游总要找一个合适的抓手,得天独厚的自然资源只是基础,还需要有引人入胜的“故事”才能立得起来。好“故事”对内可以梳理整合资源,成为顺畅运营基础;对...
2020-03-18 -
去白马雪山,看高山杜鹃
白马雪山自然保护区位于横断山脉中段,云岭北段主峰白马雪山(又名白芒雪山)和人支雪山的金沙江坡面。行政上隶属迪庆藏族自治州德钦县,北面与西藏芒康县接壤,东面隔金沙...
2020-03-18 -
美呆!看春天的中国
正是春意正浓踏青好时节,跟着我们的航拍镜头,饱览一下祖国各地的烂漫春光,然后选择一个您的最爱,走起!广西桂林阳朔——遇龙水韵 油菜花香遇龙河是漓江在阳朔境内最长...
2020-03-18