新一代高效文本标注工具实现与应用

所属专题:人工智能与机器学习解决方案专场(厂商赞助)

嘉宾 : 徐安华 | 明略数据技术中心技术合伙人

会议室 : 二层 201

讲师介绍

专题演讲嘉宾:徐安华

明略数据 技术中心技术合伙人

徐安华,2004年~2011年就读于北京大学计算机系以及微处理器研发中心。毕业后任职于英特尔、爱奇艺等公司。Linux内核中显卡虚拟化调度器作者。具有十余项专利。2014年加入明略数据,历任大数据引擎开发工程师、技术经理;自然语言部门研发经理;目前为标注工具部门负责人。

议题介绍

演讲:新一代高效文本标注工具实现与应用

特定领域文本信息挖掘与提取,一直都存在语料少、需要重新标注等困难。这些因素严重阻碍了文本信息抽取在特定领域的应用。虽然开源领域存在一些工具,但无论在易用性还是效率、理念方面都远远无法与“高效”二字挂钩。

明略数据通过在特定领域长期从事文本信息抽取等积累,研发了业界首款集词典、规则、主动学习、在线学习等技术于一身的高效文本标注工具:Raptor。该工具中内置了明略数据自研的规则语言Ratel,能够将词典、正则表达式、外部NLP工具的标注结果很好的融合在一起。主动学习与在线学习能够随着用户的标注过程不断提供辅助标注,并且系统只会把机器最不确信的数据推送给用户进行标注。目前,Raptor正帮助明略数据在企业级服务中迅速构建文本挖掘模型。

 

听众收益:

1. 了解文本标注语言

2. 进一步了解深度学习和主动学习机制

本网站图片存储由七牛云独家支持