Title:考虑数据质量的机器学习研究
Abstract:在机器学习理论研究里,训练与测试数据通常假定具有较好的质量(也即可靠性很高,不存在噪声或者畸变等);但在现实的机器学习问题里,数据质量通常不那么理想。数据在某些质量指标(如标签的可靠度、音频失真度、图像视觉质量高低等)上往往比较低,或者在决定质量的相关指标(如文本的长短、页面规范性等)上不一致。这种低质量或者质量的不一致性对于所构建的机器学习模型的性能影响较大。本次报告将介绍我们两项考虑数据质量的机器学习研究工作,具体会涉及特征与标签两个方面的数据质量以及相应的学习算法。
报告人:吴偶教授,天津大学应用数学中心&数学学院。研究兴趣是机器学习与数据挖掘。作为课题组长承担了国家自然科学基金、863 计划等多项科研项目,并负责了多项横向研发课题。已在模式分析、机器学习、数据挖掘、多媒体及网络挖掘方向上的权威国际刊物(ACM TKDD, IEEE TPAMI, ACM TWEB, IEEE TKDE, IEEE TNNLS, IEEE TMM, IEEE TSMCB, ACM TOMCCAP)与顶级国际学术会议(ICCV, IJCAI, AAAI, WWW, WSDM, SDM, CIKM)上发表论文50 余篇。获授权发明专利10余项,包括国际PCT专利2项。带领课题组成员开发的互联网有害信息识别软件包已经应用于云南广播电视厅等多家单位。博士学位论文获中国人工智能学会优秀博士论文提名奖,以第二完成人获北京市科学技术奖一等奖一项,以第三发明人分别获中国专利奖以及北京市发明专利一等奖各一项。
联系人:姜昊老师