面向数据标注的众包平台的设计与实现文献综述

 2022-11-08 15:48:16
{title}{title}

文献综述

摘要:在本文中,介绍了众包的基本概念及其背景,并简单介绍众包平台模式及工作流程。

关键词:众包;数据标注;真值推理模型;质量控制;标签的整合

  1. 背景

近年来基于大数据的机器学习技术得到迅猛发展,在众多机器学习方法中,监督学习仍然是目前效果最好,真正得以实用的技术。这就意味着在大数据背景下我们需要越来越多的人力物力对这些数据进行标注。另一方面,近年来,随着市场竞争的不断加剧,受内部创新瓶颈的制约,越来越多的企业也开始尝试将具有一定创新性和技术性的工作任务通过互联网渠道委托给外部个体或组织完成,这种新兴的基于互联网的开放式协作创新模式被称为众包[1]。

众包(Crowdsourcing)将原来由企业专职雇员负责处理的工作,化整为零分配给了广大互联网用户,不仅大大减少了企业的成本,其可扩展的特点也使得大数据时代的海量数据标注成为了可能[2]。众包从外部吸引人才的参与,加入到创新与合作的过程。这样的模式可以使产品设计从以消费者为主导来逐渐代替原来的以生产商为主导,借助社会丰富的资源来提升自身创新与研发。当今社会差异化、多样化的客户需求为众包提供了市场条件,并要求企业比以往任何时候都要去接近市场,以顾客需求为导向创新研发,而众包无疑更具有这种优势。

为此,众包日益吸引了人们的关注,各类众包平台层出不穷,其中最为引人瞩目的是Coogle的reCAPTCHA(图1.1)和亚马逊公司的Mechanical Turk(图1.2)。

众包因其独特的优势也吸引了科研社区的极大兴趣,为此世界各地的研究者们提出了一系列众包平台设计方案[2]。如reCAPTCHA和Mechanical Turk等系统上,众包在数据科学的方方面面,诸如数据挖掘[3-5],信息检索[6;7],计算机视觉[8;9],自然语言处理[10;11]等领域都得到了广泛的应用。

图1.1 图1.2

二、数据标注

数据标注的本质是利用人类智能将数据的底层特征映射到高层概念上[9]。虽然众包系统的出现为机器学习中的数据标注提供了一份美好的蓝图,但是面临的主要挑战在于“非专家”标注者的低质量特性。所以数据标注更专注于以下两个特性:
(1)标签质量. 即数据集中的所有样本中来源于众包系统的标签与其真实标签之间的匹配准确度。

(2)学习模型质量. 使用众包标注数据,利用监督学习算法建立学习模型。

、真值推理模型

真值推理:为了增加标注的准确性,通常一个对象被来自众包系统的多个标注者进行标注,由于标注者的质量参次不齐,这些标签形成多噪声标签集。由多噪声标签集估计每个样本标签真值的过程称为真值推理。如果只关注与标签本身,真值推理也称为标签集成。但前者的范围更广,因为不少算法除了给出样本标签的估计值外,还对系统的其它参数进行建模。这些参数包括标注者的知识水平、问题的难度等等。

四、众包模式

与传统的企业外包机制不同,众包模式一般包含3个主体:发包方、众包平台和接包方,一般由发包方在众包平台上发布任务,然后由接包方承接任务并按约定完成任务进而获得报酬[12]。

1.发包方

(1)发布任务:发布者需对任务进行说明及对接受者范围进行设定等。

(2)设置激励及补偿政策

(3)任务质量评价:发布者需要对任务结果是否符合需求进行判定,保证自己的质量及需求实现。

  1. 众包平台

提供用户界面:提供发包方及接包方连接的平台,良好、便捷、安全的操作界面更能够吸引更多使用者。

  1. 接包方

接受者评价机制[16]:工人各自的水平不同,不同任务的难度水平也需要不同的知识领域的人员才能完成。所以需要在任务执行前判断接受者是否有能力完成任务,提高效率。

4.工作流程[17]

众包的主要参与者包括任务请求人和任务完成人(也叫做工人)。他们通过任务联系到一起.图4.1给出了众包的典型工作流程。

图4.1

众包系统由最基本的发包方、接包方、众包平台组成。发包方发布任务,一般为有技术需求需要解决的个人或者企业。接包方完成任务,一般为大众网络用户,他们可以是专业技术人员,也可以只是兴趣爱好者,他们在众包平台上完成任务或者提供技术解决方案。发包方通过与众包平台(通常是网站)合作,并交纳一定的资金,在众包平台的任务库中发布需要解决的任务以及相关任务说明。接包方通过注册账号,登录账号进入到平台系统的任务库中寻找适合自己任务,完成后众包平台将任务结果反馈给发包方,发包方查看任务结果,若审核通过发包方支付对应报酬,若没有通过该任务返回任务库,继续等待用户解决[13]。

五、质量控制

一项众包任务成功的关键在于标注的质量,人工成本和任务完成的速度[14],而其中最关键的要素是标注的质量。如果不能保证通过众包得到的数据质量,那么众包的其他优势都无从谈起。

众包任务面向不特定人群的特点,也正使得控制众包标注质量这一问题更有挑战性。在一项Mechanical Turk平台上的众包标注实验中,Djellel Eddine Difallah等人工检查了每一个标注数据,得到图5.1的结果。我们可以从中看出,在完成较多任务的标注者中,只有很少的一部分可以达到较高的准确率,大部分标注者的准确率甚至低于50%。

图5.1

整体结果的质量取决于被众包和贡献者的属性的任务定义。在众包系统中我们从两个主要规模来描述质量:工作者配置和任务设计。我们提出了一个在众包系统中的质量分类法,如图5.2所示[15]。

图5.2

在上述质量的规模和因素上,研究人员和从业者提出了一些质量控制方法。我们大致将现有的方法分为两类:设计时间(见表1)和运行时间(见表2)。这两类并不是相互排斥的。一个任务可以采用这两种方法,以最大限度地获得高品质的结果的可能性。

表1.现有的质量控制设计时间方法

质量控制方法

子类别

描述

有效任务准备

防御设计

提供任务的明确描述;任务设计是防御----就是说,作弊比做任务难;定义评估和补偿标准

工作者选择

开放所有人

允许每个人来贡献任务

基于信誉

只允许具有预先指定的声誉级别的工作者贡献该任务

基于证书

只允许具有预先指定证书的工作者做任务

表2.现有的质量控制运行时间方法

质量控制方法

描述

专家审查

领域专家审查贡献质量

输出协议

如果独立工作并同时为输入提供相同的描述,则认为它们是正确的

输入协议

独立工作者收到一个输入并互相描述。如果他们都判断这是一个相同的输入,则将其做为一个质量答案接受

真理

将答案和一个真理比较,如用已知的答案或常识的事实来检查质量

多数人共识

大多数评论者在贡献质量上的判断是被接受的则认为其正确的质量

贡献者评价

基于贡献者的质量评估一个贡献

实时支持

在运行时间内提供工作者指导和支持以帮助他们增加贡献质量

工作流管理

给复杂任务设计一个合适的工作流:监控工作流以控制质量﹑成本等在运行时

六、参考文献:

[1] 吴俊,崔昊哲,赵嘉琪.众包平台任务分类与交易方式匹配研究[J].科技进步与对策,2015,32(14):6-11.

[2] 仝子飞.通用众包标注系统的设计与实现.[D].浙江:浙江大学,2015:1-49.

[3] Guo Xintong.Wang Hongzhi,Yangqiu Song,Gao Hong.Brief survey of crowdsourcing for data mining[J].Expert Systems with Applications,2014.41(17):7987-7994.

[4] Matthew Lease Vitor R Carvalho.Emine Yilmaz.Crowdsourcing for search and data mining[C],ACM SIGIR Forum.volume 45.ACM,2011:18—24.

[5] WesleyⅥ7illett.3effrey Heer.Maneesh Agrawala.Strategies for crowdsourcing social data analy.sis[C],Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.ACM,2012:227-236.

[6] Matthew Lease.Emine Yilmaz.Crowdsourcing for information retrieval[C].ACM SIGIR Forum.volume 45.ACM.2012:66—75.

[7] Matthew Lease,Emine Yilmaz.Crowdsourcing for information retrieval introduction to the special issue[J].Information retrieval,2013.16(2):91—100.

[8] Jia Deng,Jonathan Krause,Li Fei—Fei.Fine-grained crowdsourcing for fine-grained recognition[C],Computer Vision and Pattern Recognition(CVPR),2013 IEEE Conference on.IEEE,2013:580-587.

[9] Cees GM Snoek.Bauke Freiburg.Johan Oomen,Roeland Ordelman. Crowdsourcing rocknjroll multimedia retrieval[C],Proceedings of the international conference on Multimedia.ACM,2010:1535-1538.

[10] Marta Sabou,Kalina Bontcheva,Arno Scharl.Crowdsourcing research opportunities:lessons from natural language processing[C],Proceedings of the 12th International Conference on Knowledge Management and Knowledge Technologies.ACM:2012:17.

[11] Robert Munro.Steven Bethard.Victor Kuperman,Vicky Tzuyin Lai.Robin Melnick,Christopher Potts,Tyler Schnoebelen,Harry Tily.Crowdsourcing

and language studies:the new generation of linguistic data[C],Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazonrsquo;S Mechanical Turk.Association for Computational Linguistics,2010:122-130.

[12] 张利斌,钟复平,涂慧.众包问题研究综述[J].科技进步与对策,2012,29(6):154-160.

[13] 邰阳.基于众包的语料标注系统设计与实现.[D].大连:大连理工大学,2013:1-59.

[14]Chris Van Pelt,Alex Sorokin.Designing a scalable crowdsourcing platform[C],Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.ACM,2012:765—766.

[15] Allahbakhsh, M., Benatallah, B., Ignjatovic, A., Motahari-Nezhad, H. R., Bertino, E., amp; Dustdar, S. (2013). Quality control in crowdsourcing systems. IEEE Internet Comput, 17(2), 76-81.

[16] 张志强,逄居升,谢晓芹,amp;周永.(2013).众包质量控制策略及评估算法研究. 计算机学报,36(8),1636-1649.

[17] 冯剑红,李国良,amp;冯建华.(2015).众包技术研究综述.计算机学报,9,1713-1726.

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。