您好、欢迎来到现金彩票网!
当前位置:刘伯温高手论坛 > 图像数据库 >

用于众包数据库操作的新系统使用户免于担心计算细节

发布时间:2019-06-07 10:40 来源:未知 编辑:admin

  众包是一种通过互联网分割劳动密集型任务的技术,将它们分成几小块,几十个,几百个甚至几千个人在办公桌上完成每个几美分。

  麻省理工学院计算机科学与人工智能实验室的研究人员正在开发一种名为Qurk的新数据库系统,该系统将自动群集难以或不可能执行计算的任务。例如,存储在标准数据库系统中的图像可以根据创建日期或一些其他数据标签进行分类,无论是自动应用还是手动应用。然而,Qurk数据库中的图像可以根据所描绘的人的大致年龄,或所描绘的位置作为旅行目的地的吸引力,或其评估需要人类判断的任何其他属性来进行分类。

  在去年的一对会议论文中,研究人员描述并展示了Qurk的一般计算框架。在他们本月在第38届超大型数据库国际会议上发表的一篇新论文中,他们深入了解了一系列实验,描述了如何最好地将常见数据库操作众包“排序”和“加入”。研究人员发现,使用最明显的连接操作实现,通过亚马逊的Mechanical Turk众包服务组合两组图像需要花费67美元。通过实验得出的改进实施,他们可以将成本降低到3美元。

  “当你使用像SQL这样的语言以声明式样式编写数据库查询时,”计算机科学副教授和Qurk论文的作者之一Rob Miller说,“数据库系统可以优化它们:它可以找到最快的方式,或资源最便宜的方式 - 无论这些资源是什么 - 做到这一点。您没有指定有关如何完成的所有详细信息。该系统将所有这些都解决了。“

  同样地,亚当马库斯(Adam Marcus) - 他与研究生Eugene Wu一起领导Qurk的发展 - Qurk旨在使用户无需详细说明如何众包数据库操作。“你可以说,我有这些图像集合,我想根据它们的可爱程度对它们进行排序,系统将真正弄清楚如何对数据集进行排序,”Marcus说。

  众包对于对人类来说微不足道但对计算机来说很难(如果不是不可能)的任务特别有用。范式这样的任务是图像识别:即使是最复杂,最耗时的图像识别算法也无法像人们那样一致地识别图像中的对象。因此,在他们的实验中,研究人员专注于图像数据库。在所有三篇Qurk论文中,Marcus,Wu和Miller都加入了电子工程和计算机科学系Sam Madden和David Karger教授的工作。

  如果你打算使用Mechanical Turk来根据他们的可爱程度对图像进行排序,那么最明显的方法就是要求新兵 - “Turkers”,因为他们通常都知道 - 一次比较两个图像和排名他们; 然后,算法可以将成对排名拼接成主列表。麻省理工学院研究人员正在研究的事情之一是,Turker可以预期一次排列多少图像并仍然提供有用的数据,根据任务的不同,他们的结论大概在5到10之间。

  他们还将排名方案与评级方案进行比较,其中Turkers将为每个图像分配一到五颗星的评级。受亚马逊和Netflix等网站青睐的评级系统存在着臭名昭着的缺点,但麻省理工学院的研究人员开发了一个界面,除了要评级的大图像外,还有一行10个较小的图像随机抽取数据库。因此,Turker评级他或她的第一张图像将对数据库中图像的平均可爱性有一定的感觉,并可相应地校准评级量表。

  研究人员发现,虽然排名提供了更准确的分类,但经过校准的评级系统表现出色得多且便宜得多。根据排序任务,完美准确性和用户预算的重要性,Qurk因此可以使用排名或评级或两者的混合,其中评级提供了初始排序,然后更昂贵的排名然后改进。

  除了排序操作之外,研究人员还测试了连接操作的众包实现,它合并了包含补充信息的数据集。例如,一个数据集可能包含通过其名称引用公司的条目,而另一个数据集通过股票代码符号引用它们,并且想法是组合引用相同实体的记录。在新实验中,Turkers正在加入包含相同人物或物体的一些图像的数据集。

  同样,研究人员发现,Turkers可以准确地处理小批量图像,通常一次可以处理三到四对图像。界面的设计使得每个数据集中的一些图像以列显示; 然后,Turker必须绘制一条线,连接同一个人或物体的任何两个图像。

  为了进一步提高连接算法的效率,研究人员还招募了Turkers“预过滤”数据。一些Turkers,即一次会显示一些图像,并要求确定,例如,受试者的头发颜色,或者他们是否有胡须或戴眼镜。然后,系统可以使用该信息来选择其他Turkers将比较的图像。

  小批量而不是成对地比较图像使得众包连接操作的效率提高了七倍; 预过滤增加了三倍的增加,使合并两个数据库的成本从67美元降至3美元。

  当然,为了让Qurk预先过滤数据,需要知道要求Turkers寻找的属性; 如果任务是加入包含汽车图片的数据库,则识别具有胡须的主题将是无用的请求。但是,Marcus说,Qurk将允许用户指定一组可能对预过滤有用的属性。然后,系统将动态评估这些属性,确定哪些(如果有的话)实际上提高了连接操作的效率。同样,对于批量分拣任务,Qurk将尝试不同大小的批次 - 在5到10个图像范围内 - 并查看哪个产生最佳结果。

  加州大学伯克利分校计算机科学教授迈克尔富兰克林也正在研究众包数据库操作的方法。“这是一个非常令人兴奋的领域,”他说。“很多情况下,这些混合系统已经并且将变得越来越重要。”

  富兰克林集团正在开发一个系统,该系统将用稍微扩展的SQL版本编写的操作众包; 相比之下,麻省理工学院的研究人员“想出了一种可插拔的模板语言,”富兰克林说。由于富兰克林的系统CrowdDB使用熟悉的SQL语言,“我认为我们的系统更容易使用”,他说。“但他们可能会涉及更多案件。它可能为程序员提供了更多的选择和更多的控制。“

  然而,最终,两个小组都在解决相同的基础研究问题。“如果你把人们视为处理单位,你怎么让他们知道他们在做什么?”富兰克林说。“人们的编程接口与计算机的根本不同。

http://shinnpaint.com/tuxiangshujuku/233.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有