CCF BDCI 2020赛题任务与解析

赛事介绍

CCF BDCI大赛已成功举办七届,参赛规模与影响力逐年提升,累计吸引到来自全球25个国家、1500余所高校、1800家企事业单位及80余所科研机构的9万余人参与,有100多所高校将赛题作为大作业及毕业设计选题,利用优质赛题辅助教学实践。

赛事链接:https://www.datafountain.cn/special/BDCI2020

时间轴:

  • 2020/10/13-2020/12/06 初赛,

  • 2020/12/07-18 资格审核

  • 2020/12/下旬 大赛决赛,颁奖典礼

赛题介绍

1 遥感影像地块分割

  • 出题单位:百度

  • 赛题奖金:¥ 10万

  • 技术方向:计算机视觉、语义分割

  • 赛题难度:中等,限制使用框架;

  • 赛题介绍

    • 遥感影像地块分割, 旨在对遥感影像进行像素级内容解析,对遥感影像中感兴趣的类别进行提取和分类,在城乡规划、防汛救灾等领域具有很高的实用价值。现有的遥感影像地块分割数据处理方法局限于特定的场景和特定的数据来源,且精度无法满足需求。

    • 本次大赛旨在利用人工智能技术,对多来源、多场景的异构遥感影像数据进行充分挖掘,打造高效、实用的算法,提高遥感影像的分析提取能力。

    • 参赛者在规定时间内须使用深度学习平台飞桨进行模型的设计、训练和预测,不得使用其他相关平台、框架及任何飞桨中未包含的学习方法参赛

  • 赛题任务:本次评测旨在衡量遥感影像地块分割模型在多个类别上的效果,具体包括建筑、耕地、林地、水体、道路、草地和其他等7个类别。在复赛阶段,结合遥感的真实应用场景,我们设置了更具有挑战性的评测标准。

2 openLooKeng性能优化

  • 出题单位:华为

  • 赛题奖金:¥ 5万

  • 技术方向:性能优化

  • 赛题难度:较难;

  • 赛题介绍:openLooKeng是一款开源的高性能数据虚拟化引擎,提供统一SQL接口,为大数据用户提供极简的数据分析体验,让用户像使用“数据库”一样使用“大数据”。因此,openLooKeng极致性能是十分重要的一个维度,也是openLooKeng社区一直以来所追求的目标。

  • 赛题任务参赛选手基于openLooKeng社区所提供的比赛分支,进行openLooKeng的代码优化,以提升openLooKeng对接hive数据源(文件使用ORC格式)的执行效率。组委会提供benchmark工具集(包括SQL语句等)供选手进行测试。在比赛阶段,选手将最终优化过的openLooKeng代码进行提交,组委会会使用相同的benchmark工具集进行评测以及排名。

3 大规模图数据中kmax-truss问题的求解和算法优化

  • 出题单位:华中科技大学服务计算技术与系统教育部重点实验室

  • 赛题奖金:¥ 5万

  • 技术方向:性能优化

  • 赛题难度:较难;

  • 赛题介绍:大数据时代,随着图数据规模的不断扩大,对大型图进行分析处理的成本越来越高,因此研究人员经常通过分析大型图中的稠密子图来获得大型图的主要特征。团(clique)是一种典型的稠密子图结构,它要求子图中任一顶点都和剩余所有顶点相邻(用无向边连接)。

  • 赛题任务:输入,无向图G=<V, E>。其中V代表顶点集合,E代表边集合。输出,图G的最大k值,即kmax;以及kmax-truss子图中边的条数。参赛者需要在给定服务器平台和给定数据集上实现求解kmax-truss问题的算法,并对算法进行优化以减少计算时间。

4 基于大数据的互联网虚拟身份归一处理性能优化

  • 出题单位:锐安科技

  • 赛题奖金:¥ 5万

  • 技术方向:性能优化

  • 赛题难度:中等;

  • 赛题介绍:与现实社会不同的是,用户可以通过网络虚拟身份而非真实身份实现所有的网络行为,网民拥有的网络虚拟身份组成了一个巨大的虚拟网络社区,社区中的虚拟身份可能有着直接或者间接的关系。

  • 赛题任务参赛者采用统计学理论方法、数据挖掘中的关联分析、图论相关算法完成虚拟身份归一化

5 房产行业聊天问答匹配

  • 出题单位:贝壳找房

  • 赛题奖金:¥ 10万

  • 技术方向:文本分类

  • 赛题难度:中等;

  • 赛题介绍:在帮助客户实现更美好的居住过程中,客户会和服务者(房产经纪人)反复深入交流对居住的要求,这个交流发生在贝壳APP上的IM中。

  • 赛题任务:本次赛题的任务是:给定IM交流片段,片段包含一个客户问题以及随后的经纪人若干IM消息,从这些随后的经纪人消息中找出一个是对客户问题的回答

6 千言:多技能对话

  • 出题单位:百度

  • 赛题奖金:¥ 5万

  • 技术方向:对话系统

  • 赛题难度:较高

  • 赛题介绍:开放域对话技术旨在建立一个开放域的多轮对话系统,使得机器可以流畅自然地与人进行语言交互,既可以进行日常问候类的闲聊,又可以完成特定功能,以使得开放域对话技术具有实际应用价值。

  • 赛题任务:本次评测的开放域对话数据集包含多个数据,涵盖了多个功能场景:包括日常闲聊对话,知识对话、推荐对话等。我们旨在衡量开放域对话模型在各个不同技能上的效果和模型通用性

7 大数据时代的Serverless工作负载预测

  • 出题单位:华为

  • 赛题奖金:¥ 5万

  • 技术方向:回归预测

  • 赛题难度:中等

  • 赛题介绍:云计算时代,Serverless软件架构可根据业务工作负载进行弹性资源调整,这种方式可以有效减少资源在空闲期的浪费以及在繁忙期的业务过载,同时给用户带来极致的性价比服务。在弹性资源调度的背后,对工作负载的预测是一个重要环节。如何快速感知业务的坡峰波谷,是一个实用的Serverless服务应该考虑的问题。

  • 赛题任务:传统的资源控制系统以阈值为决策依据,只关注当前监控点的取值,缺少对历史数据以及工作负载趋势的把控,不能提前做好资源的调整,具有很长的滞后性。近年来,随着企业不断上云,云环境的工作负载预测成为一个经典且极具挑战的难题。

8 小学数学应用题自动解题

  • 出题单位:题拍拍

  • 赛题奖金:¥ 5万

  • 技术方向:知识挖掘、NLP

  • 赛题难度:中等

  • 赛题介绍:阅读理解是近年来NLU的一个常见任务,通常要求在大段文本中理解关键信息。由于很多关键信息直接来源于文本的关键句子,所以很难衡量模型本身的”理解能力“,而机器对内容的理解是衡量AI在教育领域发展的一个重要依据。应用题包含简单的文字表述,相对密集的推理和计算,是评估机器阅读理解能力的一个重要场景。

  • 赛题任务:该任务是为了衡量现有机器学习模型在应用题理解方面的能力,模型读入一个应用题,输出该题的结果。为了降低任务的难度,赛题选择小学数学1-6年级校内题目。

9 路况状态时空预测

  • 出题单位:滴滴出行

  • 赛题奖金:¥ 5万

  • 技术方向:流量预测

  • 赛题难度:中等

  • 赛题介绍:移动互联网时代的到来让所有移动设备的持有者都可以成为道路通行能力的描绘者, 滴滴平台收集了海量的高质量司乘轨迹数据, 可以对实时道路拥堵状况有良好的建模能力。此次竞赛诚邀参赛者基于滴滴提供的实时与历史路况状态信息以及道路属性等信息, 精准预估未来某时间段内的路况状态, 助力城市规划与智能出行方案。

  • 赛题任务:根据滴滴提供的道路小段的实时和历史路况状态特征, 道路基本属性以及路网拓扑关系图, 预测未来一段时间内道路小段的路况状态(即畅通, 缓行和拥堵几类状态)。

10 面向数据安全治理的数据内容智能发现与分级分类

  • 出题单位:明朝万达

  • 赛题奖金:¥ 5万

  • 技术方向:文本分类

  • 赛题难度:较低

  • 赛题介绍:随着企业信息化水平的不断提高,数据共享与开放对企业发展的作用日益凸显,数据已成为重要生产要素之一,为了有效、规范保护企业敏感数据,其首要问题是对数据进行分级分类,以识别敏感数据,从而进一步围绕保护对象的全生命周期进行开放、动态的数据安全治理,解决数据开放共享与数据隐私保护的矛盾与统一。

  • 赛题任务:识别样本中的敏感数据,构建基于敏感数据本体的分级分类模型,判断数据所属的类别以及级别

11 企业非法集资风险预测

  • 出题单位:中国科大智慧城市研究院

  • 赛题奖金:¥ 5万

  • 技术方向:评分预测

  • 赛题难度:较低

  • 赛题介绍:非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。

  • 赛题任务:利用机器学习、深度学习等方法训练一个预测模型,该模型可学习企业的相关信息,以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息,如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。

12 非结构化商业文本信息中隐私信息识别

  • 出题单位:明略科技

  • 赛题奖金:¥ 2万

  • 技术方向:关系抽取

  • 赛题难度:中等

  • 赛题介绍:网络中存在大量包含隐私数据的文本信息,如何在非结构化的本文信息中精准识别隐私数据成为隐私保护领域中亟需解决的问题。本赛题将针对非结构化的本文信息进行分析,对文本中所涉及到的隐私信息精准提取。

  • 赛题任务:本赛题要求参赛者从提供的非结构化商业文本信息中识别出文本中所涉及到的隐私数据,包括但不限于:(1)公司或个人基本信息:账号、姓名、联系方式、地址等;(2)商业秘密:制造方法、工艺流程、产品名称、专利名称等。