课题负责人

首席科学家:
怀进鹏
课题负责人:
课题一负责人:沈一栋
课题二负责人:怀进鹏
课题三负责人:倪明选
课题四负责人:杨  强
课题五负责人:云晓春

联合链接

项目简介

项目简介

网络信息空间反映了人类社会与物理世界的复杂联系,对网络信息空间大数据的挖掘和应用将创造巨大商业和社会价值,并催生科学研究模式的变革,对国家经济发展和安全具有战略性、全局性和长远性意义。

我们认为,大数据计算应具有“近似处理、增量计算、多源归纳”的计算属性,可进一步归纳为大数据计算的“3I”特征,即近似性(Inexact)、增量性(Incremental)和归纳(Inductive),并聚焦三个关键科学问题:(1)多源异构数据的量化表示问题,主要研究如何在数据多源、近似处理特征下,建立数据抽样的质量评估方法及层次化抽象表示模型,形成异构数据特征空间的度量体系,并构造异构数据融合的语义理解模型;(2)动态数据处理算法的量效均衡问题,主要研究如何突破传统计算复杂性和算法设计思想的局限,建立大数据驱动的易解类复杂性理论,提出面向大数据的近似算法理论,并设计新型高效算法;(3)大数据计算架构的存算联动问题,主要研究如何设计支撑大数据计算的体系结构、运行及存储机制,提出计算实体与数据资源的紧密耦合、合理配臵、双向迁移的联动新思路,建立高容错、可扩展、主动交互的大数据分析与挖掘处理系统,支持能效优化的大数据处理。

围绕上述关键科学问题,本项目设臵五个课题,主要研究内容包括:多源异构大数据的表示度量与语义理解、大数据计算的复杂性与算法理论、能效优化的分布式存储和处理系统架构、大数据分析与挖掘处理系统等,并结合突发事件分析预警、互联网智能搜索等两个重要应用进行实验验证及示范,为建立大数据的科学体系提供理论依据。

通过五年的研究,本项目拟在上述科学问题的研究上取得突破,建立大数据计算的易解类复杂性与算法理论,突破多源异构大数据的量化表示方法、大数据计算的模型与算法设计、大数据计算的系统架构与核心机制、大数据分析与挖掘处理等关键技术,研制大数据分析与挖掘处理系统,产生一批在国际上具有重大影响力的原创成果,并通过两种典型应用示范,显著提高我国网络信息空间大数据挖掘处理的综合能力和水平,培养一批从事大数据计算研究和工程技术的创新人才,为国家安全和经济社会发展做出实质贡献。

本项目由北京航空航天大学联合中国科学院软件研究所、上海交通大学、中国人民解放军国防科学技术大学、广州市香港科大霍英东研究院、华为技术有限公司、国家计算机网络与信息安全管理中心、北京百度网讯科技有限公司等单位共同承担。