释放大数据的能量-杂志-品书网

3月，谷歌AlphaGo与韩国围棋国手李世石的“人机世纪大战”，刷爆全球舆论圈。

说到底，AlphaGo获胜，在于拥有人类历史高手海量的棋局和不断试错改进的自我学习能力。大数据+深度学习，造就了AlphaGo的胜利。

海量数据的汇聚，促成了大数据时代的到来，然而，问题普遍存在，那些希望通过海量数据总结和发现科学的规律，或者是刻画用户画像的设想，遭遇了诸多挑战。

随着高校信息化的发展，积累了二十余年的各类数据，当我们面对庞大的校务数据，希望藉以了解学校师生教学和生活行为的发展趋势时，数据隐私保护、数据质量、数据分析技术以及数据应用服务等的问题，均接踵而来。

在数据开放政策与机制相对缺失的当下，数据的供需矛盾也显得尤其突出。数据只有开放，并按需汇聚起来，才能成为大数据，才能刻画并总结出科学的规律，但如何开放大数据资源，在人们对数据“淘金”的期望越来越高的当下，将数据当做宝贝，秘而不宣，使得数据供与需之间，存在壁垒。

虽然大数据催生了科研的第四范式——数据密集型科学，但“大数据在计算机中，科研的人在科学中”，却还是全球性的难题，要破解这样的困局，需要从机制体制上进行整体规划。高校数据中心或者即将到来的科学大数据库建设中，需要解决数据管理及评价机制的问题。

首先，评价体系需要适应新的情况进行相应的变革。很多应用学科只将计算机技术单纯作为一种载体，或者是简单的处理工具，因而从事计算科学的研究人员，也常常被视为科研辅助人员，其科研成果并不能得到认定，认识上的局限性使得学科交叉越来越困难。

第二，数据的规范管理。目前关于数据的标准规范虽然形成于2010年前后，但其中关于数据归属、数据版权等焦点问题，并未有清晰的界定，这对于数据的生产者及数据的使用者，都构成了风险。

目前国际上非常关注的“数据出版”，可以是一个新模式的探索。数据出版首先明确了数据的知识产权，清晰界定数据的拥有权，但并不妨碍其使用权；第二，注明来源；第三，数据拥有一个标识，可以提供使用者随时访问到需要的数据。如此，既可以让数据的开放共享更规范，也可以让科研人员更愿意开放数据，供需的矛盾或能得以化解。

大数据带来机遇，也带来许多挑战，需要我们条分缕析，因时应势，破解束缚，才能释放出大数据无穷的能量。

中国科学院计算机网络信息中心科学数据中心主任

CODATA中国委员会秘书长黎建辉

释放大数据的能量

热门书籍

热门文章