药物创新领域的大数据主要来源于高通量实验、高效能模拟计算、信息化、科技出版物和专利文献4个方面. 这些大数据使我们有可能在系统层面上看到药物分子与许多靶标相互作用的新现象、新规律, 提高药物创新的效率, 也带来新的挑战, 如存储、标引/标注和质控、可视化、数据挖掘和计算复杂度等问题. 这些问题可以通过在超算和云服务技术的支持下发展并行计算方法而逐渐得到解决. 从离散、不完备且信噪比低的大数据中难以找到物质活性与结构之间的连续函数关系, 贝叶斯学习机及其与支持向量机、决策树技术的组合是大数据挖掘的发展方向. 大数据既是科学实验通量化和社会信息化的结果又是原因, 正确解决大数据挖掘问题