近日,OceanBase 联合武汉大学和华东师范大学的最新研究成果获得国际学术界的高度认可,两篇论文成功入选在智利圣地亚哥召开的 SIGMOD 2024 国际会议。作为国际数据库领域三大顶级学术会议之一,SIGMOD 汇聚了全球顶尖学者和业界专家,是数据库领域最具影响力和权威性的学术盛会。此次入选不仅代表着 OceanBase 在分布式数据库的技术实力和科研水平,也标志着 OceanBase 与高校合作科研再创佳绩,迈入新的台阶。
本次入选的论文之一《Federated, Fair, and Fast 𝑘-means》由武汉大学珞珈图腾数据库实验室王胜教授团队与 OceanBase 合作完成。其核心技术亮点在于提出了一种联邦、公平且高效的 𝑘-means 算法(F³KM),用于在数据无法共享的场景下高效地解决公平聚类问题。
以下是核心技术亮点的详细阐述:
第一,联邦学习。F³KM 算法通过将公平 𝑘-means 问题分解成多个子问题,并将每个子问题分配给各个客户端进行本地计算,从而避免数据在不同机构之间的直接共享,保护数据隐私。F³KM 算法的联邦学习机制可以利用 OceanBase 的分布式架构,在各个节点上进行并行计算,从而加快聚类分析的速度。
第二,公平性。该算法在处理聚类时考虑了多个敏感属性,采用交替方向乘子法(ADMM)来求解带有公平约束的聚类问题,从而在聚类过程中保证公平性。通过 OceanBase 的扩展性,可以根据数据量和计算需求动态调整系统资源,满足大规模数据聚类分析的需求。F³KM 算法的灵活性使其可以在多种业务场景下应用,实现对不同类型数据的公平聚类。
第三,高效性。理论分析和实验结果表明,F³KM 在通信和计算复杂度方面具有较高的效率。特别是,它能够在一小时内完成对五百万个数据点的聚类,展示了其出色的处理能力。OceanBase 支持实时数据处理,可以与 F³KM 算法结合,进行实时的公平聚类分析。在金融、零售等需要实时决策的场景中,结合实时数据和聚类结果,可以提供更及时和精确的业务洞察。
第四,无数据共享。在解决子问题的过程中,客户端与服务器之间仅交换计算结果而不交换原始数据,进一步确保了数据隐私和安全。OceanBase 具备完善的数据安全和隐私保护机制,可以与 F³KM 的隐私保护特性相结合。在数据传输和处理过程中,通过 OceanBase 的安全协议,进一步保障数据隐私,确保在多个客户端之间进行安全的数据交换。
本次入选的第二篇论文《IMBridge: Impedance Mismatch Mitigation between Database Engine and Prediction Query Execution》由 OceanBase 与华东师范大学徐辰教授团队共同合作完成。
本研究将 Python 运行环境与 OceanBase 的向量化 SQL 执行引擎集成,使 OceanBase 能够支持基于 Python UDF 的机器学习预测查询。就预测查询执行过程中运行时不匹配导致的性能问题,本工作提出了预测函数重写器消除重复的推理上下文加载过程,设计了解耦的推理算子控制推理批次大小来提升推理效率。实验显示,这两项技术有效提升了数据库中执行推理查询的性能。
近年来,OceanBase 在 SIGMOD、VLDB、ICDE 等国际数据库顶会及相关期刊上成功发表 20 多篇论文,充分利用其本身的技术实力,与国内外顶尖科研团队强强联合,共同推动分布式数据库技术的创新、应用和学术进展。未来,OceanBase 将继续加大在基础研究和工程研发上的投入,探索分布式数据库与机器学习、大数据分析、AI 应用等更广泛领域的融合,助力客户构建现代数据架构,应对市场变化和技术革新的挑战。