刘勋 COSCUP 2024

刘勋
.ical

刘勋，有着二十年的软件开发经验，近十年一直从事大数据领域的开发工作，是 Apache 软件基金会的 Member 成员和孵化器导师，在 Apache 中孵化了多个开源项目，同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员。

刘勋是 Datastrato 公司的联合创始人和 COO，目前主要负责公司的开源项目 Gravitino 的运营工作。

Session

刘勋, Ziva Li, Charlie Cheng

在大模型驱动之下的数据，能够让应用得到更高效、更准确、更个性化的提升，AI 已经在自然语言处理、推荐系统和数据分析等多种场景中得到了广泛使用，取得了显著的效果。大模型可以更好的优化数据，经过深度优化的数据可以更好的训练大模型，大模型和数据二者相辅相成。
我们将在本次演讲中介绍我们开源的 Gravitino 如何构建统一的元数据湖，以 Single Source Of Truth 的方式管理数据团队和 AI 团队的所有元数据，不仅填补了AI 模型元数据管理的空白，还提供 Java、Python 和 NodeJS 的客户端，让不同部门的数据团队， AI 团队和业务团队，无缝的完成数据 ETL，数据清洗，特征工程，模型训练、模型发布和 APP 与模型集成的全流程闭环，加速数据和 AI 的融合。
Gravitino 还提供支持多云的统一的 IAM 权限管理和统一的多数据源异构（结构化/非结构化）数据的读写，让 AI 团队可以充分利用公有云和私有数据中心的 GPU，存储，云服务等基础设施资源，降低模型训练的成本和周期。
同时也将分享小米、唯品会等互联网公司通过使用 Gravitino 解决 AI 模型训练中的遇到的问题和挑战。
演讲提纲：
大模型时代需要什么样的基础设施
Data Infra 到 AI Infra 的演变
技术挑战和解决方案
发展规划和未来展望

听众收益：
大模型时代的数据基础设施的最新发展趋势
如何让数据和 AI 无缝融合
如何安全高效的进行模型开发
如何有效的进行大模型的生命周期管理

Download Slide

Kaiyuanshe - Session Track

TR412-1

刘勋 .ical

Session

刘勋
.ical