柏睿数据:以数据+智能助力国产AI大模型
摘要:4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,以促进生成式人工智能技术健康发展和规范应用;国内诸多科技企业陆续推出AI大模型产品,并积极推进AI大模型的行业落地应用。
中国经济导报 记者 程晖报道
随着AI大模型浪潮席卷全球,政府和企业都在立足长远,抢先布局生成式人工智能(AIGC)与通用人工智能(AGI),推进人工智能产业发展。4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,以促进生成式人工智能技术健康发展和规范应用;国内诸多科技企业陆续推出AI大模型产品,并积极推进AI大模型的行业落地应用。
有观点认为,当前AI大模型处于百花齐放的状态,未来企业要想真正跑赢对手,需要具备数据、软硬一体算力、场景等多重能力,数据智能技术将是发展重点。其中,中金公司研究报告认为,在数据智能产业链上,基础设施建设和模型生产应用是AI大模型发展的必由之路,数据的存储与计算技术夯实AI软实力,在AI不同阶段均提供关键支撑;MLOps 助力 AI 模型生产应用和规模化落地,赋能AI模型生产全生命周期的各个流程。
报告还指出,MLOps是Al 掘金时代的“铲子”。根据 Marketsandmarkets 数据,全球MLOps 市场处于快速发展阶段,预计将从2022年的11亿美元增长到2027年的59亿美元;同时报告列出了数据智能领域值得重点关注的厂商,柏睿数据因拥有MLOps平台级应用产品储备而名列其中。
对此,柏睿数据董事长、首席科学家刘睿民先生在接受采访时表示:“未来五年,将会是AI大模型风起云涌的五年,AI大模型将带动新的产业发展和行业应用,在垂直场景的落地和大规模推广将进入跑马圈地阶段,呈现百舸争流的景象,加快构建数据智能底座是当务之急。”
据悉,在AI大模型热火朝天之前,柏睿数据已经在数据智能领域深耕多年。“柏睿数据以‘数据+智能’技术为核心,长期致力于大数据技术在人工智能端的智慧落地,依托独立自主研发的新一代高性能、标准化、全智能的数据智能产品体系,为AI大模型发展提供从数据采集、存储、计算分析到模型训练、部署、应用的全生命周期解决方案,助力用户高效、安全、轻松地构建和部署AI大模型,助力国产AI大模型全面落地生花。”刘睿民说。
打造数据智能分析引擎,夯实AI大模型核心基座
AI大模型包含“预训练”和“大模型”两层含义,大数据是其“隐式知识库”。数据是AI大模型输入的源头和输出的结果,贯穿人工智能的整个生命周期,而算力则是训练模型的关键基础设施之一,为其快速发展提供坚实支撑。
据刘睿民介绍,在算力引擎方面,柏睿数据的全内存分布式数据库RapidsDB是实时数据分析和海量数据高效管理的平台,基于全内存分布式架构的智能算力分析引擎,支持大规模并行计算,具有高性能、高并发、高扩展性等特点,能够实现PB级规模数据存储与实时在线分析,3000亿条数据查询秒级响应。对于需要基于大规模数据训练任务的AI大模型而言,RapidsDB能够为其提供实时的海量数据计算处理能力,降低模型训练时间和成本。此外,RapidsDB还提供简便易用的资源管理和调度工具,助力用户合理分配计算资源,保障训练任务的稳定运行。
柏睿数据RapidsDB在库内人工智能方面积极创新,采用已获得国际专利的动态查询优化技术和代码智能即时编译等技术,实现数据库内机器学习训练、推理,避免了数据迁移,极大提高算法迭代效率;同时支持查询性能优化及动态查询优化,为AI大模型提供更优分析性能。
同时,基于智能算力分析引擎RapidsDB,柏睿数据推出高性能、一站式、智能集成的湖仓一体化产品Rapids Lakehouse,其数据集成能力能够高效、可靠地连接20+多源异构、不同的服务、不同的应用程序,流批一体,简化通信和自动化数据驱动,使数据集成更轻松、更安全,并对接上层多样化的计算生态,集成AI算法,满足AI大模型多模态的数据输入、计算,以及满足具有行业特征的机器学习训练需求,以支持行业模型的训练。
从数据集成到模型落地,“一站式”加速 AI大模型生产应用
AI 模型开发完成后需要在实际生产环境中落地部署,才能最终实现价值,完成生命周期闭环。Gartner 调查发现,只有 53%的项目能够从 AI 原型转化为生产,AI模型生产工程化中存在跨团队协作难度大、过程和资产管理欠缺使得复用度低、重复造轮子等问题,导致生产转化率低、生产和交付周期长。 MLOps 能够通过统一机器学习的研发和运营过程,助力AI模型开发和使用提质增效,降低模型集成管理成本,控制模型生产环境风险,推进AI 模型在实际业务中的落地。
对此,柏睿人工智能开发平台Rapids AI以数据为中心,以MLOps为方法论,将数据准备与建模工作串联起来,通过特征库来管理和监控模型特征,提升建模数据质量;构建端到端的机器学习建模平台,支持AI大模型应用从数据获取、转换到训练以及部署、应用的全流程;同时拥有覆盖数据集和预训练模型的丰富生态。
具体而言,特征库Rapids Vault作为柏睿数据Rapids AI的智能底座,是统一管理机器学习特征的平台,为模型提供低延时、高吞吐的特征服务。监控特征表现,保证特征线上线下一致性;赋能AI算法落地;支撑20+多源异构数据,不仅管理结构化特征,同时管理应用于AI大模型的非结构化特征。
柏睿数据机器学习建模平台AIworkflow是一站式、低门槛、拖拽式的端到端机器学习平台,覆盖从数据采集、清洗、存储、分析到模型训练、部署、应用的全流程,极大降低建模使用门槛,帮助用户高效、简易、自动化、低运维地构建、训练和部署模型。柏睿数据机器学习建模平台能够提供包括大语言模型在内的多种机器学习与深度学习框架;支持大规模并行处理的计算能力,实现高效的模型训练;具备自动化超参数调优功能,帮助用户优化模型性能,实现更好的训练效果;建模过程和结果全流程高度可视化;此外还支持模型的快速迭代,让用户能够在短时间内尝试多种模型架构和参数组合,从而更好地满足多元应用场景的需求。
同时,柏睿数据构建了囊括海量数据集和预训练模型的生态系统,助力用户快速启动AI大模型的训练。通过利用丰富的数据集,用户可以避免从零开始收集和整理数据的繁琐工作;通过多种预训练模型,用户可以在此基础上进行简单的二次开发和微调,大幅缩短AI大模型研发周期,提高研发效率。
目前,柏睿数据Rapids AI已在海关、电力等行业得到落地应用。柏睿数据助力海关部门通过机器学习建模平台AIworkflow和分布式并行AI算法框架Rapids ParallelAI,将“捕获的查验工作单+对应报关单等”作为训练数据集合进行机器学习,构建报关单风险预测模型,大幅提高报关单风险预测的精准度和查获率,降低人工成本。在电力行业,柏睿数据助力客户完成失准更换系统的改造升级;通过分析挖掘组件RapidsPY,使用pandas的语法即可在数据库内实现数据分析挖掘;基于Rapids ParallelAI实现数据库内机器学习模型训练和预测,大大降低计算所需时长,高效、智能、安全地满足电能表失准更换系统日评价的要求。
站在AI大模型加速发展的风口上,刘睿民表示:“未来,柏睿数据将坚持‘数据+智能’的技术核心与方法论,不断丰富数据集和预训练模型生态,打造针对AI大模型的完整生态,加速AI大模型从研发到应用的生产周期,简单、高效支撑各类行业应用;同时结合客户行业和业务场景需求,构建深度适配场景的AI模型,赋能业务增长和业态创新。”
责任编辑:程晖