人工智能数据管理:AI商业化落地的“必修课”
摘要:2018年,中国的数据量为7.6ZB,占全球总量的23.4%,预计到2025年将增至48.6ZB,占全球总量的27.8%,年复合增长率达30.35%。
中国经济导报、中国战略新兴产业杂志、中国发展网记者 杜壮
目前人工智能市场发展依然火热,各行各业对数据的需求也呈现井喷态势。然而现在很多企业的大部分非结构化数据无法用于AI(人工智能)模型训练,需要大量的人工进行标签化处理。人工智能企业要想在数据标注上降本增效,必须选择更加高效、体验更好的标注工具,从而提升标注团队的工作效率。
在2021年中国国际服务贸易交易会期间,云测数据发布了“云测数据标注平台-AI数据集管理系统”,专注于AI数据集的上传、管理、存储、分享,数据类型标签化管理,同时支持标注结果的存储、标注结果可视化等功能,从而助力企业进行数据管理,提升数据训练的匹配度。作为AI训练数据头部服务商,云测数据总经理贾宇航接受记者专访时表示,只有把海量的训练数据进行有效管理,才能减少冗余数据、最大化地发挥训练数据的价值,从而推动数据要素有序发展及高效利用。
数据服务成为人工智能商业化落地的基石
在人工智能产业链中,算法、算力和数据共同构成技术发展的三大核心要素。从人工智能产业链的发展情况和未来发展趋势来看,中国人工智能数据服务行业的市场规模正在逐步扩大。
据IDC预测,中国的数据量增速最快,平均每年的增长速度比全球快3%。2018年,中国的数据量为7.6ZB,占全球总量的23.4%,预计到2025年将增至48.6ZB,占全球总量的27.8%,年复合增长率达30.35%。在这样的数据增长背景下,数据资产管理的重要性不言而喻。
如今各行各业纷纷搭乘数字化转型的快车,以取得市场竞争力。值得注意的是,在企业纷纷投来数字化转型意向的同时,部分中小企业也面临着“不会转、不能转、不敢转”的现状。相关数据显示,目前我国仅有25%的企业开展了数字化转型,中小企业比例则更小。
贾宇航认为,数字化转型的本质,是利用软件技术、互联网、人工智能等数字手段,降低企业运营成本,提升生产运营效率,为对外开源拓客创造更多价值的过程。也正因为如此,企业的数字化转型必然离不开应用、软件、系统等信息基础设施的建设与运用,这背后必然产生大量的数据。
“越来越多的人工智能企业意识到,高质量的训练数据越多,意味着AI落地应用效果越精准,但并不意味着所产生的价值越大。”贾宇航说,“人工智能落地商业化时代,企业面临着自身AI数据量大,对某个特殊问题场景很难找到有价值AI数据的普遍困境。同时在人工智能数据训练过程中,AI数据管理更是面临着数据资产不能充分利用、管理方式不完善等新的挑战。”
在贾宇航看来,AI数据服务在企业整个数字化转型的过程中扮演了一个基石、底座的角色。“帮助算法提升精度必不可少的就是训练数据,虽然训练数据并不被消费者很快注意到,但一些很酷的人工智能产品,诸如自动驾驶的汽车,都离不开算法,而算法又离不开对应的高精度的训练数据。”
AI数据集管理系统让企业实现数据的“拎包入住”
数据服务痛点的存在也预示着行业迎来新的机会。
此次发布的云测数据标注平台-AI数据集管理系统是业内首个专注于AI数据集的管理系统,是云测数据基于人工智能行业前瞻性发展的具象化技术产品体现。贾宇航介绍,其可帮助企业系统的解决数据储存、数据检索、数据资产权限管理、标签结果可视化等的数据资产管理问题。
“人工智能的训练数据可以被看作是一本教材,让算法更精准。实际上,人工智能算法,从原来的瀑布式开发正在向敏捷开发发展。瀑布式开发对整个数据的投入是异步的,打个比方,按项目的方式搜集数据优化算法,项目一完成后,这些数据就没有用了,到项目二的时候,还需要重新获取数据、重新标注、重新训练。但是当算法朝着更深的领域发展时,数据需要持续地滚动和迭代,这需要一个系统能够面向AI算法的敏捷开发进行设置。”贾宇航对记者说。
“企业在使用系统的过程中会有一个‘拎包入住’的体验。”贾宇航告诉记者,这次推出的平台将AI数据服务的流程具象化,变成了一个产品。原来用于管理云测数据内部的服务流程,如今可以扩展到AI相关企业中应用。再结合云测数据标注平台,客户可以一站式、流程化进行数据采集、数据标注、数据管理。
贾宇航向记者介绍,自主研发的云测数据标注平台为AI相关企业提供了一站式、大规模处理训练数据的能力,可助力AI数据训练综合效率提升200%、标注精准度最高可达99.99%。
积极拓展数据管理市场应用的深度和广度
随着人工智能深入自动驾驶、智慧医疗、智慧教育等诸多行业领域,AI算法对训练数据维度和样本复杂性的要求变得越来越高,对数据标注技术、标注平台能力、不同维度数据协同标注等都提出了挑战。
“作为AI技术的三大要素之一,数据从本质上决定了人工智能的落地水平。通常来讲,数据标注得越精准,数据量越大,模型就越好,最后的AI产品效果也就越好。”对于未来,贾宇航充满了信心。他告诉记者,伴随着国家多项政策的出台,AI训练数据增速会很快,并且有一个很好的市场前景。
在人工智能的大潮中保持技术和行业的领先性并非易事。贾宇航也道出了他们发展的秘密,那就是“一横一纵”战略。
谈到“一横”,贾宇航向记者解释道:“伴随着整个人工智能的发展,我们在自动驾驶、智能家居、智慧城市和智慧金融等多个行业,有端到端的训练数据服务解决方案。随着越来越多的行业进行智能化、数字化转型,我们将积极地为这些具有潜力的赛道和行业,去制定数据解决方案,帮助更多的人工智能技术商业化落地。”
“‘一纵’更多地是对热门行业和技术发展趋势进行前瞻性预测,提前准备相关的工具链以及数据服务能力,确保有充足的准备去应对新的AI数据需求。”贾宇航说。
“人工智能被列入新基建中的新技术基础设施,将会有更多的资本或者政策关注,而人工智能三要素之一的数据,势必会伴随着人工智能行业的增长而增长。”贾宇航对记者说。
责任编辑:李振