首页 产经 正文

数据标注基地试点工作将开展 高质量数据集需求加大

2024-04-12 17:09 中国发展网 杜壮

中国发展改革报社记者 杜壮

近日,全国数据工作会议召开,明确探索建设国家级数据标注基地,充分发挥地方配套支撑作用,在数据标注产业的生态构建、能力提升和场景应用等方面先行先试,集聚龙头企业,促进区域人工智能产业生态发展。同时,国家数据局将开展深化数字经济创新发展试验区、数据要素综合试验区、数据基础制度试点、数据资源开发利用试点、数据基础设施建设试点等一系列试点试验工作。

随着人工智能技术的快速发展和经济效用的逐步体现,算力、算法、数据作为人工智能核心三要素的重要性日渐凸显。在新一代人工智能领域中,数据不再仅仅是算法模型训练的“原料”,而在数据的类型、质量、获取难易程度等方面产生明显差异,特别是高质量、大规模、多样性的数据集,直接影响了以大语言模型(LLM)、生成式预训练转换模型(GPT)为代表的新一代人工智能模型的效率和研发水平。因此,数据将成为新一代人工智能领域中差异化竞争的重要力量。

高质量、大规模、多样性的数据集对于提高模型精度、可解释性和减少训练时长大有裨益。云测数据总经理贾宇航表示,在大模型发展的趋势下,数据的需求量不断增加,同时对于数据的质量和多样性也提出了更高的要求,高质量数据的重要性进一步凸显。人工智能专家吴恩达曾表示,AI发展正在从“以模型为中心”加速转向“以数据为中心”,高质量的训练数据集决定着模型的精度与表现。

数据层面需要适应“预训练+微调”范式下不同阶段的需求,追求数据质量将会成为大模型相关企业接下来发展的重点。举例来说,云测数据发布的面向垂直行业大模型提供全生命周期的AI数据解决方案,为行业客户深度定制数据采集标注方案,助力获取高价值数据,同时在面对微调任务会根据大模型落地场景特点,提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。在完成微调后,云测数据通过垂直领域的人员和专家积累+评测体系和服务,帮助企业对各个垂直应用落地领域进行评估。

贾宇航表示,随着人工智能技术快速落地发展,数据规模正在不断提升,强大的模型需要含有大量样本的数据集作为基础,数据的质量、多样性将对算法模型的成败产生重大影响,AI数据服务业已经进入了深度定制化阶段。云测数据通过数据采集、数据清洗、数据标注等方式为企业业务引入AI数据治理,目前已在自动驾驶、智慧城市、智能家居、智慧金融、零售货检等领域应用。

责任编辑:李振

返回首页
相关新闻
返回顶部