高质量语料数据如何实现“数”“质”齐飞

2024-07-17 11:36 中国战略新兴产业

摘要：实现语料“数”“质”齐飞，关键在于打造高质量的语料数据。这成为数据行业发展亟待解决的问题，也为数据标注企业转型发展带来了新的机遇。

中国发展改革报社记者杜壮

大模型时代的到来，正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。作为模型学习和理解世界的基石，高质量语料的缺乏正日益成为限制大模型发展的瓶颈。

近日，在2024世界人工智能大会（WAIC 2024）期间举行的语料主题论坛，以“语料筑基，智生时代”为主题，围绕高质量语料数据如何高效供给赋能大模型产业发展，向市场传递专业化、链接型、前瞻性的语料生态设计理念。与此同时，大模型语料数据联盟正式发布“2024语料风云榜”，北京云测信息技术有限公司等10家企业上榜。这些企业提供了高质量和多样化的数据集来支持模型训练和优化，为我国大模型开发中数据的收集、清洗、标注和管理提供了坚实基础，也为AI算法提供了必需的语料资源。

实现语料“数”“质”齐飞，关键在于打造高质量的语料数据。这成为数据行业发展亟待解决的问题，也为数据标注企业转型发展带来了新的机遇。

训练数据是模型学习和理解世界的基石

《中国新一代人工智能科技产业发展报告2024》显示，2023年，我国人工智能核心产业规模达5784亿元，增速13.9%。我国生成式人工智能的企业采用率已达15%，市场规模约为14.4万亿元。

对于人工智能技术而言，推出产品的时间早晚并不是最重要的，扎实推进底层的算法、算力和数据建设才是实现快速奔跑的“基石”。从数据角度看，大模型从训练到部署应用迭代，生成式人工智能众多垂直场景落地，通用智能、具身智能等前沿领域探索，都与高质量、专业化的场景数据密不可分。

根据IDC研究显示，中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB，复合年均增长速度（CAGR）达到26.3%，为全球第一，为大模型的持续优化提供了海量的数据来源。另据相关数据显示，截至4月底，国内共推出305个大模型；10亿参数规模以上的大模型数量已超100个。

虽然大模型发展如火如荼，但大模型高质量语料短缺已成为全球共性问题。麻省理工学院等高校研究人员预测，到2026年之前，机器学习数据集可能会耗尽所有可用的高质量语料数据。

实际上，任何人工智能模型，尤其是语言模型，训练数据是模型学习和理解世界的基石。语料库提供了这些模型所需的原始文本数据，这些数据包含了丰富的语言信息，如词汇、语法、句法和语义等。没有这些数据，模型就无法进行有效地训练和学习。

打造高质量语料数据要注重场景化探索

什么是高质量语料？相关专家表示，高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害，且相关特征呈现进阶式分布。

实际上，高质量语料数据与普通质量数据的区别主要体现在准确性、完整性、代表性、一致性和数据丰富性等关键方面。优质的数据不仅需要具备足够的量，更需要具备多样性、代表性及少量的噪声，这些特点能够确保模型具备良好的泛化能力，即在未见过的数据上，也能表现出良好的预测或决策能力。

如何打造高质量的语料数据？对于AI训练数据头部服务商云测数据来说，注重场景化、应用端的定制化服务是其一直探索的主线。

为了使模型能够理解和处理特定行业的问题，需要有针对性地构建包含该领域专业知识的语料库。这样的语料库能够提供行业特定的语言使用习惯、术语和概念，从而使模型能够更准确地服务于该行业。据了解，目前行业主要采取语料清洗筛选、标注分类、预训练语言模型、建立共享和协作的平台等方式。

以云测数据为例，打造场景化、平台化的AI训练数据服务是其实现高质量数据的基础，其持续为智能驾驶、智慧城市、智能家居、智慧金融等众多领域提供通用数据集、数据标注平台/数据管理工具、数据采集标注等服务，全方位支持文本、语音、图像、视频等各类型数据的处理。

在定制化服务上，云测数据面向垂直行业大模型AI数据解决方案,可以为行业客户深度定制数据采集方案，助力获取高价值数据，同时在面对微调任务会根据大模型落地场景特点，提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。

在数据服务方面，云测数据的智能驾驶AI数据解决方案2.0，以集成数据底座为核心，在数据闭环能力、自动标注能力、数据管理工具链、人工效能评估等多方面进行了全方位升级。升级人工标注与自动标注算法交互能力，并加快自身算法迭代，全面提升数据标注效率。

在平台建设上，云测数据标注平台致力于打造新一代人工智能数据处理的工程化工具，将数据采集、处理、标注、训练、模型输出进行持续迭代集成，支持图像、点云、视频、文本、语音等数据类型的加工处理，可解决AI场景落地多样性、丰富性的数据需求，帮助企业快速获得高质量训练数据。

云测数据总经理贾宇航表示，人工智能企业需要的是场景化高精度数据服务。算法的研发需要训练数据，所谓训练数据，简单来说就是给人工智能算法提供“教材”，帮助算法基于特定规则去理解这个世界或者学习某一种对应处理办法。

呈现细分化、专业化发展趋势

目前，大模型的快速发展为数据标注企业带来了转型突破的机遇。贾宇航表示，大模型技术的发展，会对数据服务行业带来较大的冲击和挑战：一方面，是对特定行业数据的要求会更高，随之对数据服务的模式要求就会更专业；另一方面，是随着大模型技术的应用，对数据标注也会带来颠覆性革新。

在贾宇航看来，伴随人工智能企业自动标注能力提升，标注将逐步从手工标注衍化为算法自动标注人工校验和人工标注。但伴随算法的实际量产，数据闭环能力增强，整体标注数据量和手工数据标注量依然逐年上升。同时，在算法应用落地、数据闭环驱动算法进一步提升的基础上，AI数据处理的工具链也进一步工程化迭代。

转型的同时，数据企业更加注重产业链生态的建设，需要建立模型训练、语料供给、学术研究、第三方服务等多方机构的合作机制，携手打造资源共享、互利共赢、国际融通的“语料生态圈”。为此，在上述会议上，50余家单位共同发起“语料生态服务大模型可持续发展倡议”，倡导携手为我国大模型产业发展持续提供高质量语料。

数据标注技术的转型升级为大模型适应新场景、新技术变革以及快速商业化应用提供了实现路径，也为AI应用的规模化落地提供了强大的支撑力。据悉，目前，云测数据深度合作伙伴覆盖汽车、安防、手机、家居、金融、教育、新零售、生态系统等行业。其中包含众多世界500强企业、高校科研机构、政府机构、头部AI企业和大型互联网企业，涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。此外，在自身不断创新发展、快速迭代的同时，云测数据还充分发挥技术领先优势和行业服务经验，积极参与各项行业标准制定，创造行业引领价值。

从人工标注，到开放的数据集分享，再到数据自动标注和深层研究，数据标注产业正在经历快速迭代升级。在行业发展过程中，高质量语料数据的发展需要潜下心来，实现“一分耕耘一分收获”。在贾宇航看来，未来，数据标注也会和人工智能技术一样，逐渐深入到各个行业及场景当中，呈现细分化、专业化的发展趋势。

责任编辑：刘丹阳

(原标题：高质量语料数据如何实现“数”“质”齐飞)