的差异化需求凸显,小而精、行业化的数据集快速兴起,推动构建 面向医疗、金融、工业等特定行业的高质量数据集。在数据安全合 规层面,数据集建设更加重视合规性与安全性,强调确权、脱敏、 隐私计算和可追溯。2024年,最高人民法院发布指导案例,明确数 据处理者在依法采集、合理利用且不造成损害时不构成侵权,为数 据合规提供司法依据。 从发展问题来看,数据集质量成为当前制约行业垂类模型落地 和场景应用的瓶颈问题。根据中国信通院ADAQ(人工智能数据质 量评估体系)开展的多家央企的评估结果,当前行业数据集建设主 要质量问题如下:内容稠密性方面,数据集信息细节、句子成分及 关联关系存在缺失,内容重复;领域相关性方面,数据内容与业务 场景无关,未体现不同场景的深层业务关系;数据多样性方面,数 据集缺少行业特征,数据来源单一、类型简单、场景单调;形式规范性 方面,存在格式不符、错别字、多余字符、逻辑错误等形式问题。