(本文作者:国家广播电视总局广播电视规划院郑冠雯,王幸 )
1 背景
当今是一个数据爆发的时代,也是一个智慧萌芽的时代。2019年10月,第四届中国-阿拉伯国家广播电视合作论坛17日在浙江杭州举行,国家主席习近平致贺信。在贺信中,习近平指出[1],“推动媒体融合发展,打造智慧广电媒体,发展智慧广电网络”,明确提出了智慧广电的概念,为广电行业创新发展指明了前进的方向。
面向行业创新发展,国务院多次出台相关指导意见。国务院出台的《关于加快发展生产性服务业促进产业结构调整升级的指导意见》[2]明确指出,“推动云计算、大数据、物联网等在生产性服务业的应用,鼓励企业开展科技创新、产品创新、管理创新、市场创新和商业模式创新,发展新兴生产性服务业态”。国家广电总局在《关于促进智慧广电发展的指导意见》等文件中也多次强调大数据的重要性,提出“充分运用和拓展行业大数据资源,进一步增强广播电视服务能力”。可见,在广播电视创新发展的道路上,智慧和数据是密不可分的。
2 大数据能力中心在,智慧广电中的重要地位
工欲善其事、必先利其器。大数据中心是智慧广电的重要基础设施,它为智慧广电提供了重要的数据基础和能力平台。智慧广电基于大数据技术,融合5G网络、人工智能、知识图谱多种先进技术,利用数据进行广电领域的智能分析和智能应用,在大数据、云计算等基础资源和网络安全体系的重要保障之上,形成三个中心、建设一个平台、输出多种能力,如图1所示。
三个中心指互联网能力中心、大数据能力中心、AI算法能力中心。这三个中心并不独立存在,而是相互支撑、相辅相成的:随着有线电视双向化改造进程的持续推进,IPTV、OTT、网络视听等已有IP网络能效的进一步释放,以及广电5G 网络先进技术的探索与应用,互联网能力中心将从“量”上拓展大数据采集的范围与规模,从“效”上提高大数据采集的时效性,从“质”上提高大数据采集的维度与质量。大数据中心所采集数据“量”、“效”、“质”的提升,又为AI算法能力中心提供更加丰富、完善的海量算法训练数据。从长远的角度看,AI技术的相关需求是未来数据中心需求增长的重要驱动力,而AI技术的发展又能够帮助数据中心提升运营效率,反向促进数据中心迈向新高度。可见,在智慧广电体系当中,大数据中心既是承上启下的重要数据枢纽,也是不可或缺的核心数据资源。
依托互联网能力中心、大数据能力中心、AI算法能力中心,在此基础之上形成智慧广电业务开放平台,为从现有广电业务到智慧广电应用之间的过渡架起一座桥梁。统一、开放的智慧广电能力共享平台将在多方面发挥重要作用,将业务智能、精细管理、高效服务进行有机结合,为广电内部业务效能提升提供支撑,为智慧公共服务能力建设提供抓手,为广电相关产业转型升级提供保障,依托海量数据资源提供智能化、定制化、精细化的统一服务。
3 大数据助力智慧广电,创新发展的关键要素
在大数据能力中心的构建过程中,应依托大数据技术组件、标准和算法等关键要素,形成一套纵向可挖掘、横向可扩展的大数据技术体系架构,为智慧广电顶层应用打牢技术基础。智慧广电的相关技术体系包括人工智能技术、大数据技术、音视频技术、云计算技术等。其中,大数据技术一方面基于新一代智能广电网络采集多源异构的用户行为数据,另一方面为智慧广电顶层应用提供数据分析、数据挖掘等技术支撑,同时为人工智能技术体系提供海量训练数据,是智慧广电技术体系的重要一环。目前,大数据技术体系已经趋于成熟,其关键的技术组件主要包括大数据的文件存储、数据同步、资源管理、集群管理与监控、分布式协调服务、任务调度、日志收集、消息系统、离线计算、流式&实时计算、K-V&NOSQL数据库、查询分析、数据挖掘&机器学习等等,各个技术组件代表性的技术实现[4][5]等如表1所示。这些技术组件涵盖了大数据采集、存储、清洗、分析、处理,挖掘等全流程各个环节,是大数据支撑顶层业务应用的必要基础。
智慧广电数据标准在确保标准一致性、准确性的基础上,特别应注重标准对于快速迭代新技术的前瞻性,并充分考虑标准对于异构大数据的可操作性。具体的,智慧广电数据标准可包含业务术语、数据分类、标准数据元、数据质量、安全规则等要素,同时涵盖两个模型和两个体系。两个模型是指数据模型和算法模型,一个稳固、全面和灵活的数据模型是数据中台建设的关键,是支撑各类应用的基础;算法模型则是基于广电业务场景确定的计算逻辑进行设计,是经验沉淀的载体,是数据业务化的基础。两个体系是标签体系和指标体系,标签体系规定了各类业务对象的标签库,并提供分析和数据共享通道,为精细化、个性化、差异化运营分析提供支撑能力;指标体系根据具体的业务需求规定相关统计指标的计算规则,所输出指标可直接为智慧广电相关业务场景提供量化的数据支撑。
智慧广电算法主要包括面向音视频识别的算法(如机器视觉、语音识别等)和面向大数据处理的算法。其中,数据压缩算法、数据检索算法、数据分类&聚类算法、回归分析算法、智能推荐算法等是常见的大数据处理与挖掘算法,广泛应用于内容选题、素材集成、需求组合、分析预测、创作生产等领域。目前,在国内外的各大开源社区中,已经存在大量如用户画像、内容推荐等与智慧广电应用密切相关的开源算法。这些开源算法虽然有着优秀的技术指标(如推荐准确率等),但绝大数的开源算法都是仅以技术指标作为衡量算法优劣的标准,直接使用往往是不可取的;特别是对于国外开源社区的算法,在进行参考时更要慎之又慎。在广播电视领域算法的应用实践当中,要坚定不移地使用主流价值导向驾驭算法,从全面提高舆论引导能力出发,充分考虑广播电视主流价值导向的舆论宣传需求,建立算法综合评价体系,对算法进行多角度、全方位的衡量,切忌粗放、盲目地将算法实施后的点击量、准确率等指标作为评判算法优劣的唯一标准。
4 广播电视收视大数据的,探索与实践
实践出真知,《关于促进智慧广电发展的指导意见》指出,“开展基于大数据、全样本、多方位的用户收视行为深度分析,通过软件定义、数据驱动、算法重构等多种手段,实现内容选题、素材集成、需求组合、分析预测、创作生产的全流程智能化”。广播电视规划院依托广播电视节目收视综合评价大数据系统,对基于大数据的智慧广电应用进行了有益的探索和实践。该系统坚持以人民为中心的发展理念,助力智慧广电建设,建立与现代广播电视传播特点相适应的新型收视调查技术体系。目前,系统已汇聚超过1.4亿用户规模数据,用数据安全管控机制来确保收视统计的客观真实、防操纵、防污染。用多维综合评价方法,来科学评价节目的社会价值、市场价值,引导行业健康发展,推动行业创新发展。目前,广播电视节目收视综合评价大数据系统已经探索形成了一套数据汇聚、清洗、转换、分析、输出、应用的全链运行机制,如图2所示。
在数据汇聚方面,汇入系统的多源异构收视数据应遵循真实原则、全量原则与保密原则。真实原则指数据提供方应确保提供数据的客观性和真实性;全量原则指所提供数据应是该数据源全部用户的全量收视行为数据;保密原则指应确保收视数据交换过程中个人信息得到有效保护。同时,面对海量多源异构数据的接入,为保证数据质量,系统建立了数据的三级稽核机制,对接入系统的多源异构数据源进行深度核查。其中,第一层是数据规范性核查,确保数据符合协议规范,使数据达到基本可用;第二层是数据完整性核查,确保数据不丢失、不重复,使数据达到基本可信;第三层是数据合理性核查,通过对数据的深层次、多维度、规律性分析,使数据达到深度可信。此外,系统对数据链路的传输连通性和各节点设备性能进行监控,确保数据传输的可靠与稳定。
在数据清洗转换方面,需要对数据进行抽取、清洗、转换后,将标准化的数据存入平台的数据仓库中。在数据的抽取、清洗、转换、入库等过程中,大数据标准起到了关键的作用。首先,应按照GD/J 074-2018《电视收视数据元素集规范》[5]中的要求提取关键字段信息,从数据源中抽取数仓中必要的数据字段;其次,应按照GD/J 076-2018《电视收视数据清洗规范》[6]中的要求,建立统一的收视数据清洗规则配置库,并在收视数据清洗引擎中对重复数据、不完整数据、噪声数据、错误数据等进行统一清洗处理;最后,基于GD/J 075-2018《电视收视数据交换接口规范》[7]中第5部分“数据交换格式”的要求,从用户数据、终端设备数据、节目数据、收视行为数据等方面对格式不一致的数据源进行归一化处理,并将结果存入平台数仓当中,为后续数据分析提供内容完整、结构规范的基础数据。
数据分析挖掘方面,系统将大数据技术的优势与收视分析业务的特点进行深度结合,将收视数据分析中的各个过程拆解为的计数、累加、去重等基本运算操作,充分发挥大数据平台善于批量处理海量规模数据基本运算操作的优势,使之能够在大数据平台上采用MapReduce等模型进行高效、并行、稳定的运算。在指标计算方面,系统一方面立足大数据先天优势,形成观看用户绝对数、收视绝对时长等大数据指标,数据统计精准到户、节目分析精确到秒,为客观、真实评价广播电视节目收视情况提供了精细化的数据支撑;另一方面深挖数据内在价值,在单指标基础之上进行多维指标联合分析,对节目的场景吸引力、节目粘性、平台效应、收看方式、内容供需关系、播出编排、宣推效果等进行综合考量,进而分析节目传播效果及其成因,为综合评价广播电视节目的影响力、竞争力提供了有力的数据抓手。
在成果应用方面,系统一方面形成大数据能力平台,一方面输出大数据分析服务,以大数据助力智慧广电创新应用。前文指出,大数据平台是智慧广电的关键基础设施,而收视综合评价大数据系统正是广电大数据平台的重要一环。收视数据是广播电视领域最广泛、最庞大的用户行为数据,收视大数据中心的建设既是用户画像、智能推荐等智慧广电应用的基础数据,也支持面向数据挖掘、数据二次开发等需求提供API接口服务,更能为智慧广电AI能力中心提供数据资源。同时,系统将提供节目收视大数据分析服务,为智慧广电创新应用提供强有力的数据支撑。系统所提供的精细化、定制化的数据分析服务,将在以下方面发挥关键作用:一是支撑政府决策,为节目内容题材调控、引导提供数据支撑;二是助力政府监管,为遏制行业乱象提供数据抓手;三是服务行业发展,为电视台与运营商明确定位、业务升级、精准投放提供数据服务,让好节目进入好平台、好时段;四是回应社会关注,让“叫好”与“叫座”并存,为满足人民群众精神文化需求提供数据保障。
5 小结
智慧广电需要大数据作为思考和决策的基础,大数据也需要智慧广电作为数据价值体现的载体。在智慧广电创新发展的道路上,要不断开放、发掘、利用广电大数据资源,促进创新链和产业链深度融合,以大数据支撑广播电视和视听媒体供给侧改革,助力广播电视创新发展,用大数据点亮智慧广电崭新未来。