目录
一.写在前面
二.数据技术进化历程
三.写在最后
一.写在前面
数据技术的演化从数据仓库到数据中台,再到数据飞轮,反映了企业在数据管理和使用上的需求从基础的存储、查询向更高效、更智能的方向发展。现在来谈谈每个阶段的技术架构理念以及其特定的目标和侧重点。
二.数据技术进化历程
纵观大数据的发展史中,数据仓库概念的提出可以说是为大数据的发展提供了基石,它可以追朔到上世纪80年代,由IBM的研究人员提出的商业数据仓库概念,本质上还是希望能从操作型系统进化到决策分析系统,解决多重数据复制带来的高成本问题。数据仓库的核心是数据的集中化存储,主要面向决策支持,提高企业人员决策的有效性。其典型特征是结构化数据和批量处理,将数据通过联机分析(OLAP)处理、以数据立方体形式呈现,多维数据分析,常用切片,钻取等,数据一般来自业务系统的ETL(抽取、清理、装载、刷新)过程。
随着数据量和数据类型的增长,数据仓库对非结构化类型的数据的处理收到限制,因为其主要是接受处理来自于传统数据库下的表格数据。随着企业数据来源的增长以及业务场景的复杂化,数据中台的时代来临。它不仅仅是数据的集中存储,其更关注数据的治理、服务化和共享。
说到数据中台,这就不得不说下其兴起的缘由。数据中台在国内的兴起还在2015年,阿里巴巴拜访芬兰的一家公司后,感叹中台的强大,首次提出“大中台、小前台”的策略,其意思就是将支持类似的业务工作放在中台,让中台担当支撑的工作,让小前台离一线更近,贴切客户,使得业务更新更加快速。其核心理念就是提供数据服务。通过整合各种数据源,构建统一的数据资产平台,为前台的业务系统提供标准化、可复用的数据服务。这一点就与政企行业大数据采集、和应用方面高度契合,所以很多公司看到它的优越性,也投身于研发自己的数据中台,包括字节、腾讯等大牛。最具代表性的莫属于阿里出品的阿里数据中台了,它可以算是国内数据中台技术探索的问路石。
从数据中台的演进旅程来看,其实它就是数据仓库的下一代产物,也是业务和技术共同推动下的必然产物。最初,企业通过建设数据仓库解决了历史数据的存储和管理问题。然而,随着企业规模扩大,数据量呈现爆发式增长,传统数据仓库逐渐显得臃肿低效,缺乏灵活性。与此同时,大数据技术的发展显著提升了数据处理的能力,使得高效、敏捷的数据开发和数据服务成为现实。
虽然数据仓库到数据中台的转变大大提高了企业的业务响应速度,也解决了信息孤岛的问题,但是构建数据中台还是需要对业务有深入的了解,深度依赖于人工配置和管理,这种花费的成本还是很高的,所以技术理念更为先进的技术飞轮应运而生。它依托于数据中台,将数据的生产和消费闭环化,通过持续反馈和迭代推动业务的增长。
有很多人认为数据飞轮是数据中台的高阶形态,但我认为二者之间还是有本质差别的。下面且听我娓娓道来。
在CHATGPT为首的AI大模型出世以来,就肯定意味着AI将会给我们的产业带来新的一轮革新。数据飞轮强调数据的自动化收集、处理和反馈,利用AI和机器学习等技术不断优化业务模型和决策流程。通过集成AI和机器学习技术,飞轮不仅能够实时分析海量数据,还能不断调整和改进业务模型。AI算法能够识别数据中的模式和趋势,预测未来的需求变化,进而自动调整策略和运营流程。这种动态的优化过程确保了企业始终能够基于最新的数据做出决策,提升业务灵活性和响应速度。飞轮系统还能够通过持续的数据反馈机制,不断验证和完善业务假设和模型。每一次优化和调整都基于实际的数据结果,使得业务决策更加精准和可靠。这种闭环反馈不仅帮助企业在复杂多变的市场环境中保持竞争力,也推动了创新和业务增长的不断加速。
当前,数据飞轮的应用最早在火山引擎中得到实践,基于字节跳动的数据驱动方法。它可谓是得天独厚,拥有今日头条、基于数据分析选品、调度的抖音直播两大平台。但是就目前而言,然而,尽管数据飞轮的潜力巨大,其实际落地仍面临一些挑战。
其一是因为AI大模型的成熟度仍然有限。虽然机器学习和人工智能技术已经取得了显著进展,但大模型的训练和应用仍需要进一步的发展和优化,以充分发挥数据飞轮的潜力。当前,很多AI大模型在处理复杂问题时仍面临计算资源和数据质量的瓶颈,需要持续的技术突破和迭代更新;数据资产的私密性也是一个重要难题。许多公司对自己的数据持保留态度,不愿意将数据共享或外泄。这种数据隐私和安全问题限制了数据飞轮的广泛应用,因为有效的数据驱动模型需要大量的高质量数据进行训练和验证。企业在数据共享和保护之间需要找到平衡,确保数据的安全性和隐私性,同时又能利用数据驱动业务增长。
因此,尽管数据飞轮在字节跳动等前沿企业中取得了一定的成功,广泛应用仍需解决AI技术的发展、数据隐私保护等实际问题。随着技术的进步和行业标准的完善,数据飞轮有望在更多企业中实现落地应用,推动数据驱动的业务增长模式变得更加普遍和高效。
三.写在最后
数据仓库通过存储大量结构化数据,支撑企业的战略决策。但随着企业业务的多样化和数据来源的复杂化,数据仓库难以应对非结构化数据和快速变化的业务需求,因此数据中台的出现进一步增强了数据的治理和灵活使用能力。而数据飞轮的出现则进一步通过数据驱动业务,形成自动化的闭环,不断优化和迭代,减少人为干预,使得数据与业务相互促进,实现业务的持续增长。
上海确定2023年GDP增长目标为5.5%以上
中国财经报道 2023年1月11日 上海市市长龚正星期三(1月11日)上午建议,今年全市经济社会发展的主要预期目标是:全市生产总值增长5.5%...