起原:云云众生s
积极处理数据料理不错减少时候债务并增强可膨胀性。
译自Who’s the Bigger Villain? Data Debt vs. Technical Debt,作家 Pascal Desmarets。
IT 行业的每个东谈主都知谈时候债务。时候债务(也称为时候债、代码债务或设想债务)是一个比方,它描绘了拓荒团队优先请托功能或时势可能带来的后果,这些功能或时势以后需要重构或重作念。
时候债务可能是有益的,应该保留在拓荒东谈主员有露出地接受永久不行握续但能带来短期利益的设战术略的情况下,举例发布版块。非有益的时候债务可能是由于“快速而弄脏”或“快速作为并突破惯例”的设施酿成的。
Martin Fowler 的2009 年著作对于时候债务象限的著作描绘了第二个轴,对严慎的时候债务和唐突的时候债务进行了操办的分手。
数据债务是一种时候债务,它指的是由于厄运的数据料理实践(举例不竣工、不准确或非规范化数据)而累积的资本,这些资本会跟着时刻的推移而遮挡恶果和有设想。
数据债务不单是是难熬,它会导致数据不行靠和手动数据料理。数据债务会裁减数据质料,降速有设想速率,加多资本,并损伤对细察力的信任,从而松懈组织成为数据驱动型组织的材干。
尽管数据债务和时候债务密切操办,但两者之间存在环节区别:您不错秘书时候债务歇业并再行开动,但对数据债务这么作念很少是可行的礼聘。
唐突和非有益的数据债务源于更低的存储资本和数据囤积文化,在这种文化中,组织累积了多半数据,而莫得建树适合的结构或确保分享的高下文和含义。它进一步受到对设想优先设施的欺压的影响,这种设施时常被合计是速率的潜在瓶颈。它也可能通过数据湖、仓库和湖仓中脆弱的多跳奖章架构深化。
就像莫得设想就编写代码会导致时候债务雷同,这种辛鏖战略计较导致数据不一致、冗余和孑然,使得集成、分析和价值索要越来越复杂。
数据料理中的左移
对于数据债务,留意胜于调理。“左移”是一种实践,它触及在拓荒人命周期的早期贬责环节经由,以便在问题发展成更严重的问题之前识别和贬责这些问题。欺诈于数据料理,“左移”强调尽早优先磋议数据建模,要是可能的话——在网罗数据或构建系统之前。
数据建模允许顺从设想优先的设施,其中数据结构、含义和干系在网罗之前经过三想此后行地计较和操办。这种设施通过确保知晓度、一致性和团队间的协调来减少数据债务,从而罢了更消弱的集成、分析和数据的永久价值。
通过在开动时使用数据建模,组织不错凭证业务需求界说数据的结构、含义和干系。这种主动策略通过留意创建不一致、冗余或难以露出的数据来减少数据债务。它还确保时候团队和业务用户对数据有知晓的露出,从而擢升数据质料,简化集成,并罢了永久可膨胀性。实践上,“左移”使团队大要“为翌日设想”,而不是在问题发生后才诞生问题。
代码优先设施的维持者应该露出到,当敏捷原则与范围驱动数据建模一皆欺诈时,数据建模不再是瓶颈。
然而,每个组织很可能依然存在一定进度的数据债务。有什么设想来限度它?
绘画现存数据
数据模子,就像舆图或蓝图雷同,是数据组织表情的可视化暗意。通过搜检现存的数据库、数据源和数据交换,组织不错将实体、属性以及它们之间的流畅绘画到实体干系图或更苟简的图表中。
这个逆向工程过程触及分析和绘画现存数据结构,以揭示其底层设想和干系。它有助于识别不一致之处、冗余和差距,从而更好地露出和记载数据,以便在必要时纠正集成、分析和再行设想。
通过绘画现存数据,该过程使界说、干系和结构明确化,弥合了IT和业务用户之间的差距。它使业务团队大要调解数据若何反馈运营和经由。同期,IT部门大要明晰地了解数据如安在有设想、自助分析、机器学习和东谈主工智能中使用。这种分享的露出促进了合营,减少了扭曲,并确保每个东谈主——从时候团队到业务利益操办者——都能使用一致且特真谛真谛的数据。
元数据料理器具和数据字典时常依赖于逆向工程和分析来网罗现存数据结构,揭示干系并记载属性。固然这些过程提供了对数据刻下现象的可贵办法,但它们实践上是反应式的,侧重于编目现存内容,而不是主动设想数据结构。这种局限性意味着它们无法防碍数据债务的累积,因为它们无法从一开动就奉行正确的设想原则或使数据与业务需求保握一致。
设想您翌日的数据
数据建模通过启用设想优先的设施来补充这些器具,其中数据以分享的含义、高下文和翌日的可膨胀性为主义进行经心构建。
数据模子不是最终主义。从时候方面来看,其主义包括建树与主题人人业务需求一致的模式公约,并由数据坐褥者和蹂躏者共同约定。从业务方面来看,它促进了对正在交换和存储的数据的含义和高下文的消弱分享和拜谒。
数据建模通过创建坚实的基础并促进现存结构的演变来留意新的数据债务。通过携带更正以适应时候和业务需求,数据建模匡助组织为其数据创造更可握续和高效的翌日,减少已往诞妄的背负,同期确保握续的价值。
数据模子也欺诈于数据交换
数据建模传统上与用于事务或分析主义的干统共据库操办联。跟着时刻的推移,这跟着NoSQL数据库、API、事件驱动架构和微工作的兴起而膨胀。
固然拓荒东谈主员领先体恤底层时候,但很显著,得胜数据交换的环节在于有用载荷的结构。数据发布者和蹂躏者必须就以模式为中枢的数据公约达成一致,以便有用换取。此模式界说了交换的结构,不管是API如故Kafka事件。
论断
为了减少您的数据债务,请将您现存的数据绘画成一个透明、全面的数据模子,以映射您刻下的数据结构。这不错迭代地进行,凭证需要贬贬抑题——幸免试图一次性贬责整个问题。
让范围人人和数据利益操办者参与特真谛真谛的操办,以调解数据的高下文、真谛真谛和用途。
在此基础上,迭代地纠正这些模子——不管是静态数据如故动态数据——以便它们准确地反馈并知足您组织和客户的需求。
这么作念为数据一致性、知晓度和可膨胀性奠定了坚实的基础,开释了数据的全部后劲,并促进了更周密的有设想和翌日的翻新。
本文在云云众生(https://yylives.cc/)首发,宽宥人人拜谒。