Data Lineage
Data lineage: Making artificial intelligence smarter |
Data Lineage делает искусственный интеллект умнее |
|
Imagine you work in an office building in the bustling center of a large city. On your lunch break, you go for a walk to get some exercise and clear your head. Half an hour later, you realize that you haven’t been paying attention to your surroundings and don’t know where you are – but you need to get back to the office quickly. You pull out your smartphone and use a few trusty GPS-enabled apps to see your exact location, the path you took to get there and the fastest route back to the office. You even get some recommendations for quick lunch stops along the way. That’s a good analogy for data lineage, which details the journey data took to get from where it started to where it is now. These days, data lineage is particularly important in the context of artificial intelligence (AI). But before we delve into that, let’s look at a few definitions. | Представьте, вы работаете в оживленном центре мегаполиса. На обеденном перерыве вы отправляетесь на прогулку, чтобы потренироваться или просто проветрить мозги. Через полчаса вы понимаете, что не знаете, где находитесь, но в офис нужно скорее вернуться. Тогда вы достаете смартфон и используете надежное приложение с поддержкой GPS, чтобы увидеть ваше точное местоположение. С его помощью вы прокладываете путь, которым добрались до нынешней точки, и маршрут обратно в офис. Это хорошая аналогия для Data Lineage – это детализация данных маршрута от начальной точки до конечной. В наши дни Data Lineage особенно важен в контексте искусственного интеллекта (ИИ). Но прежде чем углубляться в эту тему, давайте рассмотрим несколько определений. | |
Data lineage defined
|
Что такое Data Lineage
|
|
As it traces data’s path from its origins to the current location, data lineage shows many important details. These include technical, business and operational metadata – information that describes the following items:
|
Data Lineage показывает подробные сведения о потоке данных от системы‑источника к системе-приемнику и позволяет отследить преобразования и взаимосвязи как технических, так и бизнес-метаданных. Иными словами, это информация, которая описывает элементы:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Data lineage provides a complete audit trail for data, which is increasingly important for compliance with regulations such as the EU GDPR. Data lineage enables you to trace data quality issues and other errors back to their root cause and perform impact analysis on proposed changes. As it links data in disparate systems at a logical level by showing how metadata is connected, data lineage helps identify business rule discrepancies and data incompleteness. Data lineage also helps data stewards react to issues before they become a problem, define strategies for data quality improvement and promote effective reuse of existing information. |
Data Lineage обеспечивает полный аудит данных, что становится все более важным для соблюдения нормативных актов, таких как GDPR. Data Lineage позволяет отследить проблемы качества данных и другие ошибки до их первопричины и провести анализ влияния новых изменений на существующие объекты. Поскольку Data Lineage связывает данные в разрозненных системах на логическом уровне, показывая, как связаны метаданные, он помогает выявить несоответствия и неполноту данных. Data Lineage также помогает оперативно реагировать на инциденты с данными до того, как они станут проблемой, определять стратегии улучшения качества данных и способствовать эффективному повторному использованию существующей информации.
|
|
Defining artificial intelligence in the context of lineage
|
Определение искусственного интеллекта в контексте Data Lineage
|
|
Artificial intelligence (AI) is an umbrella term that covers a variety of techniques and approaches that make it possible for machines to learn, adjust and act with intelligence comparable to the natural intelligence of humans. Lineage has direct implications for many of the techniques and approaches of AI, such as:
|
Искусственный интеллект (ИИ) – это общий термин, охватывающий множество методов и подходов, которые позволяют машинам учиться, адаптироваться и действовать на уровне с человеческим интеллектом. Data Lineage имеет прямое воздействие на многие методы и подходы ИИ, такие как:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
AI plays an ever-increasing role in enterprise solutions. Unlike robotics, which automate manual tasks, AI automates computing tasks. That’s especially valuable given the large and diverse data sets most organizations use today.
|
ИИ играет все возрастающую роль в корпоративных решениях. В отличие от робототехники, которая автоматизирует ручные задачи, ИИ автоматизирует вычислительные задачи. Это особенно ценно, учитывая большие и разрозненные наборы данных, которые сегодня используют большинство организаций.
|
|
While the human role in enterprise solutions will never disappear, it’s foolish to argue against the advantage of AI-augmented humans. There’s a tremendous boost to human productivity when time-consuming tasks (like analyzing gigabytes of data) can be fully automated. But for AI to reach its full potential, the data feeding its algorithms and models needs to be well-understood. Data lineage plays a vital role in understanding data – making it a foundational principle of AI.
|
В то время как человеческая роль в корпоративных решениях никогда не исчезнет, глупо спорить с преимуществами ИИ. Благодаря ему значительно повышается производительность труда человека, когда трудоемкие задачи (например, анализ гигабайтов данных) могут быть полностью автоматизированы. Но для того, чтобы ИИ полностью раскрыл свой потенциал, данные алгоритмов и моделей должны быть понятными. Data Lineage играет жизненно важную роль в понимании данных, являясь основополагающим принципом ИИ.
|
|
Data lineage: GPS for data
|
Data Lineage: GPS для данных
|
|
Whether it’s by humans or machines, using data means taking a journey with data. Data flows in many directions across and through the enterprise, making it difficult to understand where the data that’s about to be used came from, and how it got into its current state. To get the full technical functionality and business value from data, you need a strong sense of direction. Data lineage provides that sense of direction, acting as GPS for your data.
|
Неважно, кто использует данные – люди или машины – важно, что при этом они перемещаются. Данные путешествуют по всей компании, что затрудняет понимание, откуда они поступают и как они попали в свое текущее положение. Чтобы полностью раскрыть функциональные возможности и ценность данных для бизнеса, вам необходимо четкое понимание их местоположения и трансформаций. Data Lineage обеспечивает этим знанием, выступая в качестве GPS для ваших данных.
|
|
Due to the complexity of enterprise data flows, it’s key to be able to visualize data lineage. Just as GPS provides you with turn-by-turn directions and a visual overview of the completely mapped route, data lineage provides point-to-point data movement and a visual overview of data’s complete journey. And just as you might want to augment your GPS directions with data that’s close by and related (as when you look for restaurants along your travel route), data lineage helps you locate data that’s nearby and related to the data that’s currently being used. That additional data can replace or augment the analysis being performed. For example, an AI application predicting customer behavior might benefit from including related social media content.
|
Из-за сложного характера корпоративных потоков данных очень важно иметь возможность визуализировать путь данных. Так же, как GPS предоставляет вам пошаговые указания и визуальное представление нанесенного на карту маршрута, Data Lineage обеспечивает представление потока данных от системы-источника в систему-приемник. И точно так же, как вы можете дополнить свои запросы на карте другими объектами, которые находятся рядом или связаны с определенной локацией (например, когда вы ищите рестораны вдоль вашего маршрута), Data Lineage может найти данные, которые находятся поблизости и связаны с данными, которые используются в настоящее время. Эти дополнительные данные могут заменить или расширить выполняемый анализ. Например, приложение ИИ, прогнозирующее поведение клиента, может получить новую полезную информацию благодаря релевантному контенту из социальных сетей.
|
|
Data is often called the lifeblood of an organization. And today, streaming data is literally coursing through the veins of machine learning models and other AI applications with the goal of providing business intelligence. Just as it’s hard to have a good sense of direction without GPS, it’s hard to have a good sense of the data feeding AI without data lineage.
|
Данные часто называют источником жизненной силы организации. И сегодня потоковая передача данных буквально течет по венам моделей машинного обучения и других приложений ИИ с целью поддержки бизнес-анализа. Нам трудно понять, куда двигаться без GPS, точно так же сложно представить, куда направить данные для ИИ без Data Lineage.
|
|
As data increasingly drives decisions and actions – and with AI independently making some of those decisions and taking some of those actions – you’d better know where your data has been before you let it get behind the wheel. Both human and artificial intelligence are naturally smarter with data lineage.
|
Поскольку данные все чаще определяют решения и действия, а искусственный интеллект самостоятельно принимает некоторые из этих решений и выполняет часть из этих действий, вам лучше будет знать, где находились ваши данные, прежде чем вы позволите встать им у руля. И человеческий, и искусственный интеллект становятся умнее при использовании Data Lineage.
|
|
About the Author |
Об авторе |
|
Jim Harris is a recognized data quality thought leader with 20 years of enterprise data management industry experience. Jim is an independent consultant, speaker, and freelance writer. Jim is the Blogger-in-Chief at Obsessive-Compulsive Data Quality, an independent blog offering a vendor-neutral perspective on data quality. Jim is the host of the popular podcast OCDQ Radio, and is very active on Twitter, where you can follow him @ocdqblog. | Джим Харрис – признанный лидер в области качества данных с 20-летним опытом работы в отрасли управления корпоративными данными. Джим – независимый консультант, спикер и внештатный автор. У Джима свой блог «Obsessive-Compulsive Data Quality», в котором он представляет независимый от поставщика взгляд на качество данных. Джим является ведущим популярного подкаста OCDQ Radio и очень активен в Твиттере, где вы можете следить за ним @ocdqblog. |
Оригинал: https://www.sas.com/en_us/insights/articles/data-management/data-lineage—making-artificial-intelligence-smarter.html
Перевод: https://www.sas.com/ru_ru/insights/articles/data-management/data-lineage—making-artificial-intelligence-smarter.html
Материалы обработал: Евгений Бартов
Больше контента от наших переводчиков, редакторов по ИТ/медицине смотрите на канале https://t.me/alliancepro