Data Lineage

Data lineage: Making artificial intelligence smarter

Data Lineage делает искусственный интеллект умнее

Imagine you work in an office building in the bustling center of a large city. On your lunch break, you go for a walk to get some exercise and clear your head. Half an hour later, you realize that you haven’t been paying attention to your surroundings and don’t know where you are – but you need to get back to the office quickly. You pull out your smartphone and use a few trusty GPS-enabled apps to see your exact location, the path you took to get there and the fastest route back to the office. You even get some recommendations for quick lunch stops along the way. That’s a good analogy for data lineage, which details the journey data took to get from where it started to where it is now. These days, data lineage is particularly important in the context of artificial intelligence (AI). But before we delve into that, let’s look at a few definitions. Представьте, вы работаете в оживленном центре мегаполиса. На обеденном перерыве вы отправляетесь на прогулку, чтобы потренироваться или просто проветрить мозги. Через полчаса вы понимаете, что не знаете, где находитесь, но в офис нужно скорее вернуться. Тогда вы достаете смартфон и используете надежное приложение с поддержкой GPS, чтобы увидеть ваше точное местоположение. С его помощью вы прокладываете путь, которым добрались до нынешней точки, и маршрут обратно в офис. Это хорошая аналогия для Data Lineage – это детализация данных маршрута от начальной точки до конечной. В наши дни Data Lineage особенно важен в контексте искусственного интеллекта (ИИ). Но прежде чем углубляться в эту тему, давайте рассмотрим несколько определений.

Data lineage defined

 

Что такое Data Lineage

 

As it traces data’s path from its origins to the current location, data lineage shows many important details. These include technical, business and operational metadata – information that describes the following items:

 

Data Lineage показывает подробные сведения о потоке данных от системы‑источника к системе-приемнику и позволяет отследить преобразования и взаимосвязи как технических, так и бизнес-метаданных. Иными словами, это информация, которая описывает элементы:

 

  • Origins. Data lineage shows where and when data was created or captured, and where it is stored and maintained. This applies to both internal and external data sources.

 

  • Происхождение. Data Lineage показывает, где, когда и каким образом были созданы или получены данные, а также как они хранятся и ведутся. Это относится как к внутренним, так и к внешним источникам данных.

 

  • Characteristics. What the data means in business and technical terms is known as its characteristics. Business metadata provides a glossary of human language descriptions of data that business users understand. Technical metadata provides the language that data models, applications and their proprietary interfaces use to describe the data and its structure.

 

  • Характеристики. Описывают как с бизнес, так и с технической точки зрения, для чего предназначены данные. Бизнес метаданные представляют собой глоссарий с описанием данных на языке, понятном бизнес-пользователям. Технические метаданные — это описание структуры и формата данных приложений, моделей, интерфейсов.

 

  • Relationships. This shows how the data is related, both within itself (e.g., hierarchies) and to other data – including key-based relationships, associations, dependencies, copies or derivatives.

 

  • Связи. Они показывают, как данные связаны между собой (например, иерархии) и с другими данными, в том числе связи по ключу, ассоциации, зависимости, копии или производные.

 

  • Movements. Movement is all about where the data has been. In today’s hybrid data ecosystems, data moves around a lot in multiplatform environments, from source to staging and sandboxes, to data warehouses and data lakes, and into analytics tools and reports that provide business intelligence. This point-to-point data flow – or data integration from source to current reference point to all destinations beyond – must be fully mapped to reflect a true sense of direction regarding data’s movement.

 

  • Потоки данных. В современных гибридных экосистемах данные постоянно перемещаются между различными системами — от источника во временные области, от хранилища данных в озера данных (Data Lake), а также в аналитические инструменты и отчетные формы для анализа. Такой поток данных должен быть полностью наглядным для однозначного понимания каждой трансформации при перемещении данных.

 

  • Processes. It’s important to know what processes the data passed through that may have influenced its values, formatting or filtering, such as data quality, modeling, preparation and integration.

 

  • Процессы. Важно понимать, в каких процессах участвуют данные (повышение качества данных, подготовка и интеграция, моделирование) и как эти процессы влияют на изменение значений, форматов и структуры данных.

 

  • Transformations. This refers to how data was altered during its journey. This includes translations, transformations, data quality rules, data quality test results and reference data values.

 

  • Трансформации. Описывают, как данные были изменены при передаче. К типичным трансформациям можно отнести транслитерацию, преобразования, правила проверки качества данных, значения контрольных значений.

 

  • Users. This relates to who or what uses the data. Which people and tools have access to the data and for what reasons? When and how often is the data consumed by these users?

 

  • Пользователи. Кто или что использует данные? Кто из пользователей, с помощью каких инструментов, как и как часто работает с данными?

 

Data lineage provides a complete audit trail for data, which is increasingly important for compliance with regulations such as the EU GDPR. Data lineage enables you to trace data quality issues and other errors back to their root cause and perform impact analysis on proposed changes. As it links data in disparate systems at a logical level by showing how metadata is connected, data lineage helps identify business rule discrepancies and data incompleteness. Data lineage also helps data stewards react to issues before they become a problem, define strategies for data quality improvement and promote effective reuse of existing information.

Data Lineage обеспечивает полный аудит данных, что становится все более важным для соблюдения нормативных актов, таких как GDPR. Data Lineage позволяет отследить проблемы качества данных и другие ошибки до их первопричины и провести анализ влияния новых изменений на существующие объекты. Поскольку Data Lineage связывает данные в разрозненных системах на логическом уровне, показывая, как связаны метаданные, он помогает выявить несоответствия и неполноту данных. Data Lineage также помогает оперативно реагировать на инциденты с данными до того, как они станут проблемой, определять стратегии улучшения качества данных и способствовать эффективному повторному использованию существующей информации.

 

                

Defining artificial intelligence in the context of lineage

 

Определение искусственного интеллекта в контексте Data Lineage

 

Artificial intelligence (AI) is an umbrella term that covers a variety of techniques and approaches that make it possible for machines to learn, adjust and act with intelligence comparable to the natural intelligence of humans. Lineage has direct implications for many of the techniques and approaches of AI, such as:

 

Искусственный интеллект (ИИ) – это общий термин, охватывающий множество методов и подходов, которые позволяют машинам учиться, адаптироваться и действовать на уровне с человеческим интеллектом. Data Lineage имеет прямое воздействие на многие методы и подходы ИИ, такие как:

 

  • Neural networks. AI classifies data to make predictions and decisions in much the same way a human brain does. A neural network is a computing system made up of interconnected units (like neurons) that process data from external inputs, relaying information between each unit. The neural network requires multiple passes at the data to find connections and derive meaning from undefined data. Neural networks benefit greatly from the movement aspects of data lineage – because connecting those dots directs its search for meaning.

 

  • Нейронные сети. ИИ классифицирует данные, чтобы строить прогнозы и принимать решения во многом так же, как это делает человеческий мозг. Нейронная сеть – это вычислительная система, состоящая из взаимосвязанных блоков (нейронов), которые обрабатывают данные с внешних входов, передавая информацию между каждым блоком. Нейронная сеть предполагает многократные проходы по данным для поиска связей и извлечения пользы из неопределенных данных. Нейронные сети выигрывают от правильно выстроенных потоков данных в Data Lineage, упрощающих поиск значений.

 

  • Natural language processing. AI that enables interaction, understanding and communication between humans and machines by analyzing and generating human language, including speech, is called natural language processing (NLP). NLP allows humans to communicate with computers using normal, everyday language to perform tasks. Natural language processing relies heavily on the human language data descriptions provided by the characteristics aspect of data lineage.

 

  • Обработка естественного языка. Искусственный интеллект, который обеспечивает взаимодействие, понимание и общение между людьми и машинами посредством анализа и генерирования человеческого языка, включая речь, называется обработкой естественного языка (NLP). NLP позволяет людям общаться с компьютерами, используя обычный, повседневный язык для выполнения задач. NLP во многом опирается на данные человеческого языка, используя описательные свойства Data Lineage.

 

  • Machine learning. AI that’s focused on giving machines access to data and letting them learn for themselves is known as machine learning. Machine learning automates analytical model building using methods from neural networks, statistics, operations research and physics – and it finds hidden insights in data without being explicitly programmed where to look or what to conclude. Machine learning delves into the relationships, processes and transformations aspects of data lineage during its undirected exploration of data’s potential.

 

  • Машинное обучение. Это когда ИИ нацелен на то, чтобы дать машинам доступ к данным и дать им возможность учиться самостоятельно. Машинное обучение автоматизирует построение аналитической модели с использованием методов нейронных сетей, статистики, исследования операций и физических явлений, а также находит скрытые закономерности в данных без прямого указания что и где искать. Машинное обучение опирается на Data Lineage для определения взаимосвязей и трансформаций объектов в своих алгоритмах.

 

  • Deep learning. With deep learning, AI uses huge neural networks with many layers of processing to learn complex patterns in large amounts of data and perform humanlike tasks, such as recognizing speech or understanding images and videos (also known as computer vision). This method takes advantage of advances in computing power and improved training techniques. Deep learning depends on the users’ aspect of data lineage because its education is guided by analyzing how users interact with data.

 

  • Глубокое обучение. При глубоком обучении ИИ использует огромные нейронные сети с большим количеством слоев обработки, чтобы изучать сложные закономерности на больших объемах данных и выполнять задачи, подобные человеческим. Например, распознавать речь или понимать изображения и видео (также известно как компьютерное зрение). Этот метод требует использования значительных вычислительных ресурсов и использует улучшенные методы обучения. Глубокое обучение зависит от пользовательского аспекта Data Lineage, позволяющего определить, как те или иные пользователи работают с данными.

 

AI plays an ever-increasing role in enterprise solutions. Unlike robotics, which automate manual tasks, AI automates computing tasks. That’s especially valuable given the large and diverse data sets most organizations use today.

 

ИИ играет все возрастающую роль в корпоративных решениях. В отличие от робототехники, которая автоматизирует ручные задачи, ИИ автоматизирует вычислительные задачи. Это особенно ценно, учитывая большие и разрозненные наборы данных, которые сегодня используют большинство организаций.

 

While the human role in enterprise solutions will never disappear, it’s foolish to argue against the advantage of AI-augmented humans. There’s a tremendous boost to human productivity when time-consuming tasks (like analyzing gigabytes of data) can be fully automated. But for AI to reach its full potential, the data feeding its algorithms and models needs to be well-understood. Data lineage plays a vital role in understanding data – making it a foundational principle of AI.

 

В то время как человеческая роль в корпоративных решениях никогда не исчезнет, глупо спорить с преимуществами ИИ. Благодаря ему значительно повышается производительность труда человека, когда трудоемкие задачи (например, анализ гигабайтов данных) могут быть полностью автоматизированы. Но для того, чтобы ИИ полностью раскрыл свой потенциал, данные алгоритмов и моделей должны быть понятными. Data Lineage играет жизненно важную роль в понимании данных, являясь основополагающим принципом ИИ.

 

Data lineage: GPS for data

 

Data Lineage: GPS для данных

 

Whether it’s by humans or machines, using data means taking a journey with data. Data flows in many directions across and through the enterprise, making it difficult to understand where the data that’s about to be used came from, and how it got into its current state. To get the full technical functionality and business value from data, you need a strong sense of direction. Data lineage provides that sense of direction, acting as GPS for your data.

 

Неважно, кто использует данные – люди или машины – важно, что при этом они перемещаются. Данные путешествуют по всей компании, что затрудняет понимание, откуда они поступают и как они попали в свое текущее положение. Чтобы полностью раскрыть функциональные возможности и ценность данных для бизнеса, вам необходимо четкое понимание их местоположения и трансформаций. Data Lineage обеспечивает этим знанием, выступая в качестве GPS для ваших данных.

 

Due to the complexity of enterprise data flows, it’s key to be able to visualize data lineage. Just as GPS provides you with turn-by-turn directions and a visual overview of the completely mapped route, data lineage provides point-to-point data movement and a visual overview of data’s complete journey. And just as you might want to augment your GPS directions with data that’s close by and related (as when you look for restaurants along your travel route), data lineage helps you locate data that’s nearby and related to the data that’s currently being used. That additional data can replace or augment the analysis being performed. For example, an AI application predicting customer behavior might benefit from including related social media content.

 

Из-за сложного характера корпоративных потоков данных очень важно иметь возможность визуализировать путь данных. Так же, как GPS предоставляет вам пошаговые указания и визуальное представление нанесенного на карту маршрута, Data Lineage обеспечивает представление потока данных от системы-источника в систему-приемник. И точно так же, как вы можете дополнить свои запросы на карте другими объектами, которые находятся рядом или связаны с определенной локацией (например, когда вы ищите рестораны вдоль вашего маршрута), Data Lineage может найти данные, которые находятся поблизости и связаны с данными, которые используются в настоящее время. Эти дополнительные данные могут заменить или расширить выполняемый анализ. Например, приложение ИИ, прогнозирующее поведение клиента, может получить новую полезную информацию благодаря релевантному контенту из социальных сетей.

 

Data is often called the lifeblood of an organization. And today, streaming data is literally coursing through the veins of machine learning models and other AI applications with the goal of providing business intelligence. Just as it’s hard to have a good sense of direction without GPS, it’s hard to have a good sense of the data feeding AI without data lineage.

 

Данные часто называют источником жизненной силы организации. И сегодня потоковая передача данных буквально течет по венам моделей машинного обучения и других приложений ИИ с целью поддержки бизнес-анализа. Нам трудно понять, куда двигаться без GPS, точно так же сложно представить, куда направить данные для ИИ без Data Lineage.

 

As data increasingly drives decisions and actions – and with AI independently making some of those decisions and taking some of those actions – you’d better know where your data has been before you let it get behind the wheel. Both human and artificial intelligence are naturally smarter with data lineage.

 

 

Поскольку данные все чаще определяют решения и действия, а искусственный интеллект самостоятельно принимает некоторые из этих решений и выполняет часть из этих действий, вам лучше будет знать, где находились ваши данные, прежде чем вы позволите встать им у руля. И человеческий, и искусственный интеллект становятся умнее при использовании Data Lineage.

 

 

About the Author

Об авторе

Jim Harris is a recognized data quality thought leader with 20 years of enterprise data management industry experience. Jim is an independent consultant, speaker, and freelance writer. Jim is the Blogger-in-Chief at Obsessive-Compulsive Data Quality, an independent blog offering a vendor-neutral perspective on data quality. Jim is the host of the popular podcast OCDQ Radio, and is very active on Twitter, where you can follow him @ocdqblog. Джим Харрис – признанный лидер в области качества данных с 20-летним опытом работы в отрасли управления корпоративными данными. Джим – независимый консультант, спикер и внештатный автор. У Джима свой блог «Obsessive-Compulsive Data Quality», в котором он представляет независимый от поставщика взгляд на качество данных. Джим является ведущим популярного подкаста OCDQ Radio и очень активен в Твиттере, где вы можете следить за ним @ocdqblog.

 

Оригинал: https://www.sas.com/en_us/insights/articles/data-management/data-lineage—making-artificial-intelligence-smarter.html
Перевод: https://www.sas.com/ru_ru/insights/articles/data-management/data-lineage—making-artificial-intelligence-smarter.html