ML-технології навколо нас

Термін Machine Learning (машинне навчання) посів важливе місце в сьогоденні — як у трендах новин, так і на ринку праці у сфері автоматизації. Проте ML залишається досить складною темою через свою всеосяжність, новизну та високі темпи розвитку, і залишає безліч питань. Спробуємо розібратись, що таке машинне навчання, дамо основні визначення та поділимось досвідом щодо прикладних завдань, які можна вирішувати за допомогою ML.

 

Машинне навчання — це набір методів у галузі штучного інтелекту, що їх застосовують для створення моделі, яка навчається на певному наборі даних. В процесі навчання модель обробляє різноманітні масиви вхідних даних і знаходить у них закономірності. Для побудови таких моделей використовуються засоби математичної статистики, чисельні методи, математичний аналіз, методи оптимізації, теорія ймовірності, нейронні мережі та інші техніки роботи з даними у цифровій формі.

Якщо узагальнити, ML — це інструмент, за допомогою якого вирішується певний клас задач, пов’язаних з необхідністю виявити закономірності у складних багатопараметричних завданнях, що не можуть бути вирішені класичними методами через надто велику кількість параметрів чи неочевидність їх пов’язаності.

З чого все починається
Розробка ML‑рішення — це комплексний процес, що вимагає взаємодії різних систем та навичок багатьох фахівців. Наприклад, для збирання та збереження даних відповідний експерт — Data Engineer — розробляє ETL‑процеси та взаємодіє з базами даних. Інший фахівець — Data Analyst — проводить аналіз даних, шукає закономірності та взаємозв’язки, перевіряє статистичні гіпотези. Разом з ними працює ML‑інженер, який розробляє модель рішення, експериментує з різними його архітектурами, шукає оптимальні параметри для отримання найкращого результату.

З 2016 року компанія AM‑BITS успішно реалізує проєкти на основі технологій Big DataAI та ML, а поштовхом до цього стало партнерство з американським розробником Hortonworks, що є одним з лідерів галузі. З 2019 року AM‑BITS отримав статус «срібного» партнера компанії Сloudera. Наразі AM‑BITS об’єднує досвідчену та сертифіковану команду, що складається з понад 25 експертів з роботи з корпоративними даними. Компанія має досвід у галузі обробки та дослідження даних, зокрема за такими напрямками, як розробка корпоративних платформ даних, впровадження рішень в області обробки та аналізу даних, побудова моделей машинного навчання для технічних і бізнес-задач в різних секторах економіки (фінанси, телеком, медіа).

Під час роботи над ML‑проєктами експерти AM‑BITS надають перевагу платформі Cloudera Data Science Workbench. Завдяки інтегрованій в CDP кластер CDSW платформі різні фахівці мають можливість ефективно реалізовувати проєкти в галузі ML і Data Science (аналіз, обробка та надання даних для аналітичних інструментів) (рис. 1).

Рис. 1. Етапи створення ML‑проєкту

Відповідно до моделі CDSW розробка кожної ML‑моделі ведеться в окремому проєкті, де можуть взаємодіяти члени команди з різними правами доступу залежно від завдань. Таким чином, можна вести розробку проєктів на загальній платформі різним командам (розробникам), при цьому дотримуючись ізольованості один від одного, що дозволяє співробітникам працювати паралельно, використовуючи тільки необхідні ресурси.

Машинне навчання для українських замовників
Практичне застосування ML‑проєктів досить широке. Так, наприклад, інженери AM‑BITS розробили рішення для прогнозування генерації сонячної електроенергії, а також систему для розрахунку очікуваного рівня її споживання. Для побудови точних прогнозів використовувались історичні дані щодо генерації/споживання електроенергії, які було збагачено інформацією щодо прогнозу погоди та інших відкритих даних. Завдяки використанню CDSW вдалося автоматизувати збір необхідних погодних даних, підбір архітектури моделі та гіперпараметрів. Метою обох проєктів було одержання короткострокового прогнозу для планування закупівель на українській енергетичній біржі.

Ось інший приклад. Фахівці компанії AM‑BITS, зокрема, розробили систему ідентифікації особи за обличчям — Face ID (рис. 2). Інженери компанії скористались останніми дослідженнями у сфері розпізнавання облич і на їх основі побудували власне рішення. Модифікувавши та оптимізувавши певні існуючі алгоритми в рамках вирішення поставленої задачі, фахівці отримали модель, яка дозволяє з високою точністю розпізнавати обличчя людей, навіть якщо частина лиця прихована, наприклад, респіраторною маскою. Серед цікавих проєктів можна згадати розробку системи біометричної верифікації клієнтів за голосовими даними.

 

Рис. 2. Система ідентифікації особи за обличчям — Face ID

Задля ефективного порівняння голосових відбитків було побудовано нейромережеву (DNN, Deep Neural Network) модель, що навчається за допомогою бібліотеки PyTorch. Цьому етапу передували отримання голосових відбитків та їх ідентифікація за набором мел-кепстральних коефіцієнтів. Ідентифікація особи за голосом може бути використана для пришвидшення обслуговування в контакт-центрі, миттєво надаючи оператору дані щодо абонента, а також попередню історію комунікацій з метою покращення клієнтського досвіду.

Але можливості машинного навчання не обмежуються прогнозуванням чи ідентифікацією.

Наразі більшість інформації — новини, аналітика, прогнози тощо — створюється та споживається у відеоформаті. Ми створюємо безліч інформаційних повідомлень, фіксуємо щоденні події та ділимось ними з аудиторією, але знайти повторно корисну або просто цікаву інформацію часом надзвичайно складно або навіть неможливо.

З метою полегшення роботи численних аналітиків експерти AM‑BITS розробили багатонодову лінійно-масштабовану платформу для автоматичного аналізу відео за допомогою апаратних графічних процесорів. Для цього були створені моделі машинного навчання з використанням згорткових нейронних мереж (Convolutional Neural Networks) і додаткових моделей оптимізації та відстеження об’єктів. Для швидкої підготовки датасету, необхідного для навчання моделей, було введено додаткову підсистему відеорозмітки. Крім того, розроблено інтерфейс для ведення відеотеки, її перегляду та аналізу, функціонал дозволяє завантажувати відео та обирати моделі аналізу для його обробки (рис. 3).

Рис. 3. Аналіз графічних об’єктів у відеопотоці

Автоматичне тегування та аналіз відеофайлів дозволяють не лише швидко знайти необхідну інформацію серед переглянутих матеріалів, але й проаналізувати та позначити необхідну інформацію в безперервному відеопотоці, що полегшує роботу експертів, аналітиків, журналістів та інших зацікавлених осіб. Ідентифікацію особи за фото Face ID можна використовувати для швидкого та безпечного підтвердження особи при використанні різних додатків або для запобігання шахрайству та підробленню документів.

Також цей інструмент стане в нагоді у справі виявлення колабораціоністів, бо тегування та аналіз відеоматеріалів можна використовувати не лише для обробки стрічки новин, але і для виявлення на відео військових злочинів з метою подальшого притягнення винних до відповідальності.

Підсумовуючи, варто зазначити, що ML перетворюються на звичний інструмент для вирішення поточних завдань, і команда AM‑BITS допомагає компаніям та організаціям досягати поставлених цілей, зокрема з допомогою цих потужних технологій.

AM-BITS International взяла участь в розробці платформи warcrimes.gov.ua для документування воєнних злочинів

Наша команда з перших днів повномасштабного вторгнення не могла стояти осторонь під час початку російської навали, ми діяли в 3х напрямках:

  • Створення інструменту для фіксації воєнних злочинів
  • Захист критичної інфраструктури
  • Підтримка медіа

 

В перші дні війни наша команда спільно з ТОВ «Інтеграційні Технології» отримала запит від офісу Генеральної Прокуратури на розробку та впровадження інструменту для фіксації воєнних злочинів.  Так виникла інтелектуальна громадська ініціатива «IT Defends», яка поєднала представників AM-BITS InternationalDataslab GmbHТОВ «Інтеграційні Технології» та фрілансерів, всі працювали спільно, швидко та на безоплатній основі.

 

Інженери та програмісти екстрено вивчали міжнародні приклади, вимоги та особливості реалізації подібних інструментів з метою якнайшвидше створити ефективний, зручний та безпечний для користування інструмент.

Найчастіше підтвердженням злочину служать фото та відео матеріали, зафіксовані свідками подій. На жаль, не всі зібрані матеріали можуть бути визнаними доказами в суді через порушення основних вимог до доказів: незмінність даних, повнота даних, локалізація, та наявність контактів свідка.

Для збору та зберігання даних ми протягом тижня розробили і розгорнули катастрофостійку, легко масштабовану та безпечну хмарну інфраструктуру. Для внесення даних свідками подій було розроблено вебсайт https://warcrimes.gov.ua, а також додатки RWC для IPhone та  Android.

 

Ми збираємо лише дані, необхідні для верифікації контенту для використання в суді за міжнародними стандартами. Ми постійно балансуємо між зручністю користування та виконанням вимог, заповнюючи деякі поля автоматично, мінімізуючи обов’язкові поля, зберігаючи, водночас, всю необхідну інформацію. З метою убезпечення свідків, матеріали не зберігаються локально, і при перевірці телефона ворожими військовими, галерея залишається пустою.

Щоби зафіксувати воєнний злочин потрібно:
 Залишити інформацію про себе;

 Описати порушення, зазначивши точне місце та усі подробиці;

 Завантажити фото або відео докази.

Усі надісланні дані надійно захищені та систематизовані.

Наразі платформа надає можливість кожному громадянину України зафіксувати воєнні злочини та злочини проти людяності, що вчиняються в Україні російськими військовими та парамілітарними організаціями з метою кримінального переслідування винних згідно з українським законодавством, в Міжнародному кримінальному суді у Гаазі та спеціальному трибуналі після його створення. Наразі платформу передано Офісу Генерального прокурора з метою подальшої експлуатації.

Навіщо потрібен ML та які завдання він вирішує? Машинне навчання (ML). Частина 3

ML – це інструмент, за допомогою якого вирішується певний клас завдань.

Перш ніж розглянути основні типи завдань, які вирішують алгоритми машинного навчання, розглянемо наступний приклад, щоб зрозуміти, чому ці завдання не можна вирішити (або так ефективно вирішувати) за допомогою інших відомих методів.

 

Припустимо, ви хочете мати програму, яка, отримавши на вході фотографію фрукта, могла б сказати: це яблуко чи мандарин? (Замість яблука та мандарину може бути як ракова пухлина на рентгенівському знімку, так і визначення банком шахрайських транзакцій).

1) Найпростіший спосіб вирішити цю проблему – посадити людину з гострим зором, яка б підписувала отримане фото. Очевидно, що такий підхід має свої недоліки:
a. Людина може втомитися, не вийти на роботу
b. Людині потрібно платити заробітну плату, оформити страховку, їй потрібно шукати заміну, коли вона захоче у відпустку
c. Людина (порівняно з комп’ютером) досить повільно виконує поставлене їй завдання

2) Тоді ми вирішуємо замість людини написати програму, яка вирішувала б наше завдання. Ми навіть зберемо провідних експертів у світі з мандарин і яблук і попросимо їх описати програмісту всі можливі відмінності цих фруктів один від одного. В результаті, ми отримаємо програму, яка на основі кольору фрукта, довжини листа та довжини фрукта, каже нам – яблуко це або мандарин. Система працює якийсь час, доки нам не потрапить яблуко з формою листа мандарину або яблуко червоного (майже помаранчевого кольору) як мандарин або яблуко досить круглої форми. Людина відразу побачить, що це яблуко, але наша програма скаже: це мандарин! Тоді ми знову зберемо експертів, обговоримо, чому у нас тут помилка, додамо в програму ще низку правил і так триватиме щоразу, поки ми не досягнемо бажаного результату. Мінуси такого підходу:

а. Висока вартість розробки (оплата експертів, програмістів тощо)
b. Отримана програма буде дуже складною та важкою для підтримки.
c. Великі часові витрати на розробку
d. Неможливість одразу виловити всі можливі залежності у предметній галузі, та описати всі можливі випадки, відмінності.

3) Зрозумівши, що варіанти 1 та 2 нам не підходять, ми шукаємо альтернативні способи вирішення цього завдання та приходимо до алгоритмів машинного навчання. Використовуючи необхідні алгоритми машинного навчання, ми отримуємо програму, яка, навчившись на великій кількості фото яблук та мандарин, вирішує нашу проблему. Із мінусів, потрібна велика кількість розмічених даних (велика кількість фотографій яблук та мандаринів, позначених відповідно).

А тепер уявімо, що у нас не 2 фрукта, а 100, і тут у нас варіант 2 стає зовсім нереалізованим. До того ж це можуть бути не фрукти, а розпізнавання злоякісної пухлини на рентгенівських знімках, детекція шахрайських дій з банківською картою, виявлення спаму у пошті, розпізнавання мови тощо. Є частина завдань, вирішувати які просто нераціонально (а часом неможливо) без участі ML.

Визначившись із питанням навіщо нам потрібен ML, розберемо, для яких завдань він підходить.

Основні завдання, які вирішують алгоритми машинного навчання – це завдання, які важко або неможливо, або нераціонально вирішувати безпосереднім, “явним” (explicit) програмним або аналітичним способом. Серед цих завдань (на кшталт вирішуваних проблем) можна виділити наступні 4:

 

 

 

 

Регресія — це завдання прогнозування значення безперервної числової величини для певного об’єкта на основі його характеристик. Наприклад, прогноз цін на ринку нерухомості, прогноз температури, кількість грошей, витрачених у магазині клієнто тощо.

Класифікація — це завдання передбачити категоріальний атрибут об’єкта. Наприклад, категоризація вхідних листів на спам і не спам, завдання кредитного скорингу, класифікація зображень тощо.

Виявлення аномалій — це завдання ідентифікації елементів, подій або спостережень, які не відповідають очікуваному шаблону або іншим елементам у наборі даних. Прикладами такого завдання може бути: детекція шахрайства, детекція відмови працездатності системи, пошук помилок у тексті тощо.

Кластеризація — це завдання групування подібних об’єктів у кластери. На відміну від задачі класифікації, кількість кластерів і до якого кластера (до якої групи) належать об’єкти в наборі даних заздалегідь невідомі.

Що таке AI, ML та Data Science? Машинне Навчання (ML). Частина 2

Отже, ми продовжуємо цикл статей про AI та ML. Для початку розглянемо ключові терміни.

Що таке Штучний інтелект (AI), ML та Data Science?

Давайте спробуємо відповісти на питання: що таке Штучний інтелект, ML, Data Science та яка різниця між ними?

Найчастіше під терміном Штучний інтелект ми маємо на увазі, що це якась система (абстракція), що має властивості інтелекту людини та яка може мислити, вирішувати завдання (у тому числі творчі), для виконання яких використовується розумовий процес. Мабуть, найважливіше, що треба знати – штучного інтелекту, описаного вище, на даний момент не існує. Занадто складні наші мізки і свідомість, загалом, для того, щоб їх оцифрувати чи зробити математичну модель, яка копіює роботу нашої свідомості. Проте, є спроби (зокрема досить вдалі) імітації діяльності нашого мозку для вирішення тих чи інших завдань. Одним із напрямків Штучного інтелекту, що підпадає під таке формулювання, є Machine Learning (ML).

Перш ніж перейти до ML, дамо строгіше визначення Штучного інтелекту.

what_is_ai_ml_img1

Штучний інтелект, (Artificial Intelligence, AI) – інженерно-математична дисципліна, що займається створенням програм та пристроїв, що імітують когнітивні (інтелектуальні) функції людини, що включають, у тому числі, аналіз даних та прийняття рішень.

Сильний ШІ / Людиноподібний ШІ (Strong AI, Super‑AI) — інтелектуальний алгоритм, здатний вирішувати широкий спектр інтелектуальних завдань, як мінімум, в рівень з людським розумом.
Слабкий ШІ / Спеціальний ШІ (Narrow AI, Weak AI) — інтелектуальний алгоритм, що імітує людський розум для вирішення конкретних вузькоспеціалізованих завдань (гра в шахи, розпізнавання осіб, спілкування людською мовою, пошук інформації тощо).

what_is_ai_ml_img2

Машинне навчання – клас методів штучного інтелекту, характерною рисою яких є не пряме розв’язання задачі, а навчання за рахунок досвіду розв’язків безлічі подібних завдань. Для побудови таких методів використовуються засоби математичної статистики, чисельних методів оптимізації, математичного аналізу, теорії ймовірностей, теорії графів, а також різні техніки роботи з даними в цифровій формі.

Припустимо, ми маємо алгоритм, за допомогою якого можна торгувати на біржі. Він не знає про існування біржі, трейдерів, брокерів тощо, — це просто математична модель, яка навчена торгувати на сотнях тисяч прикладів. Аналогічно, алгоритм, який керує безпілотним автомобілем, не має уявлення про те, що таке автомобіль, дорога, двигун, як він працює, і так далі. Алгоритм навчений на великій кількості прикладів як вирішувати ту чи іншу задачу, але не має здатності виходити за рамки сформульованої заздалегідь задачі.

Алгоритми машинного навчання – це програмна реалізація тієї чи іншої математичної моделі. Ця модель, на підставі великої кількості даних, “навчається” вирішувати те чи інше завдання, знаходячи потрібні закономірності в даних. Саме машинному навчанню та принципам роботи, реалізації його у проектах і буде присвячена основна частина серії статей.

what_is_data_science

Data science – це узагальнена назва сфери діяльності, професії, в якій основний акцент робиться на роботі з даними. Дата Саєнтистом може бути людина, яка працює з базами даних, або яка розробляє алгоритми машинного навчання, так і спеціаліст, який обслуговує інфраструктуру, призначену для роботи з даними.

Data science – це таке ж узагальнене визначення, як і Сomputer science.

Тепер, розібравшись у термінах, залишається питання: “А навіщо потрібен ML?”

Продовження та відповідь на це питання читайте у наступній статті (частина 3) …

AM-BITS за підтримки Cloudera – Технологічний партнер конференції UAFIN.TECH 2021

Запрошуємо наших друзів та знайомих на спільну презентацію представників AM-BITS та Cloudera під час конференції UAFIN.TECH 2021, яка відбудеться 8го грудня в КВЦ «Парковий»UAFIN.TECH 2021 – це унікальна концентрація провідних експертів, інвесторів, банкірів та топ-менеджерів найбільших компаній. Спільна доповідь відбудеться в потоці «Майбутнє технологій».

 

Вперше в Україні, наживо, представники компанії Cloudera розповідатимуть про новітні тенденції та, разом з CEO AM-BITS, Євгеном Манжуляновим, поділяться досвідом та успішними кейсами у фінансовій сфері.

Нагадаємо, що AM-BITS – єдиний партнер Cloudera в Україні зі статусом Cloudera Silver Partner, що підтверджує наявність експертної команди та відповідного досвіду.

До зустрічі!

———–

Cloudera – американська компанія, розробник найбільш повного та всеохоплюючого комплексу програмних продуктів для роботи з великими даними. Комплексна платформа надає інструменти для роботи з даними для кожного етапу життєвого циклу даних, та забезпечує всі вимоги щодо роботи з чутливими даними, включаючи безпеку даних, керування даними, машинне навчання, аналітику, тощо. Всі інструменти оптимізовані для хмарної та гібридної інфраструктури. 9 з 10 найбільших банків світу працюють з Cloudera.

Машинне навчання (ML).Частина 1

Вступ

Термін машинне навчання зараз можна почути буквально на кожному кроці. Поняття Machine Learning (ML) міцно зайняло своє місце як у трендах новин, так і на ринку праці у сфері автоматизації. Звідусіль долинають історії успішного впровадження “Штучного Інтелекту” в процеси компаній, а професія data scientist отримує звання “The Sexiest Job of the 21st Century”.

Проте, незважаючи на величезну популярність, ML залишається досить складною для розуміння темою через свою всеосяжність, новизну та високі темпи розвитку (що породжує купу міфів), і залишає безліч питань без відповіді для людей, які намагаються розібратися в цій темі.

 

Основна мета цієї серії статей – доступною мовою розповісти про те, що таке ML, де і як воно застосовується, які завдання вирішує, та розвіяти кілька міфів, пов’язаних із цим поняттям, але найголовніше – познайомити Вас з базовими поняттями та концепціями, необхідними для реалізації власного ML проекту. У цій статті ми розглянемо, що таке Машинне навчання, дамо основні визначення Machine Learning, дізнаємось з яких етапів складається реалізація ML проекту, та які завдання можна вирішувати за допомогою Machine Learning.

Ми розпочнемо з базових понять і поступово будемо заглиблюватися в сутність теми, але спочатку – розглянемо простий приклад.

ml_case_cars

Припустимо, що ми маємо агенцію, яка перепродає автомобілі, та існує потреба в інструменті, який дозволив би на основі доступної інформації про автомобіль передбачити його вартість на вторинному ринку (за скільки його можна буде перепродати). Компанії потрібно аналізувати велику кількість оголошень з різних сайтів оголошень, та першою реагувати на вигідні пропозиції (менше ніж за секунду після того, як вони з’являться). Але щодня з’являється безліч оголошень на різних ресурсах, і відстежити їх вручну практично неможливо.

 

Для задоволення цієї потреби ми плануємо розробити програмного помічника, який за нас перебирав би оголошення і знаходив релевантні. Він би передбачав ціни на авто на вторинному ринку, і, якщо його прогнозована ціна вища, ніж та, за яку ми можемо це авто купити, оголошення відправляється експерту на розгляд.(Читати детальніше про кейс).

 

Тоді для вирішення завдання нам знадобиться:

1) Чітко сформулювати завдання (побудувати алгоритм прогнозування ціни автомобіля на вторинному ринку на основі його властивостей).

2) Зібрати дані про автомобілі, що зберігаються на сайтах оголошеннь. На основі цих даних ми навчатимемо алгоритм і будуватимемо прогнози.

3) Зробити попередню обробку даних (привести дані у табличний вигляд, очистити, збагатити дані, обробити пропуски).

4) Побудувати предиктивну модель.

5) Розробити програмну інфраструктуру під цю задачу та інтегрувати в неї наш алгоритм із пункту 4.

 

Реалізувавши ці кроки, ми отримаємо програму, яка сама збирає оголошення про продаж автомобілів з сайтів оголошень, аналізує їх та передає експерту лише ті, що з великою ймовірністю є фінансово вигідними.

 

Як бачимо, ML – це не чарівна паличка, яка сама по собі вирішує будь-яке завдання, а комплексний інструмент, який потрібно правильно інтегрувати, а ефективному результату завжди передує процес дослідження та розробки власне ML алгоритмів.

Наш приклад демонструє, як можна використовувати Машинне навчання (ML) для автоматизації бізнес-процесів, а також, що важливіше, ознайомлює нас з основними пунктами (1-5) розробки ML проекту. Слід враховувати, що реалізація ML проекту – це комплексне і досить складне завдання. Щоб отримати більше уявлення про те, що таке Машинне Навчання, – пропоную ознайомитись з наступною статтею “Що таке AI, ML та Data Science?

А поки що, можете ознайомитися з ML кейсами, реалізованими нашою командоюhttps://am-bits.com/solutions/analytics-projects

Як мігрувати Hortonworks Data Platform на Cloudera Data Platform?

Навіщо мігрувати з HDP / CDH?

 

У 2019 компанія Cloudera презентувала нову платформу – Cloudera Data Platform, яка позиціонується як універсальне рішення, що дозволяє управляти даними в будь-якому середовищі: Public Cloud, bare metal, Private Cloud, а також гібридна хмара.

migration_Hortonworks_Cloudera_1

Відповідно до нової стратегії розвитку, презентованої головним технічним директором Cloudera по експлуатації в регіоні EMEA Яном Кунігком (Jan Kunigk), і старшим менеджером з інженерних рішень Cloudera в Німеччині, Австрії, Східній Європі і Росії Флоріаном фон Вольтером (Florian von Walter) – журнал “Storage News” № 1 (76), 2020, розвиток рішень на базі Hadoop on premise є першим етапом, далі передбачається перенесення потужностей в Public Cloud, і, вже наприкінці, в Hybrid Cloud.

З огляду на нову стратегію Cloudera, рекомендується мігрувати з платформ CDH – Cloudera Distribution of Hadoop і HDP – Hortonworks Data Platform на CDP, оскільки їх підтримка буде припинена після 31 грудня 2021, тобто, ці продукти не будуть оновлюватися, і неможливо буде закупити технічну підтримку на рішення на базі HDP, CDH. Це означає, що корпоративним клієнтам, з метою збереження функціональності своїх рішень, побудованих на базі HDP, CDH необхідно провести міграцію на актуальний стек.

Чому CDP?

 

Ми рекомендуємо користувачам HDP і CDH провести міграцію на Cloudera стек, оскільки Cloudera пропонує найбільш повний набір інструментів для роботи з корпоративними даними:

  • Cloudera Data Platform – платформа для організації збору і зберігання даних, для побудови EDW, EDH
  • EDGE & FLOW MANAGEMENT – для управління, контролю і моніторингу кінцевих пристроїв
  • STREAMS MESSAGING – для доставки великих обсягів даних, що надходять в реальному часі.
  • STREAM PROCESSING & ANALYTICS – для отримання аналітичних даних в режимі реального часу.
  • DATA SCIENCE WORKBENCH – забезпечує можливість аналізу даних, використання AI, ML інструментів.
  • Cloudera Manager – підсистема управління кластером.
  • Cloudera також пропонує повний перелік інструментів, які допомагають вирішити завдання, пов’язані з Data Security, Data Management, Data Governance.
  • Для рішень Cloudera доступна повноцінна технічна підтримка від вендора.

Порівняйте функції і компоненти розглянутих платформ.

Важливою зміною політики вендора є відсутність безкоштовного дистрибутива CDP у вільному доступі. У той самий час, додаткові функції і інструменти перетворюють Cloudera стек в найзручніший і економічно ефективний інструмент для побудови рішень на базі Hadoop на корпоративному рівні.

 

Підготовка до міграції

 

Cloudera надає детальні інструкції по організації процесу міграції, передбачаючи кілька сценаріїв:

migration_HDP_CDP_3.png

Для завантаження доступні пробні версії CDP для різних середовищ:

 

Процес інтеграції

 

  1. Визначте свій варіант міграції CDP: повне оновлення або міграція з урахуванням вимог до безвідмовної роботи.
  2. Перевірте вимоги до оновлення і виконайте всі попередні умови.
  3. Визначте цільове середовище:
    • CDP on premise рекомендується для замовників, які в силу вимог законодавства або внутрішніх корпоративних політик не розглядають варіант міграції в хмару.
  4. Встановіть, перенесіть, протестуйте і підтвердіть.

 

Приклад плану міграції:

1.

Міграція DEV оточення зі стека Hortonworks (HDP / HDF) на стек Cloudera (СDP / CDF)

2 тижні

1.1

Очищення тестового середовища і підготовка вимог до інфраструктури і безпеки.

1.2

Інсталяція та конфігурація CDP DEV Environment

1.3

Перенесення розробок і даних з HDP / HDF DEV Environment в CDP DEV Environment

1.4

Тестування і тюнінг середовища CDP DEV Environment

2.

Розширення кластера TEST і міграція зі стека Hortonworks (HDP / HDF) на стек Cloudera (СDP / CDF)

2 тижні

2.1

Очищення HDP / HDF DEV Environment

2.2

Інсталяція та конфігурація CDP TEST Environment

2.3

Перенесення розробок і даних з CDP DEV Environment в CDP TEST Environment

2.4

Тестирование и тюнинг окружения CDP TEST Environment

3.

Побудова кластера PROD на стеку Cloudera (СDP / CDF)

3 тижні

3.1

Очищення HDP / HDF PROD Environment

3.2

Інсталяція та конфігурація CDP PROD Environment

3.3

Перенесення розробок і даних з HDP / HDF Prod Environment в CDP PROD Environment

3.4

Тестування і тюнінг середовища CDP Prod Environment

Компанія АМ-БІТС є прямим партнером Cloudera (Silver Partner) і має виділену Big Data команду з 15 висококваліфікованих архітекторів та інженерів, серед яких 7 фахівців сертифікованих Hortonworks і Cloudera. АМ-БІТС має 5 років досвіду з побудови Big Data рішень на базі технологій Hadoop для корпоративних клієнтів (включаючи проекти для міжнародних банків, телеком операторів і медіа компаній).

 

Ми готові розробити стратегію розвитку корпоративної платформи даних з урахуванням кращих міжнародних практик та реалізувати проект з міграції або впровадження Cloudera Data Platform, забезпечивши безперебійну роботу сервісів, а також, по завершенню проекту міграції/впровадження, забезпечити технічну підтримку рішення як у віддаленому режимі так і on-site.