ПРОБЛЕМА:
В добывающей компании необходимо принять решение, в каком из 3-х регионов бурить новую скважину.
В каждом регионе 10 000 месторождений
, где измерили качество нефти в каждой скважине и объём её запасов.
ЦЕЛЬ ПРОЕКТА:
Построить модель машинного обучения, которая поможет определить лучший регион
:
- c наибольшей прибылью от добычи нефти
- c учетом оценки
возможных рисков
В нашем распоряжении 3 датасета
с пробами нефти в каждом из регионов.
ЛИЧНЫЕ ЦЕЛИ:
- Научиться
интерпретировать качество
моделей с помощью метрики RMSE - На практике связать модели ML с бизнес-задачами
- Применить знания по технике
Bootstrap
для оценки прибыли и рисков
✔️ Линейная регрессия ✔️ Интерпретация ошибок RMSE
✔️ Графики корреляций для оценки предсказаний
✔️ Bootstrapping ✔️ ML для оценки прибыли и рисков
✔️ Доверительные интервалы
-
Провели сравнительный анализ объемов
запасов нефти
и других характеристик скважин для разных регионов -
Построили для каждого региона модель Линейной Регрессии для предсказания
объемов нефти
- сделали оценку
среднего запаса
сырья, который модель предсказывает в каждом регионе - использовали визуализацию корреляций для
интерпретации работы
модели и метрикRMSE
- сделали оценку
-
Реализовали методику расчета прибыли на базе нескольких параметров:
бюджет
на разработку скважин- количество месторождений при разведке региона
доход с 1-го барреля
сырья
-
Смоделировали риски убытков и возможную прибыль в каждом
регионе
:- выбрали
200 лучших скважин
на основе предсказаний модели - для оценки вероятностей использовали
bootstrapping
- выбрали
Определили для Заказчика наиболее прибыльный регион для разработки скважин.
-
Исключили регионы №1 и №3, в которых вероятность
убытков меньше 2.5%
:- доля случаев с отрицательной прибылью
3.7%
и8%
- доля случаев с отрицательной прибылью
-
Выбрали
регион №2
с наибольшей средней прибылью:- риск убытков:
0.2%
- вероятная средняя выручка:
580 255 тыс.руб
- риск убытков:
В выбранном регионе наша линейная модель предсказывает запасы сырья в скважинах с низким уровнем ошибок RMSE = 0.89
Средний запас предсказанного сырья в регионах: 69.750 тыс. баррелей
(реальные запасы 69.751 тыс. баррелей)
Бизнес-цель успешно достигнута.
Для каждого региона отдельный набор данных c характеристиками 100 000 скважин
:
id | f0 | f1 | f2 | product | |
---|---|---|---|---|---|
0 | txEyH | 0.705745 | -0.497823 | 1.221170 | 105.280062 |
1 | 2acmU | 1.334711 | -0.340164 | 4.365080 | 73.037750 |
2 | 409Wp | 1.022732 | 0.151990 | 1.419926 | 85.265647 |
3 | iJLyR | -0.032172 | 0.139033 | 2.978566 | 168.620776 |
4 | Xdl7t | 1.988431 | 0.155413 | 4.751769 | 154.036647 |
5 | wX4Hy | 0.969570 | 0.489775 | -0.735383 | 64.741541 |
6 | tL6pL | 0.645075 | 0.530656 | 1.780266 | 49.055285 |
id
— уникальный идентификатор скважиныf0, f1, f2
— три признака точек (их значение не разглашают, но специалисты уверяют - сами признаки значимы)product
— объём запасов в скважине. (!)тысяч баррелей