Роман Зыков

Роман с Data Science. Как монетизировать большие данные

    jbmeerkatцитирует8 месяцев назад
    Считается, что нужно потратить 10 000 часов для того, чтобы стать очень хорошим специалистом в своей области.

    Популярное заблуждение. Можно и сто тысяч часов потратить и не стать высококвалифицированным профессионалом. Важно как именно время потрачено, а количество вторично.

    Интересно то, что Малкольм Гладуэлл, который популяризовал это утверждения, основывался на исследовании психолога Андерса Эрикссона, который, в свою очередь, раскритиковал Гладуэлла за неверную трактовку его исследования. Согласно исследованию это среднее количество времени, которое высококлассные профессионалы потратили на достижение своего уровня, но много и тех, кто потратил меньше, и огромное количество тех, кто потратил больше и немногого добился. Подробнее про то, какой должна быть практика для достижения результата Эрикссон написал в книге «Peak».

    Serhii Mazurokцитирует8 месяцев назад
    А для статистического усреднения человек как таковой совершенно не важен. Это — абстракция, а не конкретная личность.
    Анастасия Рубцовацитирует10 дней назад
    Второй тип — оптимизаторы, которые могут вдохнуть новую жизнь в существующее решение, но придумать и создать что-то с нуля им сложно.
    Albert Uцитирует2 месяца назад
    Дашборд отвечает на вопрос, где есть проблема, а не почему она возникла.
    Albert Uцитирует2 месяца назад
    добавив на график линию тренда (с помощью семиточечного скользящего среднего, чтобы убрать недельную сезонность)
    Albert Uцитирует2 месяца назад
    внедрение OKR – цели и ключевые результаты (Objectives and Key Results) [13] – или системы сбалансированных показателей (Balanced Scorecard).
    Albert Uцитирует2 месяца назад
    Их обычно ставят, когда цель пока не прогнозируема
    Albert Uцитирует3 месяца назад
    мини-книги «Building Data Science Teams»
    Albert Uцитирует3 месяца назад
    Ди Джеем Патилом (DJ Patil)
    Albert Uцитирует3 месяца назад
    коммерческой системе веб-аналитики Omniture Sitecatalyst (ныне Adobe Analytics)
    Albert Uцитирует3 месяца назад
    скепсис относительно моделей (a skeptical view of proxies)
    Лилия Зосимовацитирует3 месяца назад
    Hadoop, Spark, Kafka
    Лилия Зосимовацитирует3 месяца назад
    Насчет хранилища данных у меня обычно следующее правило: если компания собирается зарабатывать на данных существенную часть своей выручки, то лучше собственное хранилище. Если для компании аналитика — вспомогательный проект, то лучше использовать облачное хранилище.
    Лилия Зосимовацитирует3 месяца назад
    Примерный список вопросов к технологиям звучит так:
    • Собственное хранилище или облачное?
    • Использовать ли open-source-технологии?
    • Какой язык программирования использовать для артефактов инженерии?
    • Можем ли отдать разработку аналитики стороннему подрядчику?
    • Какую отчетную систему выбрать?
    • Требуется ли где-нибудь скорость анализа, близкая к real-time?
    Лилия Зосимовацитирует3 месяца назад
    Затем я иду к разработчикам и начинаю узнавать, а что же, собственно, у них есть — какие данные они собирают и где эти данные находятся. Во-первых, меня интересуют данные, которые помогут решать задачи клиента (мне важно увидеть не только схемы, но и живые примеры таких данных — строки таблиц и файлов). Во-вторых, для меня важны те данные, которые есть, а применения им пока нет — какие задачи они могли бы решить? К финалу этого этапа у меня уже есть:
    • Список вопросов, которые покрываются текущими данными.
    • Список вопросов без данных и понимание того, сколько усилий потребуется, чтобы их получить.
    • Данные, которые пока не решают никаких актуальных задач.
    • Источники данных и их примерные объемы.
    Лилия Зосимовацитирует3 месяца назад
    Какие метрики понадобится считать?
    • Какие дашборды собрать?
    • Какую информацию отправить в интерактивные системы?
    • Будут ли тут задачи ML (машинное обучение)?
    Лилия Зосимовацитирует3 месяца назад
    Когда передо мной стоит задача сделать аналитическую систему или существенно расширить ее возможности, я всегда использую двусторонний подход: определяю, какие задачи и вопросы перед нами стоят, и выясняю, какие данные есть в источниках.
    Лилия Зосимовацитирует3 месяца назад
    Даже для самых простых вещей «на коленке» нужно продумывать следующие вопросы:
    • Откуда и с какой периодичностью брать данные и как туда получить доступ?
    • Какова нагрузочная способность источников данных, чтобы и бизнес работал без сбоев, и данные как можно быстрее были доступны для анализа?
    • Какую архитектуру хранилища сделать? Или, может, не делать его вовсе?
    • Какую аналитическую систему выбрать?
    • Как использовать в процессах обученную модель машинного обучения (далее ML-модель)?
    Таких вопросов может быть очень много. Эти вопросы должны ­решаться и автоматизироваться. Артефактами инженерии будут:
    • Архитектура аналитической системы.
    • Программный код, который обеспечивает работу системы.
    Если все сделано идеально, то этих двух артефактов достаточно, чтобы развернуть (подготовить) аналитическую систему за минимальное время. В крутых реализациях это можно сделать автоматически, нажатием одной кнопки. Это очень важно для устойчивой работоспособности аналитической системы. К сожалению, работа людей, которые этим занимаются (администраторы, инженеры), почти незаметна, особенно когда все хорошо работает. Их почти не замечают, не понимают, чем они занимаются, и поэтому часто не ценят.
    Лилия Зосимовацитирует3 месяца назад
    всегда оценивать верность решения, учитывая, какой именно информацией вы обладали в момент его принятия
    Лилия Зосимовацитирует3 месяца назад
    анализе данных ошибка выжившего — это учет известного и пренебрежение неизвестным, но существующим.
fb2epub
Перетащите файлы сюда, не более 5 за один раз