[Перевод] Дата-сайентист, который просто не может перестать выигрывать на Kaggle

Ранее у нас в блоге уже был материал про лучших в Kaggle, а сегодня представляю вам интервью с признанным дата-сайентистом и гроссмейстером Kaggle Филиппом Сингером, который поделится своим опытом, вдохновением и и достижениями. Беседа призвана мотивировать и воодушевить других людей, которые хотят понять, что нужно, чтобы стать гроссмейстером Kaggle. Также в этом интервью мы узнаем больше об академическом прошлом Филиппа, его увлечении Kaggle и о его работе в качестве дата-сайентиста.


Филипп, в мире Kaggle более известный как Psi, стал кандидатом наук, получил диплом с отличием в области информатики в Техническом университете Граца, а также получил степень магистра в области разработки программного обеспечения и управления бизнесом. У Филиппа несколько достижений, в том числе многократные победы и высшие места на Kaggle, несколько научных наград, в том числе за лучшую работу на знаменитой Всемирной веб-конференции. 

В настоящее время он занимает третье место в мире в рейтинге соревнований Kaggle. Это одновременно впечатляет и вдохновляет. Одно из самых заметных достижений Филиппа – победа на Втором ежегодном турнире по большим данным NFL вместе с другим дата-сайентистом H2O.ai Дмитрием Гордеевым

Более 2000 дата-сайентистов со всего мира соревновались на Kaggle, чтобы спрогнозировать результаты стремительной игры. Филипп Сингер и Дмитрий Гордеев получили главный приз – 50 000 долларов США за их подход к задаче.

Победители конкурса Big Data Bowl 2019–2020 Филипп Сингер и Дмитрий Гордеев (сзади) выступают в Индианаполисе. 

У вас есть докторская степень в области компьютерных наук. Почему вы в качестве карьеры выбрали науку о данных, а не занимались научными исследованиями?

Филипп: Я получил степень доктора философии [кандидата наук] компьютерных наук в Техническом университете Граца в Австрии и был занят в исследованиях в Германии. За время своей научной карьеры я затронул множество разных тем в области науки о данных и опубликовал множество научных работ и статей на известных конференциях и в журналах. После я должен был стать профессором, это интриговало меня. Однако, хотя я люблю преподавать, я хотел углубиться в более прикладную работу, то есть хотел, чтобы моя работа имела большее влияние, чем то влияние, которое возможно в исследованиях. Это побудило меня заняться наукой о данных в качестве карьеры. Надо сказать, я до конца насладился докторской степенью и многому научился, но теперь я также рад быть в авангарде науки о данных и машинного обучения, играть по-настоящему важную роль в H2O.ai. 

Как начался ваш путь на Kaggle, что поддерживало вас на пути к гроссмейстерству?

Профиль Филиппа на Kaggle 

Филипп: Я зарегистрировался на Kaggle около восьми лет назад, когда начал работу в качестве доктора философии, потому что слышал о платформе и хотел её проверить. Но я сделал всего лишь образец задачи и шесть лет больше не прикасался к Kaggle. Около двух лет назад мы с Дмитрием (dott1718 на Kaggle, а теперь коллегой по работе) решили вместе попробовать посоревноваться на Kaggle, это был сайд-проект на работе. Мы ничего не ждали, но в итоге выиграли соревнование. Победа зацепила меня, с этого момента начался мой путь на Kaggle. На Kaggle мой подход всегда заключался в том, чтобы решать новые типы проблем, так я сохраняю мотивацию. Есть ещё новые интересные проблемы, которые нужно решать правильно. Кроме того, мне нравится встречаться и работать с талантливыми людьми на Kaggle, и я вижу, к чему стремится сообщество. 

В последнее время вы уничтожили таблицу лидеров Kaggle, добились впечатляющих результатов, последний из которых –  первое место на NFL и второе в Future – Impact Detection. Как вы подходите к решению таких проблем, как идёте так хорошо?

Филипп: Люди часто спрашивают меня, как выиграть соревнования Kaggle; я не думаю, что есть какой-то секретный соус, чтобы побеждать везде. Большой успех на Kaggle основывается на опыте, желании прикоснуться к чему-то новому, о чём, на первый взгляд, вы мало что знаете. Со временем я собрал особый универсальный набор инструментов, который содержит строительные блоки каждого соревнования, в котором я участвовал. Например, я понимаю, как правильно настроить кросс-валидацию, какие библиотеки задействовать в моделях, как правильно подбирать модели, отслеживать их производительность и т. п. Так что у меня освобождается больше времени, чтобы сосредоточиться на новых для меня и важных аспектах недавних соревнований. после каждого соревнования я всегда стараюсь улучшить свой рабочий процесс, чтобы повысить эффективность и способность конкурировать с соперниками. 

Большой успех на Kaggle основывается на опыте, желании прикоснуться к чему-то новому, о чём, на первый взгляд, вы мало что знаете.

Как вы решаете, в каких соревнованиях участвовать?

 

Лучшие достижения Филиппа на Kaggle 

Филипп: Я в основном пытаюсь решать новые типы задач или участвовать в соревнованиях, которые кажутся интересными в отношении данных или проблемы, которую нужно решить. Иногда я испытываю удачу в более стандартных соревнованиях, чтобы понимать состояние искусства Data Science, которое меняется каждую неделю. 

Как вы обычно подходите к задаче на Kaggle? Есть ли какие-нибудь любимые ресурсы по ML (массовые открытые онлайн-курсы, блоги и т. д.), которыми вы хотите поделиться с сообществом?

Филипп: Я стараюсь прибегать к уже накопленному мной арсеналу методов, инструментов и опыта, а затем пытаюсь исследовать конкретную проблему. Это означает, что я изучаю предыдущие решения аналогичных проблем на Kaggle и читаю соответствующие статьи. Лучший способ изучить проблему – учиться на практике. 

В каких конкретных областях вы работаете как дата-сайентист в H2O.ai?

Филипп и другие гроссмейстеры Kaggle на H2O.ai 

Филипп: Моя роль в H2O.ai очень многогранна. Я регулярно участвую в проектах, ориентированных на клиентов, и моя задача опираясь на опыт, поддерживать проекты в области Data Science. Кроме того, будучи гроссмейстерами Kaggle, мы всегда стараемся использовать наш опыт и знания о последних достижениях, чтобы постоянно улучшать наши продукты и разрабатывать новые передовые прототипы и решения. Это означает, например, что мы предлагаем новые функции в Driverless AI, разрабатываем приложения ИИ в Wave , демонстрируя новые методы и весь конвейер решений Data Science. 

Расскажите о лучшем из того, что вы узнали на Kaggle и применяете в работе на H2O.ai?

Филипп: На Kaggle вы узнаете, как создавать надёжные модели, которые хорошо обобщаются и не слишком подвержены переобучению. На Kaggle это важно, потому что вам нужно хорошо работать с невидимыми, закрытыми данными. Это означает, что вы многое узнаете о надёжной перекрёстной проверке и о других аспектах данных, таких как сдвиги в распределении функций, или некоторые других важных аспектах. Я могу хорошо приспособить эти знания в своей работе на H2O.ai, поскольку они также являются неотъемлемой частью наших продуктов. Опираясь на наш опыт и знания, мы хотим, чтобы ML наших клиентов было надёжным. 

Область Data Science стремительно развивается. Как вам удается быть в курсе всех последних событий?

Филипп: Чтобы быть в курсе последних событий, я в основном использую Kaggle; это отличный фильтр новых методов, которые либо работают с практическими и прикладными проблемами, либо не работают. Обычно надёжные методы выживают, а ненадёжные методы, которые работают лишь от случая к случаю, отфильтровываются. В то же время я слежу за известными исследователями и практиками в Твиттере и на других платформах. 

Есть ли какие-то конкретные области или проблемы, в которых вы хотели бы применить свой опыт в области машинного обучения?

Филипп выступает на встрече Vienna Data Science Group 9 января 2020 г.

Филипп: Я не держу в голове ничего конкретного; обычно я стараюсь удивляться интересным проблемам, которые возникают либо на работе, либо в Kaggle. Очень важно вникать в проблемы, которые на первый взгляд не кажутся вам интересными. Можно объективно взглянуть на проблему и, вероятно, обратиться к опыту, который вы приобрели решая другие проблемы, к тем данным, что у вас есть. 

Несколько советов претендентам в Data Science и Kaggle, которые только начали или хотят начать свой путь в Data Science.

Филипп: Запачкайте руки, не бойтесь потерпеть неудачу и всегда стремитесь узнавать новое. 

Путь Филиппа на Kaggle был весьма примечательным. Я уверен, что его путь, преданность делу и достижения станут источником вдохновения для тех, кто уже работает или пытается сделать карьеру в Data Science.


Другие профессии и курсы
ПРОФЕССИИ

КУРСЫ

Let’s block ads! (Why?)

Read More

Recent Posts

OpenAI готовится запустить поисковую систему на базе ChatGPT

OpenAI готовится запустить собственную поисковую систему на базе ChatGPT. Информацию об этом публикуют западные издания. Ожидается, что новый поисковик может…

5 часов ago

Роскомнадзор рекомендовал хостинг-провайдерам ограничить сбор данных с сайтов для иностранных ботов

Центр управления связью общего пользования (ЦМУ ССОП) Роскомнадзора рекомендовал компаниям из реестра провайдеров ограничить доступ поисковых ботов к информации на российских сайтах.…

1 день ago

Apple возобновила переговоры с OpenAI и Google для интеграции ИИ в iPhone

Apple возобновила переговоры с OpenAI о возможности внедрения ИИ-технологий в iOS 18, на основе данной операционной системы будут работать новые…

6 дней ago

Российская «дочка» Google подготовила 23 иска к крупнейшим игрокам рекламного рынка

Конкурсный управляющий российской «дочки» Google подготовил 23 иска к участникам рекламного рынка. Общая сумма исков составляет 16 млрд рублей –…

6 дней ago

Google завершил обновление основного алгоритма March 2024 Core Update

Google завершил обновление основного алгоритма March 2024 Core Update. Раскатка обновлений была завершена 19 апреля, но сообщил об этом поисковик…

6 дней ago

Нейросети будут писать тексты объявления за продавцов на Авито

У частных продавцов на Авито появилась возможность составлять текст объявлений с помощью нейросети. Новый функционал доступен в категории «Обувь, одежда,…

6 дней ago