2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 o 11 12 13 14 15
Генеральный
партнёр


Все на CodeFest X →

Десятый. Юбилейный. 30–31 марта 2019

ПиоNER: обучаемая система извлечения фактов из текстов

Основа городского информационного сервиса - полная и актуальная информация о разнообразных фирмах, госучреждениях и прочих организациях. Сейчас в 2ГИС вся эта информация собирается нашими специалистами вручную. Но что, если на помощь живым людям придёт не знающий усталости робот? А поскольку практически все городские организации имеют свой веб-сайт или хотя бы страничку в соцсети, то такому роботу не придётся ходить по улицам или ездить на троллейбусе. Ему достаточно пройти по интернету в поисках корпоративных сайтов и прочитать там разные факты о фирмах: как называются, где находятся, когда работают… Однако веб-дизайнеры - люди творческие, и частенько один созданный ими сайт не похож на другой. В подобных условиях для извлечения фактов из корпоративных сайтов уже не обойтись одними лишь регулярками и XPath-выражениями. В своём докладе я расскажу, как мы использовали методы машинного обучения и компьютерной лингвистики для разработки такого робота, который умел бы понимать текстовый контент любых корпоративных сайтов и извлекать оттуда нужную нам информацию


Презентация доклада:


Запись выступления:



Партнёры