Российские учёные разработали механизм семантического быстрого поиска по специализированным базам данных

23.12.2021 14:08

Предложенная технология может использоваться для улучшения качества информационного поиска и анализа данных в специализированных поисковых системах, предназначенных для научных и промышленных организаций – по отчетам, патентам, научным публикациям. Исследование по сегментации текстовых документов для оптимизации и 20%-ого ускорения поиска нужной информации пользователями было реализовано группой ученых НИТУ «МИСиС» в рамках гранта Российского научного фонда.

Учёные решали задачу корректного поиска объёмных документов, близких по смыслу. Обычно в больших сложных документах, особенно в рамках специализированных поисковых систем, содержится сразу несколько тем, что сильно затрудняет автоматический поиск. Исследователи предложили использовать метод сегментирования.

«Сегментирование документов — это деление текста на такие отрывки, в которых речь идет об одном и том же, что может быть полезно в разных задачах обработки естественного языка. К таким задачам, например, относится анализ больших документов или поиск по содержанию документа. С точки зрения прикладного машинного обучения сегментация длинных текстов обоснована, так как на коротких текстах обычно лучше работают различные методы векторизации. Это логично, ведь чем больше текст, тем больше в нем разных смыслов и тем сложнее агрегировать все эти смыслы в некоторое общее векторное представление», - рассказывает Никита Никитинский, научный сотрудник Центра исследования больших данных НИТУ «МИСиС».

Команда специалистов Центра предложила следующее решение этой проблемы: разбить документ на несколько сегментов, каждый из которых относится к одной теме. По таким тематически однородным кускам текста компьютерному алгоритму проще производить поиск.

«В рамках исследования мы использовали метод, основанный на подходе аддитивной регуляризации тематических моделей (additive regularization of topic models, ARTM) и алгоритме TopicTiling. В результате экспериментов удалось улучшить точность работы узкоспециального поиска по научным публикациям с 55% до почти 82%», - добавил Никитинский.

По словам разработчиков, технология уже реализована в российском проекте создания Реестра обязательных требований. По их оценкам, с использованием нового метода до 15-20% увеличивается скорость и эффективность поиска нужной информации пользователями, что критично для научных и промышленных организаций.

В настоящий момент похожие проблемы решают исследователи и инженеры из других крупных организаций, в том числе Университет Мангейма, французский исследовательский центр EURECOM и Google Research, которые в рамках своих исследований изучали публикации членов научного коллектива по этой тематике. Исследование проводилось в первом году проекта №19-11-00281.

misis.ru

Хроника

Последний вышедший номер

Читайте в номере:

Автоматизированная система мониторинга тепловой экономичности энергоблока АЭС

Моделирование повреждений в распределительных сетях при неблагоприятных воздействиях с последующим восстановлением (на примере распределительной системы водоснабжения)

Методика выявления базовых динамических параметров 6-осевого промышленного манипулятора

Способ автоматической перегрузки газоперекачивающих агрегатов одного цеха дожимной компрессорной станции

Адрес редакции: 117997, Москва, Профсоюзная ул., д. 65, оф. 360
Телефон: (926) 212-60-97.
E-mail: info@avtprom.ru или avtprom@ipu.ru

Сайт «Автоматизация в промышленности» предназначен для специалистов по промышленной автоматизации: главных инженеров, главных энергетиков, главных механиков, главных метрологов, инженеров служб АСУ ТП, АСУТП, КИПиА, КИП и А, отделов метрологии, отделов автоматизации, отделов главного инженера, специалистов инжиниринговых и внедренческих фирм, менеджеров фирм системных интеграторов, преподавателей вузов, научных работников, сотрудников научно-исследовательских институтов, студентов и аспирантов.

Сайт «Автоматизация в промышленности» неразрывно связан с одноименным журналом, в котором публикуются концептуальные, научно-практические и внедренческие статьи, посвященные промышленным автоматизированным системам, системам управления бизнес-процессов, программному и алгоритмическому обеспечению, техническим средствам автоматизации, вопросам сертификации, описанию промышленных стандартов, а также обзоры зарубежной прессы.

В каждом номере проводится обсуждение актуальных тем по проблемам создания и применения следующего инструментария: интегрированные АСУ, MES, АСУ П, АСУ ТП, SCADA, АСКУЭ, EAM, ТОИР, ERP, LIMS, ЛИУС, распределенные системы управления, РСУ, система управления качеством выпускаемой продукции, промышленные тренажеры, современные методы и алгоритмы управления и моделирования, коммуникационные средства, GSM–связь, РС-совместимые контроллеры, ПК, человеко-машинный интерфейс, встраиваемые системы, Web-технологии, HTML-технологии, числовое программное управление, ЧПУ, виртуальные приборы, виртуальное измерение, беспроводная связь, имитационное моделирование, Ethernet, Internet-технологии, Industry 4.0, Интернет вещей, промышленный Интернет вещей, IIoT, IoT, Четвертая промышленная революция, навигационные системы, роботы, датчики, сенсоры, диагностика клапанов, водоподготовка, экологические системы, производственная безопасность, идентификация, RFID-технологии, машинное зрение, промышленные сети, средства промышленного монтажа, корпуса и конструктивные решения, пневмоавтоматика, ПЛК, программируемые логические контроллеры, интеллектуальные датчики, сервосистемы, системы поддержки принятия решений и т.д.

Вниманию читателей предлагаются подборки по автоматизации следующих отраслей промышленности и народного хозяйства: металлургия, нефтегазовая отрасль, химическая промышленность, транспорт, сельское хозяйство, комбикормовая и перерабатывающая промышленность, автомобилестроение, энергетика, электроэнергетика, жилищно-коммунальное хозяйство, интеллектуальное здание, умный дом, непрерывное производство (рецептурное), дискретное производство, пищевая промышленность и др.