Skip to content

OOmnik

Sections
Personal tools
You are here: Home » Теория » Проблематика поисковых систем » Технологии распределенного семантического поиска: ключевые идеи, стандарты, открытые реализации на Open Source

Технологии распределенного семантического поиска: ключевые идеи, стандарты, открытые реализации на Open Source

Document Actions
Дмитриев Дмитрий Владимирович Институт лингвистических исследований РАН (Санкт-Петербург)
Предисловие
В настоящем документе изложены идеи архитектуры распределенной системы для качественно иного уровня поиска в сетевых ресурсах в отличие от существующих. Решение проблемы адекватности и оперативности поисковых технологий видится в сочетании научных разработок, использовании программного обеспечения с открытым кодом (Open Source) и организационно-правовой поддержки общественных и государственных структур.
Документ ставит целью объяснить необходимость создания новой инфраструктуры поиска, которая органично вписалась бы в исторически сложившиеся программно-аппаратные комплексы, а также представить ключевые абстракции и технологии данного решения. Программная реализация отдельных компонентов системы в виде свободно распространяемых модулей представлена в проекте OOmnik (http://www.oomnik.org). Комплекс технологий разрабатывался с 2001 года в рамках научно-исследовательской работы Лаборатории информационных лингвистических технологий Института лингвистических исследований РАН (Санкт-Петербург).
Поиск информации: что искать, где и как?
Постановка задачи
На первый взгляд, постановка задачи поиска информации довольно проста. Первоначальная мотивация: некто хочет что-то знать. Это может быть желание подтвердить или опровергнуть какую-то информацию, поступившую откуда-либо к человеку, например: Действует ли в настоящее время законодательное положение X? Или это может быть желание присвоить конкретное значение какой-либо информационной переменной: Кто возглавляет Совет Безопасности РФ? Человека может просто интересовать какая-то область мироздания: Что говорят, пишут об экологии Сибири? Интерес может быть проявлен к процедурным последовательностям: Как оформить земельный участок в собственность? Очевидно, что мотивация получения информации может быть связана абсолютно с любой областью жизни человека.
При более подробном рассмотрении мы понимаем, что речь идет о сложном взаимодействии личных и социальных понятий, присущих людям. Критерием релевантности, удовлетворительности ответа на свой вопрос человек будет считать именно соответствие полученной информации тем понятийным структурам, которыми он мыслил, задавая вопрос. Эти понятийные структуры могут разделяться в социуме, обладать выраженностью в языке, но могут также быть присущи лишь конкретному человеку, отражая его индивидуальность, его уникальный жизненный опыт.
Важно заметить, что первичным при оценке человеком адекватности ответа на поставленный им вопрос будет смысл ответа, а не его форма. Знаковая составляющая ответа -- вторична. Неважно, какими именно словами будет дан ответ, неважно даже на каком языке. Адекватность ответа оценивает сам человек, интуитивно используя для этого плавную шкалу значений: то, что нужно .. не совсем то, что нужно .. совсем не то, что нужно.
Помимо собственно содержания ответа человеку важно также знать, кто именно дает ему этот ответ. Достоверность передаваемой информации связана с репутацией отвечающего, с его реальной осведомленностью и компетентностью. Можно ли доверять этому источнику? Степень доверия также выражается шкалой значений от 0 до 1.
Традиционным способом передачи информации была и остается устная речь человека. Человек спрашивает другого человека о том, что его интересует. Осведомленность конкретного человека в данной области может быть ограничена, поэтому он может ответить, что не знает ответа на вопрос, но может порекомендовать того, кто знает. Людей, которые знают очень много из разных областей мироздания, принято называть энциклопедистами. Людей, которые знают очень много про конкретную область мироздания, называют специалистами или экспертами.
Устная речь в разные времена фиксировалась и продолжает фиксироваться на различных носителях информации: на камне, на папирусе, на коже, на бумаге, в памяти компьютера и т.д. Исторически первые коллекции информации на носителях формировали библиотечные фонды, которые необходимо рассматривать как прообраз нынешнего Интернета --- массивы документов, доступ к которым обеспечивают разнообразные поисковые системы. Алфавитные библиотечные каталоги упорядочивали документы по именам авторов и названий произведений. Систематические каталоги упорядочивали документы по областям знаний, по темам. Инвентарные каталоги содержали информацию о реальном местонахождении документа в хранилище. Помимо каталогов в библиотеках всегда работали и работают замечательные люди --- библиотекари, которые всегда готовы прийти на помощь читателю и подсказать, в каких источниках ему следует искать ту или иную информацию.
В мире современного Интернета востребованы и реализованы аналогичные функции: систематизация по темам, индексация по словам, живые подсказки на форумах и т.п. Однако сам характер публикуемых в Интернете материалов создает фундамент для принципиально иной инфраструктуры получения информации.
Сетевые ресурсы
Мы все стали свидетелями информационного бума, произошедшего за последние десять лет. Огромная масса информации не только переводится в цифровой формат, но и оказывается доступной практически любому пользователю Интернета. Эта информация включает в себя самые разные типы данных: текст, видео, звук, программы и т.п. Ориентирование в этой информационной лавине крайне затруднено. Основной объем содержательной информации при этом, естественно, находится в текстовых документах. В качестве примера автоматического извлечения информации из текстов можно привести такие задачи, как структурирование персональных резюме, автобиографий, заявок, писем электронной почты и многие другие аналогичные задачи. Весьма актуальной также становится задача автопостроения баз знаний, которые бы основывались на электронных источниках информации. Такие базы знаний могут в дальнейшем использоваться для нужд электронного государства, для научных исследований, в сфере коммерческих услуг и вообще для создания любых информационных сервисов, рассчитанных на широкую аудиторию.
Интернет представляет собой огромную коллекцию электронных объектов, опубликованных в рамках согласованных стандартов хранения и передачи цифровых данных. Интернет изначально возник как телекоммуникационная среда, поэтому вполне естественно, что в нем реализован принцип оперативности загрузки электронного объекта: электронные письма доходят мгновенно, аудио- и видеопотоки позволяют воспринимать информацию в режиме реального времени, IP-телефония обеспечивает коммуникацию людей вместо обычных телефонных линий. Зная, где именно в сети располагается определенный ресурс, можно практически моментально получить его -- единственным ограничением остается лишь пропускная способность каналов связи.
Однако, как и в случае с традиционными библиотеками, мы сталкиваемся с ситуацией, что человеку для получения ресурса прежде всего необходимо знать, где он расположен. А поскольку речь идет о миллиардах электронных объектов, становится понятно, что поиск в таких объемах данных -- вещь очень сложная. В традиционных библиотеках каталогизация каждого документа производится вручную: библиотекарь должен описать физический экземпляр книги, журнала, рукописи и т.д. как единицы хранения в библиотеке. Сетевые же ресурсы публикуются в электронной форме, что дает возможность использовать специальные автоматические программные средства для их каталогизации и индексации.
Фактически, благодаря сетевой организации публикации информации нам предоставлена уникальная возможность -- раскрыть для себя опыт всего человечества, зафиксированный в виде письменных текстов. Как же справляются с этой задачей современные поисковые машины?
Современные поисковые машины: способы решения проблемы
Первоначальные системы каталогизации сетевых ресурсов, такие как Yahoo!, использовали модель иерерхически организованного систематического каталога, в котором размещались ссылки на сайты и документы определенной тематики. Этот подход сохраняется и по сей день, однако исторически он был дополнен и другим способом индексации содержимого сети: автопостроением указателя всех буквенных цепочек, встречающихся в сетевых документах. Первой системой такого рода была AltaVista, а лидером на сегодняшний день безусловно является Google. Поисковые машины Интернета на сегодняшний день выполняют колоссальную работу по индексаци документов. Они постоянно обновляют свои каталоги и индексы, включая туда свежие данные. Однако принцип работы большинства поисковых машин довольно прямолинеен: получить из множества текстов общий алфавитный список всех форм, слов, символьных цепочек с указанием адреса того документа, где они встречаются.
Именно этой методикой работы поисковиков и объясняется тот высокий уровень информационного шума, который они производят. Какой смысл выдавать пользователю 2 миллиона ссылок на документы? Никто никогда не будет их просматривать. Как правило, пользователи ограничиваются просмотром первых 10--20 результатов, а затем стараются сузить свой запрос. Именно конкретизируя запрос, делая его максимально специфичным, пользователь старается отсеять информационный мусор. А вот умеют ли поисковые машины обрабатывать эти суженные запросы? Ответ отрицательный. Типичная поисковая машина не обратит никакого внимания на характер связей в вашем запросе, не говоря уже о семантике.
Многих пользователей Интернета удивляет тот факт, что на их связный запрос поисковики выдают много лишних документов, в которых слова запроса встречаются в разрозненных контекстах, не будучи связанными в единое понятие. То же самое происходит и с поиском конкретных людей, когда указание имени и фамилии в запросе может привести к тому, что будут найдены документы о совершенно других персонах. Люди упорно пытаются задавать поисковым машинам прямые вопросы, на которые они надеются получить ответы, несмотря на то, что эти машины не настроены на такую рациональную деятельность.
Лингвистическая ориентированность тех или иных поисковых машин на поверку оказывается лишь упрощенным способом достичь хоть какого-нибудь результата. Так, большинство поисковиков в той или иной степени внедряют в обработку документов механизм приведения словоформ к общей основе. Как правило, это делается методом отсечения грамматических флексий и объединения в одну единицу индекса буквенного остатка. Например, английские формы "book", "books", "booked", "booking" будут объединены в общую единицу "book". Кажущийся выигрыш от использования этого метода перекрывается возникающей смысловой путаницей. Ведь если человека интересует только book как книга, он не хочет видеть контекстов с "booking" в смысле заказ (билетов).
Более осмысленным шагом является применение алгоритма лемматизации, т.е. нахождения начальной словарной формы. Так, Yandex использует алгоритм орфографического морфологического анализа для приведения словоформ к начальной словарной форме. Сам алгоритм базируется на принципах описания русской словоизменительной морфологии А. А. Зализняка, изложенных в Грамматическом словаре русского языка. С одной стороны, реализация этого алгоритма в поисковой машине безусловно привела к улучшению качества поиска: пользователю не нужно было уже вводить конкретные формы слова, чтобы найти их, а можно было ограничиться начальной формой. Однако с другой стороны, проблему семантической связности этот алгоритм не решает, а иногда приводит и к курьезным результатам. Так, если пользователь хочет найти женщину по фамилии Островская, поисковик будет упорно показывать ему всех Островских, мужчин и женщин, лишь потому, что у этих фамилий общая морфологическая основа.
Сам алгоритм орфографического или буквенного анализа морфологии слова достаточно механистичен и не соответствует лингвистическим представлениям о морфемной структуре слова. Но даже если бы этот анализ был проведен более строгими в научном отношении средствами, все равно это не было бы решением той проблемы, с постановки которой мы начали. Человека интересуют не знаки, а их смысл. Бессвязное нахождение знаков без учета контекста их использования не приводит ни к чему, кроме разочарования.
Перспективы: как достичь качественно иного результата?
Лингвистические принципы интерпретации содержания документа практически не используются сегодня в большинстве поисковых систем. Это объяснимо в силу большой трудоемкости реализации лингвистических алгоритмов: даже создание обыкновенного толкового словаря занимает, как правило, много лет кропотливой работы. Быстрый результат достижим средствами статистического анализа, поэтому понятен приоритет коммерческих компаний, желающих достичь результата как можно скорее.
Однако если на повестку дня поставить усиление качества поисковых алгоритмов, а также задаться проблемой автоматического поиска знаний (фактов, оценок, сравнений и др.) в текстах на естественном языке, мы неизбежно придем к необходимости последовательной формализации самых разных слоев лингвистического анализа текста: от фонологии до семантики. Необходимость получения более качественных результатов поиска давно назрела, ведь в современных поисковых машинах очень высок уровень информационного шума, нерелевантных документов. Кроме того, сам поиск в принципе ограничен указанием на некий исходных документ, в котором следует визуально опознать интересующую нас информацию.
Интересы коммерческих поисковых компаний и общественная польза
Интересы коммерческих компаний, представляющих закрытые, проприетарные поисковые решения, во многом не совпадают с интересами общественного блага, поэтому не приходится ожидать создания подобной открытой инфраструктуры от тех, кто кровно заинтересован в контроле над рынком информационных услуг. На сегодняшний день ни одна частная компания не только не заинтересована в стандартизации коммуникативно-поискового поля, но и просто не в состоянии в одиночку обеспечить решение этой проблемы. Как известно, даже крупнейшие поисковые машины Интернета охватывают лишь 30-40% от всего объема опубликованных материалов и производят их централизованную индексацию в течение нескольких недель, что никак не решает проблему оперативного обновления поисковой информации.
Инфраструктура распределенного коммуникативно-поискового пространства
Постановка задачи
Огромные объемы текстовой информации в цифровом формате заставляют нас искать модели распределенных вычислений, ведь уже сейчас ясно, что подобные семантические индексации потребуют огромных ресурсов. Технологии GRID, разрабатываемые сегодня мировым научным сообществом (CERN, Fermi Lab) и отдельными коммерческими компаниями, по нашему мнению, наиболее соответствуют требованиям распределенных семантических сетей. Поставщиками электронной информации сегодня могут выступать такие библиотечные консорциумы как АРБИКОН, поскольку они непосредственно взаимодействуют с производителями этой информации, в первую очередь, с вузами. В настоящий момент в мировом сообществе имеются существенные технологические наработки в области программного обеспечения с открытым кодом, позволяющие собрать необходимую вычислительную инфраструктуру для обеспечения хранения, анализа и доступа к полнотекстовым ресурсам, а также к той информации и тем знаниям, которые можно в них найти.
Форматы данных
В целях практического удобства работы с системой необходимо максимально упростить процедуру передачи оригинального цифрового материала. Большинство авторов документов не являются специалистами в информационных технологиях, и было бы неправильно водружать на них обязанность конвертировать свои данные, например, в XML. На стадии приемки материалов необходимо автоматизировать процесс конвертации (или распознавания) входных данных и перевода их во внутренний формат хранения. С точки зрения внутреннего устройства системы это, скорее всего, должен быть XML или специальным образом организованная реляционная база данных (с возможностью сохранения в XML). Таким образом, входящий оригинал документа может сохраняться в его первоначальном виде, но официально утвержденная версия, предназначенная для долгосрочного хранения и семантической обработки должна быть приведена к стандартному виду.
Created by oomnik
Last modified 2006-12-20 17:22
« May 2012 »
Mo Tu We Th Fr Sa Su
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
 
 

Powered by Plone

This site conforms to the following standards: