ПОКАЗАТЕЛИ СЕМАНТИЧЕСКИХ СВЯЗЕЙ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Главная » Информатика » ПОКАЗАТЕЛИ СЕМАНТИЧЕСКИХ СВЯЗЕЙ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ
Информатика Комментариев нет

Интернет располагает огромным количеством баз данных (БД) по различным от — раслям науки и техники, которые помогают получать человеку необходимые знания. По — иск в таких БД осуществляется при помощи информационно-поисковых систем (ИПС), в структуру которых входит лингвистическое, программно-техническое и информационное обеспечение. Особое внимание следует уделять исследованиям, касающимся лингвисти — ческого обеспечения ИПС, потому что именно его средства позволяют находить более полную и достоверную информацию, отвечающую требованиям пользователей [1,2].

Перед пользователями в ходе работы с ИПС, как правило, возникают проблемы полноты и точности информационного поиска. Одним из средств «борьбы» за точность и пертинентность информационного поиска является систематизация публикаций. Кроме того, повышению полноты и точности поиска способствует технология построения запро — сов, основанная на соответствующей систематизации предметных областей. Установление парадигматических отношений между лексическими единицами (ЛЕ) как раз позволяет систематизировать понятия.

В связи с этим возникает необходимость количественного анализа качества ин — формационного поиска, осуществляемого по реализуемым в ИПС поисковым алгоритмам и методам, а также построения математических моделей для оценки эффективности ин —

формационного поиска. В первую очередь для этого следует определить количественные показатели, характеризующие качество поиска с различных сторон.

1. Отражение семантических связей в поисковых запросах и характеризующие их количественные показатели

Для сравнительного анализа механизмов информационно-поисковых языков (ИПЯ) в различных ИПС целесообразно использовать количественные показатели, ха — рактеризующие результаты выполнения запросов, отражающих основные смысловые

связи, такие как: отношения иерархии − вышестоящее родовое, вышестоящее целое, ни —

жестоящее видовое, нижестоящее часть; отношения тождества − учет синонимов; отно —

шения ассоциации. В качестве запросов тогда предлагается составить специальными об —

разом последовательность лексических единиц, все члены которой будут связаны четки- ми парадигматическими отношениями: Qm(i), где i=0=(д), i=1=(с), i=2=(вр), i=3=(вц), i=4=(нч), i=5=(нв), i=6=(а), (д) – заглавный дескриптор, называемый запросом базового уровня, (с) – ЛЕ, которая является синонимом к (д), (вр) – ЛЕ, которая является выше — стоящим родовым к (д), (вц) – ЛЕ, которая является вышестоящим целым к (д), (нч) – ЛЕ, которая является нижестоящим частичным к (д), (нв) – ЛЕ, которая является ниже — стоящим видовым к (д), (а) – ЛЕ, которая является ассоциацией к (д) [3].

Каждому подмножеству запросов Qm(i) ставится в соответствие подмножество до — кументов Pm(i)(Sl), выдаваемое в конкретной ИПС Sl. Мощность N(Pm(i)(Sl)) подмножества Pm(i)(Sl) является случайной величиной, реализация которой представляет собой количе —

ство релевантных документов Аi (Qm, Sl), выдаваемых на i-ую ЛЕ последовательности за —

просов Qm в ИПС Sl.

Характеристики семантических связей в ИПС представляют собой показатели,

определяемые выражениями

J ij (Qm, Sl ) = N (Pm (i ) , Sl ) / N (Pm (i ) , Sl ) , которые являются случай —

ными величинами. Реализации таких показателей семантических связей вычисляются по формулам J ij (Qm, Sl ) = Ai (Qm, Sl ) / Aj (Qm, Sl ) .

При моделировании информационно-поисковый механизм можно трактовать как отображение ϕ, которое ставит в соответствие подмножеству Qm(i) подмножество Pm(i): ϕ : Qm (i ) → Pm ( i ) . Согласно рассматриваемой нами концепции учета семантических связей

в простой форме поиска алгоритм поиска должен быть оптимизирован так, чтобы отоб — ражение ϕ удовлетворяло следующим свойствам: N(ϕ(Qm(д))<N(ϕ(Qm(вр)); N(ϕ(Qm(д))<N(ϕ(Qm(вц)); N(ϕ(Qm(д))>N(ϕ(Qm(нч)); N(ϕ(Qm(д))>N(ϕ(Qm(нв)); N(ϕ(Qm(д))∼N(ϕ(Qm(с)); N(ϕ(Qm(д))∼N(ϕ(Qm(а)).

Если члены последовательности Qm рассматривать с точки зрения теории нечетких

множеств [4, 5], то вполне очевидными являются следующие отношения (знаки включе — ния могут быть нестрогими, знаком «∼» здесь будем обозначать семантическую эквива- лентность нечетких множеств): Qm(д)⊂Qm(вц); Qm(д)⊂Qm(вр); Qm(д)⊃Qm(нч); Qm(д)⊃Qm(нв); Qm(д)∼Qm(с); Qm(д)∼Qm(а). Основным выдвигаемым в данной работе предположением являет —

ся то, что из определенных таким образом отношений между членами последовательно —

сти Qm должны вытекать следующие соотношения для реализаций: А0(Qm, Sl)<А2(Qm, Sl); А0(Qm, Sl)<А3(Qm, Sl); А0(Qm, Sl)>А4(Qm, Sl); А0(Qm, Sl)>А5(Qm, Sl); А0(Qm, Sl)∼А1(Qm, Sl); А0(Qm, Sl)∼А6(Qm, Sl) (для числовых величин знак «∼» здесь обозначает близость их значе —

ний). Отсюда очевидным образом следуют свойства реализаций основных показателей семантических связей: J20>1; J30>1; J40<1; J50<1; J10∼1; J60∼1; J16∼1.

Для практического применения указанных свойств можно сформулировать следую —

щее правило: если хотя бы одно из указанных неравенств для реализаций показателей се- мантических связей Jij не выполняется, то нет оснований предполагать, что в обследованных ИПС реализованы алгоритмы, автоматически учитывающие парадигматические отношения между лексическими единицами (терминами) запросов в полном объеме при простой форме поиска. Однако обратное утверждение нельзя сформулировать в категорической форме.

Можно лишь утверждать, что если все указанные неравенства для реализаций Jij выполня —

ются, то это не означает наличия в подсистеме поиска ИС алгоритмов, автоматически учиты —

вающих семантические связи в полном объеме при простом поиске.

2. Корреляции показателей семантических связей на примере исследования открытых информационно-поисковых систем

Для проведения исследований была выделена следующая группа показателей {J10, J20, J30, J40, J50, J60, J23, J45}. Использованные последовательности запросов Qm, члены ко- торой составлены на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведены в табл. 1.

Последовательности запросов

Таблица 1

Вид

Q1

Q2

Q3

Q4

Q5

д

музей

линейная алгебра

языкознание

библиотека

обучение

с

галерея

алгебра Банаха

лингвистика

книгохранилище

воспитание

вр

учреждение культуры

математиче-

ская наука

гуманитарные науки

учреждение культуры

педагогиче-

ский процесс

вц

музейное дело

высшая алгебра

филология

центральная биб-

лиотечная система

образование

нч

экспонат

линейное

уравнение

семантика

школьная

библиотека

заочное

обучение

нв

музей-

заповедник

матричная алгебра

психолингви-

стика

книжный фонд

лекционное занятие

а

искусство

определитель

алфавит

библиотекарь

ученик

2013. №1 (144). Выпуск 25/1

Были выбраны десять наиболее популярных русскоязычных ИПС, для которых обозначения и адреса приведены в табл. 2, а также даты обращений к ним.

Сайты информационно-поисковых систем

Таблица 2

Обозначение ИПС

Адрес ИПС

Дата ввода запроса

S1

nigma. ru

15.03.12

S2

qip. ru

15.03.12

S3

mail. ru

15.03.12

S4

bing. com

15.03.12

S5

ngs. ru

15.03.12

S6

yandex. ru

27.03.12

S7

google. ru

27.03.12

S8

rambler. ru

27.03.12

S9

aport. ru

27.03.12

S10

ru. yahoo. com

27.03.12

Методика проведения исследований следующая. В строке поиска ИПС S1 (по адре — су из табл. 2) вводится первая ЛЕ последовательности Q1 (вид отношения – (д) из табл. 1). Количество выданных по этому запросу документов есть величина А1(Q1(д), S1). За — тем в этой же ИПС вводится второй член последовательности Q1 (вид отношения – (с) из табл. 1). Количество выданных по этому запросу документов есть величина А2(Q1(с), S1). И так далее для всех членов последовательностей всех запросов по табл. 1 во всех ИПС из табл. 2, в результате чего получается необходимый набор реализаций Аi(Qm, Sl). Затем с помощью этих величин вычисляются реализации показатели семанти — ческих связей. Для иллюстрации ниже в табл. 3 приведены реализации Jij для последова — тельности запросов Q2 из табл. 1.

Таблица 3

Qm

Jij

S1

S2

S3

S4

S5

S6

S7

S8

S8

S9

Q2

J10

0,011

0,011

0,149

0,012

0,010

0,008

0,040

0,011

0,010

0,022

J20

20,526

20,00

14,92

7,547

20,50

19,50

13,092

19,00

20,00

7,721

J30

2,158

2,500

1,179

2,161

2,000

2,000

3,211

2,500

2,000

2,403

J40

1,684

2,000

0,463

1,904

1,500

1,500

0,287

2,000

1,500

1,890

J50

0,632

1,000

0,313

0,087

0,500

0,500

2,513

1,000

0,500

0,084

J60

1,737

2,000

44,77

1,331

1,500

1,500

26,447

2,000

1,500

1,244

J23

9,512

8,000

12,65

3,492

10,25

9,750

4,078

7,600

10,000

3,213

J45

2,667

2,000

1,476

21,85

3,000

3,000

0,114

2,000

3,000

22,47

Для количественного анализа связей между механизмами ИПЯ рассматриваемых ИПС были определены наиболее схожие показатели. Результаты предварительного ана — лиза показали, что для дальнейшего исследования идентичности следует отобрать группу ИПС: S1={nigma. ru}, S2={qip. ru}, S5={ngs. ru}, S6={yandex. ru}, S8={rambler. ru}, S9={aport. ru}.

Согласно методу корреляционного анализа связей семантических особенностей поисковых механизмов автоматизированных информационных, были рассчитаны коэф-

фициенты парных корреляции

r(Qm, Si, S j ) . Из вычисленных таким образом коэффици-

ентов корреляции были составлены корреляционные матрицы [5]. Для примера ниже приведена корреляционная матрица для последовательности запросов Q2 в выделенном подмножестве шести ИПС {S1, S2, S5, S6, S8, S9}, рассчитанная по данным табл. 3:

Видно, что коэффициенты парных корреляций очень близки к единице. Анало — гичным образом выглядят остальные корреляционные матрицы, в которых коэффициен — ты парных корреляций все примерно равны 0,99, что свидетельствует об очень высокой степени корреляции, то есть тесноты связи между механизмами ИПЯ выбранных пар ИПС. Для таких очень близких к единице значений (0,99) нет необходимости анализиро — вать статистическую значимость всех коэффициентов корреляции.

Для сравнения пар ИПС можно использовать парный критерий Стьюдента [6]. В качестве примера приведем результаты сравнения по этому критерию ИПС S1 и S5 для по- следовательности запросов Q2. Для этих ИПС экспериментальных данных из таблицы 3 наблюдаемое значение парного критерия Стьюдента T(Q2, S1, S5)=0,355. Критическая точ — ка двусторонней области распределения Стьюдента для пятипроцентного уровня значи — мости: t0,05(7)=2,365. Видно, что выполняется неравенство T(Q2, S1, S5)=0,355<2,365=t0,05(7). Это означает, что результаты наблюдений для ИПС S1 и S5 различаются незначимо. Аналогичным образом была проверена значимость различия остальных всевозможных пар ИПС выбранной группы.

Наличие тесной связи, то есть гипотезу об аналогичности механизмов ИПЯ вы — бранной группы ИПС, можно подтвердить методом однофакторного дисперсионного анализа [5]. В качестве факторных групп выступают наборы значений восьми индексов

{J10, J20, J30, J40, J50, J60, J23, J45} для каждого запроса в выделенном подмножестве шести

ИПС {S1, S2, S5, S6, S8, S9}. Поэтому количество групп p=6, а число уровней фактора q=8,

тогда числа степеней свободы распределения Фишера-Снедекора k1=p−1=5, k2=p⋅(q−1)=42.

Для показателей соответствующих столбцов {S1, S2, S5, S6, S8, S9} были вычислены групповые средние < J (Qm, Sl ) > по каждой ИПС для каждой последовательности запросов,

общие средние

< J общ (Qm ) >

для каждой фиксированной последовательности запросов из

табл. 1, факторные и остаточные дисперсии; наблюдаемые значения критерия Фишера —

Снедекора. Результаты вычисления групповых и общих средних приведены в табл. 3.

Групповые < J (Qm, Sl ) > и общие средние < J общ (Qm ) >

Таблица 3

< J (Qm, Sl ) >

S1

S2

S5

S6

S8

S9

< J общ (Qm ) >

Q1

0,9562

0,9163

0,9085

0,9153

0,8920

0,8987

0,9102

Q2

4,8658

4,6889

4,9075

4,4196

4,5138

4,8138

4,7516

Q3

2,6802

2,7300

2,7534

2,7534

2,7300

2,7296

2,7211

Q4

2,8997

2,7128

3,1482

3,2136

2,6155

2,6696

2,8765

Q5

1,4871

1,1398

1,8167

1,8256

1,1424

1,7912

1,5334

Результаты вычисления факторных и остаточных сумм и дисперсий, а также наблюдаемых значений критерия Фишера-Снедекора приведены в табл. 4.

Результаты однофакторного дисперсионного анализа

Таблица 4

Q1

Q2

Q3

Q4

Q5

2

sфакт

0,001048

0,164326

0,016912

0,521108

0,867311

2

sост

0,634645

45,72453

6,761433

30,41392

11,81401

Fнабл

0,001651

0,003594

0,002501

0,017134

0,073414

Для указанных значений степеней свободы и уровня значимости α=0,05 критиче —

ская точка распределения Фишера-Снедекора F0,05(5; 42)=2,43769. Из последней строки

табл. 4 видно, что для всех запросов выполняется неравенство Fнабл<Fα(k1; k2), поэтому различие между механизмами ИПЯ выбранной группы ИПС признается незначимым, то есть случайным на заданном пятипроцентном уровне значимости.

На основании полученных результатов можно сделать вывод о том, что все меха —

низмы ИПЯ рассматриваемой группы ИПС {S1, S2, S5, S6, S8, S9} являются идентичными.

2013. №1 (144). Выпуск 25/1

3. Устойчивость показателей семантических связей

В связи с быстрым накоплением информации, появлением новых знаний, следует произвести анализ результатов поиска в ИПС в течение времени. Для анализа устойчивости с

течением времени результатов информационного поиска целесообразно использовать коли —

чественные показатели, характеризующие выполнение последовательности запросов. В про- веденных компьютерных экспериментах была использована последовательность запроса Q3 (табл. 1), а в качестве ИПС S был выбран наиболее полярный поисковик Google.

Поскольку в различные моменты времени результаты информационного поиска по одному и тому же запросу могут отличаться, а результат выполнения запроса заранее предсказать нельзя, то величины Аi=Аi(t) и Jij=Jij(t) следует рассматривать как случайные процессы. В результате проведения одного и того же запроса в различные моменты вре — мени можно получить реализацию соответствующего случайного процесса. Для анализа будем использовать группу показателей {J10, J20, J30, J40, J50, J60, J23, J45, J16}.

Методика проведения исследований следующая. В строке поиска ИПС S={Google}

вводится первая ЛЕ последовательности Q(д). Количество выданных по этому запросу до — кументов есть величина А1(t1). Затем в этой же ИПС вводится второй член последователь- ности Q(с). Количество выданных по этому запросу документов есть величина А2(t1). И так далее для всех членов последовательности Q, в результате чего получается необходимый набор объемов Аi(t1). Затем с помощью этих величин вычисляются реализации Jij=Jij(t1).

Далее вся процедура повторяется через определенные интервалы времени. Изме — рения проводились с частотой два раза в неделю в период с 28.05.12 по 08.10.12. В резуль — тате получен целый набор значений для различных моментов времени Jij(t1), Jij(t2),… Jij(tn), которые представляют собой реализации соответствующих случайных процессов. На рис. 1 представлены графики полученных реализаций некоторых процессов Jij(t).

Хорошо видно, что результаты информационного поиска испытывают флюктуа —

ционные колебания, а величины каждого показателя группируются около определенных

проведено n=39 наблюдений в указанный период времени.

Результаты вычисления средних значений, исправленных дисперсий и довери —

тельных интервалов для средних приведены в табл. 5 (после сглаживания).

Таблица 5

J10

J20

J30

J40

J50

J60

J23

J45

J16

J ij

1,562

0,916

1,312

0,389

0,532

1,263

0,650

0,932

1,745

Исправленная

дисперсия

1,501

0,600

0,286

0,054

0,101

0,766

0,081

0,088

1,777

Доверит.

интервал

(1,141;

1,983)

(0,658;

1,175)

(1,122;

1,502)

(0,312;

0,466)

(0,423;

0,642)

(0,962;

1,563)

(0,551;

0,749)

(0,829;

1,036)

(1,256;

2,234)

Таким образом, по результатам исследований динамики показателей информацион-

ного поиска, приведенных в данном пункте, можно сформулировать следующие выводы.

1) Результаты информационного поиска с течением длительного времени испыты — вают колебания, которые носят стохастический характер в силу флюктуаций работы в глобальной сети.

2) С течением времени реализации каждого показателя полноты семантических связей группируются около соответствующих средних значений.

3) Проведенные исследования демонстрируют наличие устойчивости результатов

поисковых запросов в глобальной сети в течение времени.

Заключение.

Гипотеза об идентичности особенностей ИПЯ при простой форме поиска для таких популярных поисковиков, как nigma. ru, qip. ru, ngs. ru, yandex. ru, rambler. ru, aport. ru, под-

тверждена экспериментальными данными методами корреляционного анализа, одно — факторного дисперсионного анализа, а также с помощью анализа значимости различия по парному критерию Стьюдента.

Проведенное исследование динамики реализаций показателей семантических свя — зей показало наличие устойчивости их поведения во времени. В частности, установлено, что реализации показателей семантических связей группируются около соответствующих

средних значений.

Следует отметить, что для полученных данных при исследовании Интернет-

поисковых систем сформулированные в п.1 неравенства выполняются не для всех запро-

сов и не для всех показателей. Более того, исследование устойчивости в Google также де — монстрирует, что указанные неравенства выполняются не для всех выделенных реализа — ций показателей семантических связей Jij. Поэтому нет оснований предполагать, что в об — следованных ИПС реализованы алгоритмы, автоматически учитывающие парадигмати — ческие отношения между лексическими единицами (терминами) запросов в полном объ — еме при простой форме поиска.

Материал взят из: Научные ведомости Белгородского государственного университета (История Политология Экономика Информатика) — № 1 (144) 2013

(Visited 1 times, 1 visits today)