Формат результата - вопросы #9

konstantin-smith · 2016-01-14T14:53:48Z

Правильно ли я понял, что формат результата описан в документе версии 1 от 24.12.2015 как файлы .task1, .task2 и .task3?
По поводу 2-й дорожки - результат будет сравниваться с данными из файлов .coref?
Почему из 57 текстов только 3 имеют coref, это намеренно?
В документации имя атрибута "имя персоны" задано как Firstname, а в coref - name, так какое правильно? Есть где-нибудь просто список корректных имён атрибутов?
Можете предоставить хотя бы для одного относительно большого текста пример файла .task2, чтобы там по возможности присутствовали все 3 типа объектов?
Спасибо!

vbocharov · 2016-01-14T14:57:50Z

да
да, но не 1 к 1, а компаратором для второй дорожки.
недоразметили. Сделаем всем текстам эту разметку.
ошибка. исправлю в разметке.
вместе с компаратором для второй дорожки добавим.

konstantin-smith · 2016-01-14T15:02:28Z

Понятно, то есть пока всё более-менее готово для 1-й дорожки, 2-я ожидается.

vbocharov · 2016-01-14T15:08:52Z

Да. Демосет для первой дорожки ещё дополним. Там ещё есть размеченные, но не отмодерированные документы.

konstantin-smith · 2016-01-14T15:31:54Z

Извиняюсь за настырность, сверим алгоритм компаратора дорожки 1.
Запись .task1 проверяется на соответствие записи из .objects, в которой во 2-м столбце тип (Location=LOC, Person=PER, Org=ORG), а в 3-м столбце один или несколько id атрибутов из .spans. У этих записей .spans берутся смещения и длины из 2-го и 3-го столбцов, POS сравнивается со смещением первого атрибута, POS + LEN - с суммой смещения и длины последнего атрибута. Позиции начинаются с 0 (первый символ текста).
Так?

vbocharov · 2016-01-14T15:40:45Z

cc @StanDzh: Стас, выходи обсуждать компаратор!

asolov · 2016-01-15T11:34:50Z

Есть некоторые ошибка в коллекции (и грамматическая и фактическая):
loc_name "агенству" в "Бхутто заявила по телефону агенству France-Presse"

asolov · 2016-01-15T11:48:25Z

еще вопросы:

"ё" учитывается?
в коллекции есть слова с прописной буквы, которые обозначены как org_name, например,
израильского правительства
администрация
американском музее аэронавтики
палаты представителей
жюри « Новой волны - 2009 »
ленинградского « Телевизора » и пр.

часть из них пересекаются с org_descr. Это ошибки или так задумано?

StanDzh · 2016-01-15T13:15:24Z

Добрый день

@konstantin-smith: Да, если я правильно понял вопрос, сравнение эталона с тестом происходит именно так.

asolov · 2016-01-15T13:26:46Z

иначе: вопрос в том, почему "израильское правительство" org_name , а "японское правительство" org_descr ? Они чем-то отличаются?

vbocharov · 2016-01-16T15:06:25Z

@asolov , спасибо за замечания!

Отвечаю подробно:

Про "Ё": мы предполагаем, что текстовые строки в результатах работы систем участников соревнования взяты из исходного текста. В некоторых случаях мы ожидаем, что эти строки будут нормализованы.

Правильно ли я понимаю, что вопрос о том, нужно ли проставлять или удалять "Ё" при нормализации?

attn @StanDzh: что ты делаешь с "Ё" в компараторе?

vbocharov · 2016-01-16T16:19:58Z

@asolov

Про подробности разметки:

#324: (агенство) сменил тип спана. Это текст из Викиновостей. Опечатка в нём была с самого начала. Их мы сознательно не исправляем.

#247: (администрация) сменил тип спана.

При формулировании правил разметки нам нужно было решить, где провести границу. Крайние точки были такие:

выделять строго имена собственные (у государственных организаций их часто нет)
выделять значимые для текста сущности вне зависимости от того, какими словами они обозначены (это интереснее с практической точки зрения)

Выбранное правило для организаций ближе ко второму, чем к первому: "Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена." Мы приняли такое решение потому, что поверх разметки организаций мы делаем разметку фактов "работа" и "владение", а там нужны эти объекты, даже если у них нет имени.

Однако от участников не требуется выделять безымянные организации. Т.е. если в тексте написано "администрация", "школа" и не указано ничего больше, то в эталонной разметке эти слова должны быть выделены спаном org_descr и упоминанием объекта типа Org. На данный момент компаратор не должен штрафовать в первой и второй дорожках за невыделение организаций, которые в эталонной разметке содержат только спаны org_descr.

Если вместе с дескриптором организации указана "вышестоящая организация", относящаяся к этой безымянной организации как целое к части, то разметка выглядит так:

org_descr(D) org_name(N)
Org( org_name(N) )
Org( org_descr(D) org_name(N) )

Вместо "вышестоящей организации" может быть локация.

Такими примерами являются "администрация Кремля", "правительство Израиля".
За отсутствие таких объектов в первой и второй дорожке компаратор должен штрафовать.

Пример из текста #301 "израильского правительства" кажется очень похожим на "правительство Израиля". Поэтому его хочется разметить аналогично. Но мы не размечаем прилагательные ("израильский", "японский", "московский") как объекты. "правительство" мы отметили как org_descr. Чтобы создать упоминание типа Org нужен ещё один спан, охватывающий всё название целиком. Сейчас ставится org_name.

#263: (американский музей аэронавтики). Проверил по Википедии. Это не название музея (Национальный музей авиации и космонавтики). Переставил тип спана на org_descr. Теперь за его отсутствие не компаратор не должен штрафовать.

#252: (палаты представителей). Это название организации. Это словосочетание в тексте встречается 5 раз, но только один с маленькой буквы. Кажется, что ошибка в капитализации не должна быть причиной того, что мы эту организацию не выделяем.

#314: (жюри "Новой волны - 2009"). В идеале надо было бы отметить "Новой волны - 2009" каким-то другим типом спана, т.к. это не организация, а название события (сам по себе конкурс и другие подобные объекты мы не размечали никак). Сейчас не очень логично, но непонятно как сделать лучше.

#270: (ленинградского "Телевизора"). Размечено как два org_name, входящие в один Org, для того, чтобы компаратор признал правильными ответами как ["Телевизора"], так и [ленинградского "Телевизора"].

konstantin-smith · 2016-01-17T11:55:57Z

Насчёт буквы Ё так ничего внятного и не сказано. Например, для текста "спросили Петра Иванова" атрибут name должен быть "Пётр" или "Петр"? Или оба варианта правильные? Как будет проверяться? Регистр букв вроде обещали не проверять, так?

asolov · 2016-01-18T08:14:52Z

Спасибо за ответы.
#314: (жюри "Новой волны - 2009"). - это, безусловно, событие - "Новой волны - 2009" - его нет смысла размечать, это отдельный тип сущности. В таком случае еще вопрос: "Кубок Кремля" в вашей разметке будет org, geo или не будет размечаться?

Пример из текста #301 "израильского правительства" - можно пояснить еще раз:
какая из разметок корректная:
27765 org_descr 1953 22 291493 2 # 291493 291494 японское правительство
и
27843 org_name 1242 26 293882 2 # 293882 293883 израильского правительства

следующие сущности, как мне кажется, так же ogr_descr:
22795 org_name 1451 21 144007 2 # 144007 144008 московского отделения
по аналогии с
27638 org_descr 71 17 274958 2 # 274958 274959 московского клуба

28168 org_name 614 37 316271 5 # 316271 316272 316273 316274 316275 отдела корпоративных серверов и сетей
28169 org_name 652 2 316276 1 # 316276 HP

здесь первая часть так же org_descr?

StanDzh · 2016-01-18T14:29:36Z

Добрый день

О букве 'Ё': ответы "Петр" и "Пётр" полностью равнозначны. Это можно гарантировать на этапе компаратора, просто заменив все "ё" на "е" как в эталоне, так и в тесте. Аналогично с регистром.

@vbocharov, все правильно? Или мы все же хотим проверять регистр букв после нормализации?

asolov · 2016-01-19T06:15:42Z

это, видимо, ошибка:
22748 org_name 392 3 141410 1 # 141410 КНР
в
141409 379 12 Председатель
141410 392 3 КНР
141411 396 2 Ху
141412 399 8 Цзиньтао
"председатель" никак не размечен.

asolov · 2016-01-19T10:06:13Z

27632 org_name 330 11 273079 2 # 273079 273080 Спейс шаттл
27633 org_descr 319 9 273077 1 # 273077 Программа

название программы не может быть организацией;

26216 org_descr 124 17 210372 2 # 210372 210373 Национальный банк
26217 loc_name 142 7 210374 1 # 210374 Украины

в данном случае это org_name , т.к. название организации

asolov · 2016-01-19T11:30:14Z

182437 45 6 пилота
182438 52 9 Формулы-1

Формула-1 в данном контексте организация - не размечено

169441 661 10 Российские
169442 672 6 власти
Российские - гео? - не размечено

144065 1808 11 Химкинского
144066 1820 4 леса
Химкинского - гео? - не размечено

olgakanishcheva · 2016-01-20T16:59:57Z

Скажите, играет роль последовательнсоть указания сущностей в результирующем файле? Т.е. можно ли сначала в файле будет все персоны, потом locations и т.д.?

vbocharov · 2016-01-20T19:36:12Z

@StanDzh всё так. Не хотим проверять регистр вообще. Пусть будут равнозначны.

vbocharov · 2016-01-20T19:36:48Z

@olgakanishcheva последовательность сущностей в файле не имеет значения.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Формат результата - вопросы #9

Формат результата - вопросы #9

konstantin-smith commented Jan 14, 2016

vbocharov commented Jan 14, 2016

konstantin-smith commented Jan 14, 2016

vbocharov commented Jan 14, 2016

konstantin-smith commented Jan 14, 2016

vbocharov commented Jan 14, 2016

asolov commented Jan 15, 2016

asolov commented Jan 15, 2016

StanDzh commented Jan 15, 2016

asolov commented Jan 15, 2016

vbocharov commented Jan 16, 2016

vbocharov commented Jan 16, 2016

konstantin-smith commented Jan 17, 2016

asolov commented Jan 18, 2016

StanDzh commented Jan 18, 2016

asolov commented Jan 19, 2016

asolov commented Jan 19, 2016

asolov commented Jan 19, 2016

olgakanishcheva commented Jan 20, 2016

vbocharov commented Jan 20, 2016

vbocharov commented Jan 20, 2016

Формат результата - вопросы #9

Формат результата - вопросы #9

Comments

konstantin-smith commented Jan 14, 2016

vbocharov commented Jan 14, 2016

konstantin-smith commented Jan 14, 2016

vbocharov commented Jan 14, 2016

konstantin-smith commented Jan 14, 2016

vbocharov commented Jan 14, 2016

asolov commented Jan 15, 2016

asolov commented Jan 15, 2016

StanDzh commented Jan 15, 2016

asolov commented Jan 15, 2016

vbocharov commented Jan 16, 2016

vbocharov commented Jan 16, 2016

konstantin-smith commented Jan 17, 2016

asolov commented Jan 18, 2016

StanDzh commented Jan 18, 2016

asolov commented Jan 19, 2016

asolov commented Jan 19, 2016

asolov commented Jan 19, 2016

olgakanishcheva commented Jan 20, 2016

vbocharov commented Jan 20, 2016

vbocharov commented Jan 20, 2016