Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Формат результата - вопросы #9

Open
konstantin-smith opened this issue Jan 14, 2016 · 20 comments
Open

Формат результата - вопросы #9

konstantin-smith opened this issue Jan 14, 2016 · 20 comments

Comments

@konstantin-smith
Copy link

  1. Правильно ли я понял, что формат результата описан в документе версии 1 от 24.12.2015 как файлы .task1, .task2 и .task3?
  2. По поводу 2-й дорожки - результат будет сравниваться с данными из файлов .coref?
  3. Почему из 57 текстов только 3 имеют coref, это намеренно?
  4. В документации имя атрибута "имя персоны" задано как Firstname, а в coref - name, так какое правильно? Есть где-нибудь просто список корректных имён атрибутов?
  5. Можете предоставить хотя бы для одного относительно большого текста пример файла .task2, чтобы там по возможности присутствовали все 3 типа объектов?
    Спасибо!
@vbocharov
Copy link
Contributor

  1. да
  2. да, но не 1 к 1, а компаратором для второй дорожки.
  3. недоразметили. Сделаем всем текстам эту разметку.
  4. ошибка. исправлю в разметке.
  5. вместе с компаратором для второй дорожки добавим.

@konstantin-smith
Copy link
Author

Понятно, то есть пока всё более-менее готово для 1-й дорожки, 2-я ожидается.

@vbocharov
Copy link
Contributor

Да. Демосет для первой дорожки ещё дополним. Там ещё есть размеченные, но не отмодерированные документы.

@konstantin-smith
Copy link
Author

Извиняюсь за настырность, сверим алгоритм компаратора дорожки 1.
Запись .task1 проверяется на соответствие записи из .objects, в которой во 2-м столбце тип (Location=LOC, Person=PER, Org=ORG), а в 3-м столбце один или несколько id атрибутов из .spans. У этих записей .spans берутся смещения и длины из 2-го и 3-го столбцов, POS сравнивается со смещением первого атрибута, POS + LEN - с суммой смещения и длины последнего атрибута. Позиции начинаются с 0 (первый символ текста).
Так?

@vbocharov
Copy link
Contributor

cc @StanDzh: Стас, выходи обсуждать компаратор!

@asolov
Copy link

asolov commented Jan 15, 2016

Есть некоторые ошибка в коллекции (и грамматическая и фактическая):
loc_name "агенству" в "Бхутто заявила по телефону агенству France-Presse"

@asolov
Copy link

asolov commented Jan 15, 2016

еще вопросы:

  1. "ё" учитывается?
  2. в коллекции есть слова с прописной буквы, которые обозначены как org_name, например,
    израильского правительства
    администрация
    американском музее аэронавтики
    палаты представителей
    жюри « Новой волны - 2009 »
    ленинградского « Телевизора » и пр.
  • часть из них пересекаются с org_descr. Это ошибки или так задумано?

@StanDzh
Copy link
Collaborator

StanDzh commented Jan 15, 2016

Добрый день

@konstantin-smith: Да, если я правильно понял вопрос, сравнение эталона с тестом происходит именно так.

@asolov
Copy link

asolov commented Jan 15, 2016

иначе: вопрос в том, почему "израильское правительство" org_name , а "японское правительство" org_descr ? Они чем-то отличаются?

@vbocharov
Copy link
Contributor

@asolov , спасибо за замечания!

Отвечаю подробно:

Про "Ё": мы предполагаем, что текстовые строки в результатах работы систем участников соревнования взяты из исходного текста. В некоторых случаях мы ожидаем, что эти строки будут нормализованы.

Правильно ли я понимаю, что вопрос о том, нужно ли проставлять или удалять "Ё" при нормализации?

attn @StanDzh: что ты делаешь с "Ё" в компараторе?

@vbocharov
Copy link
Contributor

@asolov

Про подробности разметки:

#324: (агенство) сменил тип спана. Это текст из Викиновостей. Опечатка в нём была с самого начала. Их мы сознательно не исправляем.

#247: (администрация) сменил тип спана.

При формулировании правил разметки нам нужно было решить, где провести границу. Крайние точки были такие:

  • выделять строго имена собственные (у государственных организаций их часто нет)
  • выделять значимые для текста сущности вне зависимости от того, какими словами они обозначены (это интереснее с практической точки зрения)

Выбранное правило для организаций ближе ко второму, чем к первому: "Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена." Мы приняли такое решение потому, что поверх разметки организаций мы делаем разметку фактов "работа" и "владение", а там нужны эти объекты, даже если у них нет имени.

Однако от участников не требуется выделять безымянные организации. Т.е. если в тексте написано "администрация", "школа" и не указано ничего больше, то в эталонной разметке эти слова должны быть выделены спаном org_descr и упоминанием объекта типа Org. На данный момент компаратор не должен штрафовать в первой и второй дорожках за невыделение организаций, которые в эталонной разметке содержат только спаны org_descr.

Если вместе с дескриптором организации указана "вышестоящая организация", относящаяся к этой безымянной организации как целое к части, то разметка выглядит так:

org_descr(D) org_name(N)
Org( org_name(N) )
Org( org_descr(D) org_name(N) )

Вместо "вышестоящей организации" может быть локация.

Такими примерами являются "администрация Кремля", "правительство Израиля".
За отсутствие таких объектов в первой и второй дорожке компаратор должен штрафовать.

Пример из текста #301 "израильского правительства" кажется очень похожим на "правительство Израиля". Поэтому его хочется разметить аналогично. Но мы не размечаем прилагательные ("израильский", "японский", "московский") как объекты. "правительство" мы отметили как org_descr. Чтобы создать упоминание типа Org нужен ещё один спан, охватывающий всё название целиком. Сейчас ставится org_name.

#263: (американский музей аэронавтики). Проверил по Википедии. Это не название музея (Национальный музей авиации и космонавтики). Переставил тип спана на org_descr. Теперь за его отсутствие не компаратор не должен штрафовать.

#252: (палаты представителей). Это название организации. Это словосочетание в тексте встречается 5 раз, но только один с маленькой буквы. Кажется, что ошибка в капитализации не должна быть причиной того, что мы эту организацию не выделяем.

#314: (жюри "Новой волны - 2009"). В идеале надо было бы отметить "Новой волны - 2009" каким-то другим типом спана, т.к. это не организация, а название события (сам по себе конкурс и другие подобные объекты мы не размечали никак). Сейчас не очень логично, но непонятно как сделать лучше.

#270: (ленинградского "Телевизора"). Размечено как два org_name, входящие в один Org, для того, чтобы компаратор признал правильными ответами как ["Телевизора"], так и [ленинградского "Телевизора"].

@konstantin-smith
Copy link
Author

Насчёт буквы Ё так ничего внятного и не сказано. Например, для текста "спросили Петра Иванова" атрибут name должен быть "Пётр" или "Петр"? Или оба варианта правильные? Как будет проверяться? Регистр букв вроде обещали не проверять, так?

@asolov
Copy link

asolov commented Jan 18, 2016

Спасибо за ответы.
#314: (жюри "Новой волны - 2009"). - это, безусловно, событие - "Новой волны - 2009" - его нет смысла размечать, это отдельный тип сущности. В таком случае еще вопрос: "Кубок Кремля" в вашей разметке будет org, geo или не будет размечаться?

Пример из текста #301 "израильского правительства" - можно пояснить еще раз:
какая из разметок корректная:
27765 org_descr 1953 22 291493 2 # 291493 291494 японское правительство
и
27843 org_name 1242 26 293882 2 # 293882 293883 израильского правительства

следующие сущности, как мне кажется, так же ogr_descr:
22795 org_name 1451 21 144007 2 # 144007 144008 московского отделения
по аналогии с
27638 org_descr 71 17 274958 2 # 274958 274959 московского клуба

28168 org_name 614 37 316271 5 # 316271 316272 316273 316274 316275 отдела корпоративных серверов и сетей
28169 org_name 652 2 316276 1 # 316276 HP

  • здесь первая часть так же org_descr?

@StanDzh
Copy link
Collaborator

StanDzh commented Jan 18, 2016

Добрый день

О букве 'Ё': ответы "Петр" и "Пётр" полностью равнозначны. Это можно гарантировать на этапе компаратора, просто заменив все "ё" на "е" как в эталоне, так и в тесте. Аналогично с регистром.

@vbocharov, все правильно? Или мы все же хотим проверять регистр букв после нормализации?

@asolov
Copy link

asolov commented Jan 19, 2016

это, видимо, ошибка:
22748 org_name 392 3 141410 1 # 141410 КНР
в
141409 379 12 Председатель
141410 392 3 КНР
141411 396 2 Ху
141412 399 8 Цзиньтао
"председатель" никак не размечен.

@asolov
Copy link

asolov commented Jan 19, 2016

27632 org_name 330 11 273079 2 # 273079 273080 Спейс шаттл
27633 org_descr 319 9 273077 1 # 273077 Программа

  • название программы не может быть организацией;

26216 org_descr 124 17 210372 2 # 210372 210373 Национальный банк
26217 loc_name 142 7 210374 1 # 210374 Украины

  • в данном случае это org_name , т.к. название организации

@asolov
Copy link

asolov commented Jan 19, 2016

182437 45 6 пилота
182438 52 9 Формулы-1

  • Формула-1 в данном контексте организация - не размечено

169441 661 10 Российские
169442 672 6 власти
Российские - гео? - не размечено

144065 1808 11 Химкинского
144066 1820 4 леса
Химкинского - гео? - не размечено

@olgakanishcheva
Copy link

Скажите, играет роль последовательнсоть указания сущностей в результирующем файле? Т.е. можно ли сначала в файле будет все персоны, потом locations и т.д.?

@vbocharov
Copy link
Contributor

@StanDzh всё так. Не хотим проверять регистр вообще. Пусть будут равнозначны.

@vbocharov
Copy link
Contributor

@olgakanishcheva последовательность сущностей в файле не имеет значения.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants