-
Notifications
You must be signed in to change notification settings - Fork 31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Формат результата - вопросы #9
Comments
|
Понятно, то есть пока всё более-менее готово для 1-й дорожки, 2-я ожидается. |
Да. Демосет для первой дорожки ещё дополним. Там ещё есть размеченные, но не отмодерированные документы. |
Извиняюсь за настырность, сверим алгоритм компаратора дорожки 1. |
cc @StanDzh: Стас, выходи обсуждать компаратор! |
Есть некоторые ошибка в коллекции (и грамматическая и фактическая): |
еще вопросы:
|
Добрый день @konstantin-smith: Да, если я правильно понял вопрос, сравнение эталона с тестом происходит именно так. |
иначе: вопрос в том, почему "израильское правительство" org_name , а "японское правительство" org_descr ? Они чем-то отличаются? |
@asolov , спасибо за замечания! Отвечаю подробно: Про "Ё": мы предполагаем, что текстовые строки в результатах работы систем участников соревнования взяты из исходного текста. В некоторых случаях мы ожидаем, что эти строки будут нормализованы. Правильно ли я понимаю, что вопрос о том, нужно ли проставлять или удалять "Ё" при нормализации? attn @StanDzh: что ты делаешь с "Ё" в компараторе? |
Про подробности разметки: #324: (агенство) сменил тип спана. Это текст из Викиновостей. Опечатка в нём была с самого начала. Их мы сознательно не исправляем. #247: (администрация) сменил тип спана. При формулировании правил разметки нам нужно было решить, где провести границу. Крайние точки были такие:
Выбранное правило для организаций ближе ко второму, чем к первому: "Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена." Мы приняли такое решение потому, что поверх разметки организаций мы делаем разметку фактов "работа" и "владение", а там нужны эти объекты, даже если у них нет имени. Однако от участников не требуется выделять безымянные организации. Т.е. если в тексте написано "администрация", "школа" и не указано ничего больше, то в эталонной разметке эти слова должны быть выделены спаном org_descr и упоминанием объекта типа Org. На данный момент компаратор не должен штрафовать в первой и второй дорожках за невыделение организаций, которые в эталонной разметке содержат только спаны org_descr. Если вместе с дескриптором организации указана "вышестоящая организация", относящаяся к этой безымянной организации как целое к части, то разметка выглядит так: org_descr(D) org_name(N) Вместо "вышестоящей организации" может быть локация. Такими примерами являются "администрация Кремля", "правительство Израиля". Пример из текста #301 "израильского правительства" кажется очень похожим на "правительство Израиля". Поэтому его хочется разметить аналогично. Но мы не размечаем прилагательные ("израильский", "японский", "московский") как объекты. "правительство" мы отметили как org_descr. Чтобы создать упоминание типа Org нужен ещё один спан, охватывающий всё название целиком. Сейчас ставится org_name. #263: (американский музей аэронавтики). Проверил по Википедии. Это не название музея (Национальный музей авиации и космонавтики). Переставил тип спана на org_descr. Теперь за его отсутствие не компаратор не должен штрафовать. #252: (палаты представителей). Это название организации. Это словосочетание в тексте встречается 5 раз, но только один с маленькой буквы. Кажется, что ошибка в капитализации не должна быть причиной того, что мы эту организацию не выделяем. #314: (жюри "Новой волны - 2009"). В идеале надо было бы отметить "Новой волны - 2009" каким-то другим типом спана, т.к. это не организация, а название события (сам по себе конкурс и другие подобные объекты мы не размечали никак). Сейчас не очень логично, но непонятно как сделать лучше. #270: (ленинградского "Телевизора"). Размечено как два org_name, входящие в один Org, для того, чтобы компаратор признал правильными ответами как ["Телевизора"], так и [ленинградского "Телевизора"]. |
Насчёт буквы Ё так ничего внятного и не сказано. Например, для текста "спросили Петра Иванова" атрибут name должен быть "Пётр" или "Петр"? Или оба варианта правильные? Как будет проверяться? Регистр букв вроде обещали не проверять, так? |
Спасибо за ответы. Пример из текста #301 "израильского правительства" - можно пояснить еще раз: следующие сущности, как мне кажется, так же ogr_descr: 28168 org_name 614 37 316271 5 # 316271 316272 316273 316274 316275 отдела корпоративных серверов и сетей
|
Добрый день О букве 'Ё': ответы "Петр" и "Пётр" полностью равнозначны. Это можно гарантировать на этапе компаратора, просто заменив все "ё" на "е" как в эталоне, так и в тесте. Аналогично с регистром. @vbocharov, все правильно? Или мы все же хотим проверять регистр букв после нормализации? |
это, видимо, ошибка: |
27632 org_name 330 11 273079 2 # 273079 273080 Спейс шаттл
26216 org_descr 124 17 210372 2 # 210372 210373 Национальный банк
|
182437 45 6 пилота
169441 661 10 Российские 144065 1808 11 Химкинского |
Скажите, играет роль последовательнсоть указания сущностей в результирующем файле? Т.е. можно ли сначала в файле будет все персоны, потом locations и т.д.? |
@StanDzh всё так. Не хотим проверять регистр вообще. Пусть будут равнозначны. |
@olgakanishcheva последовательность сущностей в файле не имеет значения. |
Спасибо!
The text was updated successfully, but these errors were encountered: