Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Слова типа "1-й" #670

Open
grandsbor opened this issue Jul 26, 2015 · 5 comments
Open

Слова типа "1-й" #670

grandsbor opened this issue Jul 26, 2015 · 5 comments
Assignees

Comments

@grandsbor
Copy link
Member

У нас до сих пор не принято никакого решения, что мы делаем со словами типа "1-й", "22-летний", "34-местный" и т.п. Сейчас они все UNKN, и их сравнительно немало. Есть не менее трёх альтернатив:

  1. Добавляем эти формы в словарь, в парадигмы к полным словам. Т.е. в парадигме слова "третий" появятся формы "3-й", "3-я", "3-ему" и др. Далее как с любыми другими формами. Когда-то давно мы почему-то решили так не делать.
    1а. То же самое, но выносим все такие формы в отдельную лексему, потом между лексемами типа "2-й" и "второй" устанавливаем связь.
  2. В словарь ничего не добавляем. Делаем механизм связывания произвольного токена в корпусе с произвольной формой из словаря (или набором их). Вероятно, такой механизм потом пригодится для опечаток.

cc @victorbocharov @svbichineva

@svbichineva
Copy link

Мне нравится 1а, мы всё равно теперь аббревиатуры добавляем в словарь

Best,
Svetlana Alexeeva

26 июля 2015 г., в 21:22, Dmitry Granovsky notifications@github.com написал(а):

У нас до сих пор не принято никакого решения, что мы делаем со словами типа "1-й", "22-летний", "34-местный" и т.п. Сейчас они все UNKN, и их сравнительно немало. Есть не менее трёх альтернатив:

  1. Добавляем эти формы в словарь, в парадигмы к полным словам. Т.е. в парадигме слова "третий" появятся формы "3-й", "3-я", "3-ему" и др. Далее как с любыми другими формами. Когда-то давно мы почему-то решили так не делать.
    1а. То же самое, но выносим все такие формы в отдельную лексему, потом между лексемами типа "2-й" и "второй" устанавливаем связь.
  2. В словарь ничего не добавляем. Делаем механизм связывания произвольного токена в корпусе с произвольной формой из словаря (или набором их). Вероятно, такой механизм потом пригодится для опечаток.

cc @victorbocharov @svbichineva


Reply to this email directly or view it on GitHub.

@akmetainfo
Copy link
Contributor

Вариант 1 засоряет парадигму, становится слишком много всего в несортированном порядке.

Вариант 1а не засоряет парадигму, находится в русле текущего подхода. "Мы всё равно аббревиатуры добавляем в словарь" -- не приписывая же в ту же самую парадигму, засоряя её, а через прописывания связи. Накладные расходы немного выше, однако намного более читаемо.

Вариант 2 невыгоден тем, что нужно делать новый механизм (трудозатраты), при этом нужно заранее оценить возможность того, что этот механизм может и не пригодиться для опечаток.

Если есть какие-то соображения из теории лингвистики, может и выбор неочевиден, а в текущем варианте самым очевидным кажется именно 1а.

@vbocharov
Copy link

Первоначально мы хотели сделать 2. Тут 1а мне кажется вполне подходящим.

@grandsbor
Copy link
Member Author

Ок, спасибо

@victorbocharov
Copy link
Contributor

#873

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants