Дмитрий Калашников, Орфограммка: «Писать грамотно стало модно — это часть имиджа»

Дмитрий Калашников, Орфограммка: «Писать грамотно стало модно — это часть имиджа»

О сложностях, с которыми приходится сталкиваться разработчикам систем проверки грамотности, преимуществах «облачных» сервисов проверки и отношении к ним инвесторов, а также тенденциях и перспективах рынка в интервью нашему изданию ToWave.ru рассказал сооснователь «Орфограммки» Дмитрий Калашников.

26 августа 2013

«Орфограммка» — онлайновый сервис для проверки грамотности текстов.

У вас один из самых «социально полезных» онлайновых сервисов. Но неужели в Рунете ни один из существующих сервисов не в состоянии хотя бы частично решить эту задачу? В чём заключается проблема при разработке таких систем?

Русскоязычных сервисов проверки орфографии довольно много, однако, все подобные инструменты проверяют только правильность написания отдельных слов. Задача эта относительно простая и делается «на коленке» условно за день, но такая проверка не выявит ошибок. Например, в предложении «В течении для я у стал, но работали над задача» с точки зрения орфографии всё нормально, однако оно содержит по меньшей мере шесть ошибок.

Гораздо сложнее с грамматикой, пунктуацией, стилистикой и прочим, тут нужен более основательный подход. Самая популярная и довольно качественная российская разработка в этой области — продукт «ОРФО» компании «Информатик», который раньше поставлялся с MS Office и которым пользовалась вся страна.

Многие с ностальгией вспоминают «мультик анальный» и «стриптиз ершей». Сейчас этот продукт продаётся отдельно, а в Microsoft решили сделать собственную проверку орфографии и грамматики (правда, пока у них это не особо получается).

По словам небезызвестного Игоря Ашманова — разработчика системы «ОРФО», а ныне владельца компании «Информатик» — на разработку у них тогда ушло порядка 300 человеко-лет. То есть это задача, мягко говоря, нетривиальная, как, впрочем, любая задача в области обработки естественного языка. Но мы рискнули.

Дмитрий Калашников, Орфограммка: «Писать грамотно стало модно — это часть имиджа»

Одно из преимуществ сервиса, о котором вы упоминаете, — проверки, невозможные для десктопных решений. Что это за проверки? 

Это проверки на выявление «осмысленных» опечаток, или малапропизмов, когда опечатка в слове превращает его в другое слово, которое оказывается не в своём контексте.

Вот реальные примеры малапропизмов: «томный шоколад», «догорая редакция», «добро побелило зло», «оральная поддержка», «блинная юбка», «уголовное дуло», «трупы по философии», «нежно гадил её руки», «300 дочек на дюйм», «есть основания полгать» и т.д.

Особое коварство таких семантических ошибок в том, что они не определяются спелл-чекерами, поскольку ошибочное слово имеется в словаре. Тут нужны другие алгоритмические подходы.

В частности, мы используем статистические и сложные вероятностные модели для выявления подобных случаев, которые требуют больших объёмов данных (десятки гигабайт). Вот почему есть сложности с десктопным решением, хотя можно сделать плагин к текстовому процессору, который будет отправлять текст для проверки на наш сервер, а оттуда уже получать отчёт об ошибках.

Но мы считаем это неактуальным, поскольку все офисные приложения уходят «в облака», и разумнее интегрироваться, например, с MS Office 365 и Google Docs.

Не отсекается ли из-за жёсткой привязки к интернету та часть потенциальных клиентов, которым нужен такой сервис, но не всегда есть качественное подключение?

Опять же, доля онлайн-сервисов для создания текстового контента постоянно растёт, интернет как средство связи становится всё доступнее.

Используя веб-сервис, пользователь может не привязываться к платформам. Например, у русскоязычных «яблочников» и линуксоидов до недавнего момента не было нормальной проверки правописания.

Вы планируете реализовывать свой сервис в виде мобильного приложения?

В среднесрочных планах — сделать приложения для MS Office 365. Также у пользователей есть возможность вставить текст из буфера обмена и посмотреть отчёт об ошибках прямо в браузере.

На какие данные вы опирались при оценке рынка в нормостраницах? Если говорить о монетизации, сегодня вы уже задействовали какой-то из каналов дохода или всё это только в планах?

Все данные — из открытых источников. Мы взяли десяток крупнейших книжных издательств, интернет-издания; подсчитали количество курсовых работ, диссертаций и самиздатовских сочинений, объёмы копирайтерских бирж и многое другое. Получили 160 млн. нормостраниц (стандартная величина у корректоров и переводчиков — 1800 знаков с пробелами).

По нашим прикидкам, это, скорее, оценка снизу, поскольку сложно подсчитать объёмы, например, внутрикорпоративной документации: сколько пишется деловых писем и прочего. Зато мы знаем, что в России только студентов 11 миллионов, все они пишут рефераты, курсовые и, кому повезёт, дипломные работы. И их надо проверять как минимум на соответствие ГОСТам: как оформлены рисунки, таблицы, список литературы, все ли ссылки на них присутствуют и т.д.

Это огромные объёмы текстов, которые сейчас проверяются вручную. Наша миссия — облегчить этот неблагодарный труд. Другими словами, «Орфограммка» — всего лишь инструмент, который не заменит человека, но существенно упростит процесс корректуры.

Монетизация сервиса пока только в планах. Однако мы надеемся, что для обычных пользователей сервис останется бесплатным (как компромисс — плата только за большие документы), а платить будут крупные клиенты, вроде издательств и корпораций.

У вас серьёзная команда, состоящая не только из IT-шников, но и лингвистов, филологов. Кто был идейным вдохновителем сервиса? Как собирали команду и как сегодня строите свою работу?

Идея «Орфограммки» не взялась «с потолка». Мы делали на заказ похожую систему проверки манускриптов для английского языка, во время разработки которой и получили немалый опыт в компьютерной лингвистике.

Весной 2012 года меня посетила мысль сделать что-то подобное для родного языка, я высказал идею, а мои коллеги Константин и Максим меня поддержали, им это тоже показалось интересным.

«Орфограммка» — это ведь не просто инструмент для проверки правописания, это нечто большее. Мы хотим создать веб-сервис, который бы бережно относился к каждому напечатанному знаку и «знал», как правильно пишутся новые слова. Например, «интернет» или «Интернет», «email» или «e-mail», «массмедиа» или «масс-медиа», «блоггер» или «блогер».

Сейчас люди идут на gramota.ru за ответами на эти вопросы, но там надо искать, спрашивать, ждать ответа. А у нас всё проверяется за несколько минут.

С самого начала было понятно, что без экспертов по языку в таком проекте не обойтись, и мы пригласили Ирину и Ольгу, профессиональных филологов-русистов. Помимо них, нас в команде трое: Константин ответственен за весь front-end, Максим разрабатывает и оптимизирует фундаментальные алгоритмы, а я, как носитель концепции, описываю правила и алгоритмы новых проверок, формулирую задания для наших филологинь и немного руковожу проектом.

Пока «Орфограммка» — это единственный проект, который мы активно развиваем. Но параллельно, в свободную минутку, мы продумываем концепцию и прототип системы для всестороннего интеллектуального развития детей и взрослых на основе уникальной методики. Под этот проект мы тоже будем искать инвестора, но это уже другая история.

Для вывода на рынок коммерческой версии вам необходимо около 3,5 млн рублей. Вы пытались искать инвесторов среди российских фондов или структур типа «Сколково»?

Да, в самом начале, когда был только прототип, мы подавали заявку в «Фонд содействия развитию малых форм предприятий в научно-технической сфере». Но нам отказали, вероятно, посчитав проект неактуальным или недостаточно инновационным.

А частные инвесторы проявляют интерес к вашему сервису? Например, какие-то крупные издательства или медиакорпорации?

Частные же инвесторы пока весьма осторожны, поскольку в России аналогов нашего продукта не существует и, следовательно, нет проверенной схемы монетизации. А быть первыми все как-то боятся — вероятно, проще вкладывать деньги в очередные тревел и купонные стартапы.

Хотя на западном рынке продукты вроде нашего имеют коммерческий успех — к примеру, Grammarly, который, кстати, пишут киевляне. Да и вообще, на Западе сейчас подъём издательского бизнеса (один стартап marquee.by чего стоит!), который, надеюсь, доберётся и до нас.

Проявляют некоторый интерес издательства. Дело в том, что на Западе у крупных издательств существуют стилистические справочники, которые регламентируют написание тех или иных названий, понятий и т. д. Например, есть The Associated Press Stylebook, своего рода Библия для американских журналистов; или же MHRA Style Guide для английских коллег.

Похожие стилистические руководства есть и у наших медиагигантов типа «РИА-новости», но, насколько я знаю, они недоступны широкой публике, в отличие от западных аналогов. И вот в этой «тонкой настройке» под нужды издательств мы видим свой B2B-рынок.

Сегодня проект развивается на наши собственные средства, но все ресурсы уходят только на разработку, поэтому о нас пока мало кто знает, нужен грамотный маркетинг.

Возможность превратиться в журналиста или автора, которые дают сегодня новые медиа любому желающему, вызвала потоки безграмотности в Интернете. Смогут ли сервисы вроде вашего как-то изменить эту ситуацию? Перспективы развития таких сервисов?

Вы правы, текстов стало много, но их качество сильно упало, и это общемировая тенденция. Однако есть обратный процесс — несколько лет назад в Рунете был в моде «албанский» язык, а сегодня его и след простыл. Писать грамотно стало модно — встречают по грамотности, теперь это своего рода часть имиджа.

Орфографическая ошибка в деловом письме или резюме запросто испортит репутацию; опечатка же в газетной статье может иметь серьёзные последствия (например, заголовок статьи на полит.ру — «Жак Ширак подержал Владимира Путина в калининградском вопросе»). В «КоммерсантЪ-daily» была статья, в которой Бахтияра Хамидова, министра финансов и вице-премьера, назвали «бывшим» вместо «высшим» — эта опечатка дорого обошлась автору, её уволили.

Мы считаем, что помогаем людям не только исправить ошибки в своих текстах, но и научиться грамотности в процессе их исправления. Ведь почти каждый комментарий «Орфограммки» содержит подробное описание ошибки и ссылку на нашу библиотеку, с помощью которой мы можем опереться на непререкаемый авторитет Лопатина, Мильчина и Розенталя. Поэтому при желании человек может перепроверить ошибочный случай, посмотрев в учебник, и повысить уровень своей грамотности.

Ещё у нас в планах сделать что-то вроде персональных учебников для каждого пользователя, где будут собраны подробные пояснения к наиболее частым ошибкам, которые присутствуют в их текстах. Кстати, один мой знакомый высказал мысль, что наш продукт имеет потенциал образовательного проекта, что-то вроде проверки грамотности сочинений школьников.

На мой взгляд, развитие подобных сервисов — это узкая специализация, подстройка под нужды различных категорий пользователей.

Например, сейчас у нас пользователь может выбрать только два профиля для проверки своего текста: беллетристика и курсовая/дипломная работа. Однако в планах существенное расширение возможностей для проверки разных жанров и стилей: научная статья, диссертация, деловое письмо, роман/повесть и т. д.

Исходя из общего вектора развития подобных систем, можно говорить о более глубоких смысловых проверках, об усилении помощи компьютера в написании текста и даже об автоматической генерации контента на заданную тему. Например, уже есть прототипы систем по генерации спортивных репортажей.

И напоследок — из истории ляпсусов. В 1971 году газета «Ленинградская правда» напечатала материал о выставке детских работ, которая проходила в Этнографическом музее. Там упоминались акварели (в том числе с «балом бабочек») и керамические фигурки (в том числе статуэтка доброго льва). Текст статьи вышел под заголовком: «Добрый лев и бал бабочек». Неудобство заголовка проявилось, когда диктор радио стал зачитывать содержание свежего номера газеты.

Автор: Оксана Ткаченко

Комментировать

Содержание этого поля является приватным и не предназначено к показу.
Капча
Это вопрос для проверки человек ли вы, и для предотвращения спама.