Развитие Natural Language Processing: статистика

 

 

 

 

 

 

 

 

Успехи Natural Language Processing (NLP) в сфере языковых услуг просто неоценимы. Это и система автоматизированного перевода, и машинный перевод документов, и предиктивный набор текста. Все эти возможности базируются на NLP.

Развитие Natural Language Processing (обработки естественного языка) началось в далеких 1950-х годах. Однако сначала направление науки развивалось туго. Первые прорывы NLP были замечены в 1980‑х годах. В связи с заметным и не заканчивающимся увеличением объема данных также можно наблюдать рост обработки естественного языка.  Однако люди не всегда правильно понимают определение NLP (например, это касается области, где специалисты  пытаются обучить понимать человеческий язык компьютерную технику), поэтому оценки объема рынка NLP не всегда отвечают действительности.

Как предсказывает MarketsandMarkets, объем мирового рынка NLP к 2020 году должен достигнуть  13,4 млрд $. В свою очередь Technavio заявляет, что к 2019 году ожидает роста рынка Natural Language Processing до 11 млрд $. Третьим можно поставить заверения Tractica, который утверждает, что общий доход сектора NLP в 2024-м году вырастет до 2,1 млрд $. Откуда же такая разница в подсчетах?

Это происходит из-за довольно расплывчатого определения термина NLP

MarketsandMarkets в свое время обозначил самое структурированное и широкое  определение понятий, которые способствуют росту NLP. Сотрудники компании в своем отчете так разделяют участников рынка NLP:

MarketsandMarkets справедливо предполагает, что к 2020 году рынок NLP «увеличится до 13,4 млрд $ на уровне 18,4 %». На сегодняшний день, если сделать расчет, доход от Natural Language Processing составляет не много ни мало 5,76 млрд $.

В свою очередь Technavio привык делить на сегменты рынок в зависимости от  конечного пользователя (кто им является). Однако при этом компания рассматривает всего пять общих категорий:

Как прогнозируют специалисты Technavio, рост рынка NLP к 2019 году составит 22 млрд $. Сейчас доход от NLP,  если сделать детальный расчет за весь прошедший период, составляет примерно 6 млрд $. Как мы видим, несмотря на более узкое определение термина у компании Technavio, эта цифра мало отличается от прогноза MarketsandMarkets.

Если следовать логике, получается если в Tractica в 2015 году размер дохода от NLP оценивают всего лишь в 277 млн, то они значительно сужают спектр NLP. Но это не так. В обзоре Клинта Уилока отмечается, что в компании Tractica NLP считают «обобщающим термином, который применим к разнообразным связанным с компьютерами областям».

Tractica, прогнозируя к 2024 году рост рынка Natural Language Processing до 2,1 млрд $, рассматривала сразу ряд отраслевых вертикалей (при этом, если верить статистике, в 3-х из них NLP отличается конкурентным преимуществом, в 6-ти уже подходит к этому, еще в 6-ти — развивается), а после добавила сумму доходов от услуг, а также аппаратного и программного обеспечения.

Клинт Уилок признал, что машинный перевод не был включен в отчет, несмотря на то, что в отчете компании Tractica он упоминается несколько раз как основной случай применения NLP.

А вот как объяснил расхождение в оценках рынка NLP Сет Граймс – консультант и аналитик и консультант в данной сфере: «точно подсчитать общий вклад NLP в доход от более крупных услуг и продуктов, которые применяют NLP… довольно проблематично».

При этом консультант пояснил, что применяемые в широко распространенных сферах продукты NLP могут быть «слишком узкими или новыми, чтобы привлечь внимание аналитиков». Также Сет Граймс задел больной вопрос зрелости рынка, заявив, что, рынку интеллектуального анализа данных примерно 30 лет, а первые глобальные попытки коммерческого использования анализа текста (который включает в себя NLP) были замечены в 2004 году. Несмотря на то, что более специализированные и современные аналитические технологии, несмотря на их возможность благотворно повлиять на конечный результат, в деловых операциях применяются не так широко.

Кроме всего прочего Сет Граймс определил, что именно следует исключить из прогнозов роста рынка NLP: правительственные, академические и промышленные исследования, так как указанные виды деятельности на объем рынка не влияют до тех пор, пока услуга или продукт не будут проданы. Также аналитик советовал отказаться от  работ, которые выполняются внутри корпорации время от времени и которые иногда имеют значительную стоимость. К примеру, это может быть анализ текста, осуществляемого в процессе создания информационных продуктов компаниями вроде Reed Elsevier или Thomson Reuters.

Однако компания Tractica зашла в деле исключения слишком далеко, как считает Граймс. Аналитик обратил внимание, что в отчет включены кроме всего прочего и персональные помощники (Siri от Apple), тогда как в 2015 году продано 231 миллион новеньких iPhone. Если в программе Siri технологии NLP стоят четверть доллара на каждом проданном девайсе, выходит, что стоимость NLP только здесь — 56 млн $. Здесь также нужно учесть, что как и в других системах, в Siri используется специальная голосовая технология от Nuance, которая работает с текстом, речью и изображениями. При этом  NLP в продукции Nuance лежит в основе. Если учесть, что в 2015 году доход Nuance  составил 1,93 млрд $, можно подсчитать, что одна эта сумма превышает общий показатель объема рынка почти в 7 раз.

Сет Граймс кроме всего прочего подверг критичному сомнению список 20 главных игроков отрасли, отобранных Tractica. Аналитик удивился — как именно компания пришла к полученной оценке таких крупнейших корпораций, как IBM, где NLP считается ключевым компонентом Watson и Google (где NLP нужна для поиска информации).

При этом он назвал список катастрофически неполным, несмотря на то, что в нем представлены две самые маленькие компании на рынке: Genee и Aylien. Также Граймс отметил, что заметил в списке Tractica мелкие компании (например BirdEye), которые используют NLP в неосновных видах деятельности. При этом в документе отсутствуют такие, как Facebook, HP, SAP, и многие другие. И это странно, поскольку как корневой элемент NLP присутствует почти во всем, что создают компании Baidu, Google, Microsoft, IBM, Facebook и Amazon. Об этом Граймс заявил в опубликованной в этом месяце  на ресурсе Slator статье.

Из всего вышесказанного можно сделать вывод: огромная разница в цифрах характеризует тот факт, что среда еще достаточно незрела. А это означает, что продолжится бурное развитие инноваций NLP. И это вполне закономерно.