Открыт код исследовательского проекта по статистической оценке авторства текста

22.02.2013 19:01

Группа исследователей из нескольких европейских университетов опубликовала свои наработки в области автоматизированной оценки авторства текста на основе статистического анализа предыдущих работ. Система требует предварительного обучения для накопления статистических данных, т.е. после анализа точно принадлежащих автору работ позволяет в дальнейшем оценить является ли лицо автором произвольного текста. Код проекта написан на языке С++ и открыт под лицензией GPLv2. Дополнительно доступна статья с изложением используемого в приложении математического аппарата.

Изначально проект был нацелен на решение задачи определения авторства исторических документов, сведения об авторах которых утеряны или поставлены под сомнение. Тем не менее, у разработки имеются большие перспективы при решении современных задач, от определения авторства электронных писем, анонимных обращений к правоохранительным органам и заметок в блогах, до выявления плагиата в научных и художественных публикациях, организации новых систем поиска в Web и задействования в средствах борьбы со спамом.

исправить +4 +/–

Главная ссылка к новости (http://www.theregister.co.uk/2...)

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/36200-text

Ключевые слова: text, statistic, math

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (41)

1.2, жабабыдлокодер (ok), 19:52, 22/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Спецслужбы одобряют. Вы все еще думаете, что Вы анонимны и Вас нельзя найти?

2.16, pavlinux (ok), 02:05, 23/02/2013 [^] [^^] [^^^] [ответить]

+9 +/–

Преподы будут рефераты банить :)
---
Ну что, предлагаю открыть проект по анонимизации и обфускации текстов.
Подстановка синонимов, замена оборотов, др. греческого языка и латыни,
цепочку машинных переводов, например:

русский -> албанский -> хинди -> японский -> албанский -> хинди -> русский.
После такой цепочки первый абзац, этого сообщения, выглядит вот так :)

Ну, у меня есть проект открытое анонимное греческое местоимение обмена деловой текст
запутывания, расположение, серии, например, другой машинный перевод латинского, предложил:

3.26, Чел (?), 14:11, 23/02/2013 [^] [^^] [^^^] [ответить]	+1 +/–
Опоздал, соешники тока этим и занимаются ))) Целая индустрия.

4.28, Andrey Mitrofanov (?), 15:16, 23/02/2013 [^] [^^] [^^^] [ответить]

+/–

>соешники

СОИ или SEO? А, %)понял:

> тока этим и занимаются )))

5.39, The Doctor (ok), 11:44, 25/02/2013 [^] [^^] [^^^] [ответить]	–1 +/–
Про CEO забыл :)

2.18, бедный буратино (ok), 02:48, 23/02/2013 [^] [^^] [^^^] [ответить]	+3 +/–
> Спецслужбы одобряют. Вы все еще думаете, что Вы анонимны и Вас нельзя найти? Если проверить на местных анонимах, то между ними не найдётся никакой разницы. Думают-то не они. :)

3.40, Аноним (-), 23:15, 25/02/2013 [^] [^^] [^^^] [ответить]	+/–
Разумеется, vox Populi vox Dei.

2.22, Константавр (ok), 09:52, 23/02/2013 [^] [^^] [^^^] [ответить]	+1 +/–
Да ладно вам, вон скандал с подделкой докторских диссертаций недавно вылез. Представьте, если каждый реферат и докторскую такой штукой проверять - как поднялся бы уровень образования :)

3.24, Аноним (-), 11:45, 23/02/2013 [^] [^^] [^^^] [ответить]	+5 +/–
Неужели вместо докторской подсовывали сервелат?

4.33, Аноним (-), 19:12, 23/02/2013 [^] [^^] [^^^] [ответить]	+1 +/–
Ливерную, en masse.

3.25, тоже Аноним (ok), 12:15, 23/02/2013 [^] [^^] [^^^] [ответить]	+/–
Чтобы подтвердить авторство текста, нужны другие тексты того же автора в той же стилистике. Вы можете с уверенностью показать на какой-нибудь реферат и утверждать, что его писал автор? Это всегда компиляция. Тем более, что стилистика научных работ - это такой диалект канцелярита, в обычной жизни ни один нормальный человек в такой манере не пишет. Тут скорее анализ покажет, что большинство всех научных работ на русском языке написаны одним и тем же человеком. А если еще подключить детектирование характерной девиантной симптоматики...

1.3, Аноним (-), 19:53, 22/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
стилистический и лингвистический анализ для деанонимизации анонимусов по заказу ФСБ =)

2.5, Аноним (-), 20:36, 22/02/2013 [^] [^^] [^^^] [ответить]	+1 +/–
Вообще-то Британской разведки

3.9, verus (ok), 22:13, 22/02/2013 [^] [^^] [^^^] [ответить]	+/–
Неа! Британских ученых :-D

4.41, Аноним (-), 23:18, 25/02/2013 [^] [^^] [^^^] [ответить]	+/–
Чего минусуете, учёные-то действительно британские.

1.4, oneonfire (?), 20:20, 22/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Что-то не хочет оно работать, segmentation fault!

2.7, Аноним (-), 21:04, 22/02/2013 [^] [^^] [^^^] [ответить]	–1 +/–
> Что-то не хочет оно работать, segmentation fault! А вот и первые запалившиеся.

1.6, Аноним (-), 21:04, 22/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
> Дополнительно доступна статья А на ней тест проходит? :)

1.8, YetAnotherOnanym (ok), 21:37, 22/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Как раз вовремя для нашего ВАК'а.

1.10, meequz (ok), 22:16, 22/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Если оно и правда работает, угадайка на следующей грелке будет ещё весёлей, чем обычно:)

1.11, meequz (ok), 22:41, 22/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
У кого-нибудь работает без сегфолта?

1.12, Аноним (12), 00:05, 23/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Всё, п****ц мои курсовым.

1.13, ip1981 (ok), 01:03, 23/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> or (at your option) any later version.

1.14, ip1981 (ok), 01:04, 23/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
https://github.com/matthewberryman/author-detection/blob/master/Base2.cpp#L38 Жесть какая.

2.17, Аноним (-), 02:32, 23/02/2013 [^] [^^] [^^^] [ответить]	+/–
Есть такое. Ну может зато они математики хорошие...

2.29, freehck (ok), 15:30, 23/02/2013 [^] [^^] [^^^] [ответить]	+/–
А в чем проблема? Совершенно правильный код.

2.31, nyt (?), 17:12, 23/02/2013 [^] [^^] [^^^] [ответить]	+/–
Или вот: bool test = ValidFile(tab, nbFichier); if (test == true) https://github.com/matthewberryman/author-detection/blob/master/main.cpp#L146

3.44, qqq (??), 13:43, 26/02/2013 [^] [^^] [^^^] [ответить]	+/–
> bool test = ValidFile(tab, nbFichier); > if (test == true) Чтобы читать было легче. Ну или автоматически искать где требуется истинность условия. Функциональность от такой записи никак не страдает. Всё равно и if (ValidFile(tab, nbFichier)) {...} и bool test = ValidFile(tab, nbFichier); if (test) {...} и то, что написано у них будет преобразовано в один и тот-же код. Разве что test у них ещё где-нибудь используется.

1.15, ip1981 (ok), 01:10, 23/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Глядя на исходники вспоминаю http://www.youtube.com/watch?v=Oj4vXMRenFo

1.19, www2 (??), 07:48, 23/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
На сайте fantlab.ru тоже есть такая система. Только она применяется не для поиска автора произведения, а для оценки соответствия стиля конкретного произведения авторскому стилю. Например, произведения, написанные в соавторстве имеют меньший процент соответствия авторскому стилю каждого из авторов, чем произведения, написанные ими самостоятельно.

2.23, Аноним (-), 10:28, 23/02/2013 [^] [^^] [^^^] [ответить]	+1 +/–
зато у этих есть новость на опеннет,а у fantlab нету

1.34, PSV (?), 01:41, 24/02/2013 [ответить] [﹢﹢﹢] [ · · · ]

+/–

Мега открытие века!

Линейный метод (mda) обогнал нелинейный (svm) в ситуации когда экспериментальных точек оказалось практически столько же сколько (чаще даже меньше) что и параметров при каждой из них.

Да, немаловажно что все подтверждено "проверенным временем" (читай --- замшелым) вариантом бутстрепа --- тривиальным "складным ножом". Очевидно просто бутсрепом посчитанные доверительные интервалы потрясали закаленное воображение авторов :)

Я так понимаю просто увидеть AUC мегаметодики невозможно в принципе (вместо ROC видим имитирующие (вольно или невольно) её псевдографики)

1.35, Loooooker (ok), 17:40, 24/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> был нацелен на решение задачи определения авторства исторических документов, сведения об авторах которых утеряны или поставлены под сомнение Интересно, а с основной задачей оно справляется? Много идентифицировали авторов?

2.42, PSV (?), 00:38, 26/02/2013 [^] [^^] [^^^] [ответить]	+/–
В статье пример есть. Все что может их чудо "метод" --- выбрать максимум среди 4х авторов (представленных кучей текстов каждый) самого правдоподобного (где то в инетах были их труды по моему (ну или таких же сумасшедших лингвистов)). С ростом числа авторов "методика" не работает, скорее всего AUC метода в районе 0.6. Короче фигня, фокусники. Вообще лингвисты радуют, они селекции феатур не ведут похоже принципиально :) И это имея их чуть ли не сотни тысяч в анализе.

1.36, неАноним (??), 07:53, 25/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А каким образом, точнее как, они реализуют алгоритм, который сможет проанализировать намерения автора текста и его настроение во время написания текста? Это бред. Человек, он же автор текста, не робот ведь. Сегодня у человека хорошее настроение и в его тексте, не важно какой тематики, это отразится, а завтра у него плохое настроение(любимый певец погиб в автоаварии, например Алла Пугачева) и это отразится в тексте в виде определенной конструкции существительных, глаголов, деепричастий и в том числе и паразитных слов. Плюс еще ошибки станет допускать, которые до этого были не свойственны автору. Так что все это бред, весь этот статический анализ.

2.43, PSV (?), 00:40, 26/02/2013 [^] [^^] [^^^] [ответить]	+/–
> А каким образом, точнее как, они реализуют алгоритм, который сможет проанализировать намерения > автора текста и его настроение во время написания текста? Это бред. > Человек, он же автор текста, не робот ведь. Сегодня у человека > хорошее настроение и в его тексте, не важно какой тематики, это > отразится, а завтра у него плохое настроение(любимый певец погиб в автоаварии, > например Алла Пугачева) и это отразится в тексте в виде определенной > конструкции существительных, глаголов, деепричастий и в том числе и паразитных слов. > Плюс еще ошибки станет допускать, которые до этого были не свойственны > автору. Так что все это бред, весь этот статический анализ. ну почерк у человека сохраняет свои черты даже в сложных условиях.... другое дело что работа слабая.

3.45, НеАнонимВроде (?), 16:32, 26/02/2013 [^] [^^] [^^^] [ответить]	+/–
Рукописный да. Но не машинописный же.

4.46, PSV (?), 01:37, 01/03/2013 [^] [^^] [^^^] [ответить]	+/–
ну сам процесс машинописной печати известный вариант биометрии :)

1.37, неАнонимВедь (?), 08:16, 25/02/2013 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А вот злоумышленники воспользуются этим алгоритмом чтобы подставить кого нибут например. Это настоящий подарок для подлых людей.

1.38, Аноним (-), 10:51, 25/02/2013 [ответить] [﹢﹢﹢] [ · · · ]

+/–

"Изначально проект был нацелен на решение задачи определения авторства исторических документов, сведения об авторах которых утеряны или поставлены под сомнение."

Ну тут цели вполне понятны, так как других более удачных инструментов для объективного установления авторства исторических документов просто не существует. Поэтому в этой безвыходной, для кого-то(кому это надо, кто эти люди, где они получают прибыль, что у них на уме, чем болеют эти люди?), ситуации можно в ШУТКУ или ради ШУТКИ или просто ради БАЛОВСТВА использовать эти алгоритмы статистического анализа. Все это можно воспринимать только как прикол или баловство, но серьезно к этому относиться нельзя.

"Тем не менее, у разработки имеются большие перспективы при решении современных задач, от определения авторства электронных писем, анонимных обращений к правоохранительным органам и заметок в блогах, до выявления плагиата в научных и художественных публикациях, организации новых систем поиска в Web и задействования в средствах борьбы со спамом."

Ну а это вообще полный бред. Потому что для того чтобы определить автора произвольного текста, действительно ли он является автором другого текста, понадобится достаточно накопленная база текста того самого автора произвольного текста(имеется ввиду наверно анонимного автора заметок в блоге).

Для борьбы со спамом это точно никак не поможет. И новым системам поиска это точно никак не пригодится.

1.47, Лукас (ok), 10:50, 02/03/2013 [ответить] [﹢﹢﹢] [ · · · ]

+/–

а вот аналогичная отечественная работа 1974-81 года (анализ данных проводился вручную без компьютера), проверка авторства Тихого Дона.

http://www.chronologia.org/xpon2/dop3.html

в институте я писал програмку на делфи, которая оценивала авторство по методу этой статьи. у меня она работала плохо из-за мусора в текстах в первичных данных.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: