Як кожен Інтернет-користувач безкоштовно допомагає оцифруванню всіх книг світу

Дослідник Луїс вон Ан проектує системи, які поєднують можливості комп’ютерів і людей для вирішення глобальних завдань та придумав, як безкоштовно залучити Інтернет-користувачів до розпізнавання відсканованих текстів.
Всім інтернет-користувачам доводиться час від часу доводити, що вони не комп’ютерні програми, і найпоширеніший спосіб цієї ідентифікації полягає в розпізнаванні спотворених символів. Англійською мовою цей термін позначається як Captcha – на честь однойменного тесту, в розробці якого брав участь Луїс вон Ан.

Більшість людей мають константність сприйняття – і можуть розпізнати букву А незалежно від того, яким кольором вона буде намальована, чи буде жирною чи, наприклад, написана курсивом. Комп’ютерні програми сьогодні в принципі здатні розпізнати спотворений символ, але справляються з цим завданням набагато менш ефективно.

На цьому зразку комп’ютер не зміг розпізнати слово morning, тому система запропонувала його юзеру. Щоб успішно виконати свою основну функцію – не допустити реєстрації бота на сайті – reCaptcha пропонує йому друге слово, яке комп’ютер розпізнати зміг, а значить зможе оцінити коректність відповіді користувача.

На розшифровку одного Captcha витрачається в середньому 10 секунд, і якщо взяти до уваги, що кожен день приблизно 200 мільйонів людей по всьому світу вводять хоча б один Captcha, то виявиться, що кожну добу втрачається 500 000 годин людського часу.

Вон Ан придумав, а Ticketmaster, Facebook, Twitter підхопили ідею поєднати неминуче з корисним – раз вже ви розшифровуєте спотворені символи, то чому ви повинні розшифровувати абстрактні, нікому не потрібні знаки? Замість цього ви можете витратити 10 секунд, щоб допомогти програмі розпізнати незрозуміле слово з книги, яку потрібно оцифрувати для проекту Google Books, або старого видання The New York Times.

Цікаво, що чим старша книга, тим більше в ній слів, які викликають труднощі у програм при оцифруванні – сторінки жовтіють, друк вицвітає; це призводить до того, що у книг старших 50 років приблизно 30% слів програми не можуть розпізнати. Саме ці слова сьогодні пропонує розпізнати програма reCaptcha, яку придумав вон Ан – і саме її віджети використовуються на сайтах Ticketmaster, Facebook, Twitter, завдяки чому розпізнається приблизно 100 мільйонів слів в день і 2,5 мільйона книг на рік.

За матеріалами Pro-books