Створено структуровану базу даних «Панама Архів»

Найбільший витік в історії інтернету: 2.6 terabytes




Міжнародний консорціум розслідувальних журналістів (ICIJ) випустили Панамський архів, найбільшу базу офшорних компаній, отриманих з комп'ютерів Панамської юридичної фірми Mosack Fonseca невідомими особами.

Анонім (John Doe) дав доповідачі німецької газети Süeddeustche Zeitung 2.6 terabytes of files — електронні листи, тексти літер, PDF, TIFF та інші формати, в тому числі найдавніші та вже невикористані. Здійснюючи масштаби роботи, вони попросили ICJI організувати міжнародний спільний проект.

Мільйони графіки пройшли через програму розпізнавання символів Tesseract на 40 тимчасових серверів у хмарі Amazon. Apache Solr був використаний для індексного тексту, Apache Tika був використаний для обробки документів в різних форматах.

Упродовж року архів навчався 370 журналістів з 80 країн. Щоб полегшити роботу з журналістами, розробниками ICIJ підключили графічний інтерфейс від бібліотечного проекту Blacklight. Щоб показати інформацію в графічному вигляді і відобразити взаємозв'язки між об'єктами, необхідно було використовувати фірмову програму Linkurious, а за допомогою інструмента Talend, вміст бази даних зв'язку Mosack Fonseca переведено в формат Neo4j.



В результаті роботи розробників пропонується оцінити всі через Інтернет.

База даних ICIJ в структурованому вигляді доступна на:
https://www.occrp.org/en/panamapapers/database.html

Ви можете завантажити копію на комп'ютер (35.7 MB в архіві).

  • Дані-csv.
  • Веб-камера



База даних містить інформацію про майже 214,000 офшорних фірм у 21 офшорних юрисдикціях.

Інтерактивна карта клієнтів офшорних компаній




До бази даних належать 11,516 компаній, що належать 6,285 громадян Росії. Серед них відносяться родичі та друзі високопосадовних посадових осіб. Таке масштабне витік документів може призвести до низки високопрофільних відкладень і кримінальних справ, хоча офшорні фірми часто працюють в сірому правовому полі, без порушення закону.

Опубліковано тільки частину 11,5 млн файлів, які вдалося отримати від комп'ютерів юридичної фірми Мозак Фонсека, одного з найбільших світових генераторів одноденних фірм.

Міжнародний консорціум слідчих журналістів не публікує всю доступну інформацію, не існує вихідних документів або велику базу персональних даних, відсутність банківських рахунків фірм, зміст електронної листової листової та фінансової угоди компаній. Це зроблено для того, щоб не розкрити персональні дані багатьох людей, які не беруть участь у фінансових злочинах.

Оприлюднено імена компаній, їх юрисдикцій, поштових адрес та імен керівників офшорних компаній. Дані охоплюють період з 1977 по 2015.

База архіву Панами публікується за ліцензією Creative Commons Attribution-ShareAlike. Міжнародний консорціум розслідувальних журналістів запрошує усіх представників спільноти до обговорення та класифікації опублікованої інформації.

ОНОВЛЕННЯ. Перша громада Geektimes


УД2. Друга громада Geektimes
Р



Джерело: geektimes.ru/post/275558/