Hatebase reāllaikā katalogizē pasaules naida runas, lai jums tas nebūtu jādara – TechCrunch


Naida runas kontrole ir tāda, ar kuru gandrīz katra tiešsaistes saziņas platforma cīnās. Tāpēc, ka, lai to policistu, jums tas ir jāidentificē; un lai to atklātu, jums tas ir jāsaprot. Hatebase ir uzņēmums, kura izpratne par naida runu ir kļuvusi par galveno misiju, un tas paredz, ka izpratne kā pakalpojums kļūst arvien vērtīgāks.

Būtībā Hatebase analizē valodas lietojumu tīmeklī, strukturē un kontekstualizē iegūtos datus un pārdod (vai nodrošina) iegūto datu bāzi uzņēmumiem un pētniekiem, kuriem nav kompetences to izdarīt pašiem.

Kanādas uzņēmums – neliela, bet pieaugoša darbība – parādījās Sentinel projekta pētījumos par zvērību prognozēšanu un novēršanu, pamatojoties uz konfliktu pārņemtajā reģionā izmantotās valodas analīzi.

"Tas, ko Sentinel atklāja, bija tas, ka naida kurināšana mēdz notikt pirms šo konfliktu saasināšanās," skaidroja Timotijs Kvins, Hatebase dibinātājs un izpilddirektors. “Es sadarbojos ar viņiem, lai izveidotu Hatebase kā izmēģinājuma projektu – būtībā daudzvalodu naida runas leksiku. Mūs pārsteidza tas, ka daudz citu NVO [non-governmental organizations] sāka izmantot mūsu datus tam pašam mērķim. Tad mēs sākām iegūt daudz komerciālu subjektu, izmantojot mūsu datus. Tāpēc pagājušajā gadā mēs nolēmām to izmantot kā startup. ”

Iespējams, ka jūs domājat: “Kas ir tik grūti, atklājot nedaudz etnisko trokšņu un naidpilnas frāzes?” Un, protams, ikviens var jums pateikt (varbūt negribīgi) visbiežāk sastopamos aizspriedumus un aizskarošās lietas savā valodā…, ko viņi zina. Naida kurināšanā ir daudz vairāk nekā tikai pāris neglīti vārdi. Tas ir viss slenga žanrs, un vienas valodas slengs aizpildītu vārdnīcu. Kā ir ar visu valodu slengu?

Mainīga leksikons

Kā Viktors Hugo uzsvēra rakstā Les Miserables, slengs (vai “argot” franču valodā) ir vissvarīgākā jebkuras valodas sastāvdaļa. Šie vārdi var būt “vientuļnieki, barbariski, dažreiz šausmīgi vārdi… Argots, kas ir korupcijas idioma, ir viegli sabojāts. Turklāt, tā kā vienmēr cenšas maskēties, tiklīdz uztver, ka to saprot, tas pats sevi pārveido. ”

Slengs un naida runas ir ne tikai apjomīgas, bet arī vienmēr mainās. Tāpēc tā kataloģizācijas uzdevums ir nepārtraukts.

Hatebase izmanto cilvēku un automatizētu procesu kombināciju, lai nokasītu publisko tīmekli ar naidu saistītu terminu izmantošanai. “Mēs izejam no daudziem avotiem – lielākais, kā jūs varētu iedomāties, ir Twitter – un mēs to visu ievelkim un nododam Hatebrain. Tā ir dabiskas valodas programma, kas iet caur pastu un atgriež patiesu, nepatiesu vai nezināmu. ”

Patiesība nozīmē, ka tas ir diezgan pārliecināts, ka runa ir par naida kurināšanu – kā jūs varat iedomāties, tam ir daudz piemēru. Viltus nozīmē, protams, nē. Un nezināms nozīmē, ka nevar būt pārliecināts; iespējams, tas ir sarkasms vai akadēmiska pļāpāšana par frāzi vai kāds, kurš lieto vārdu, kurš pieder grupai un mēģina to atgūt vai pārmest citiem, kas to lieto. Šīs ir vērtības, kas iziet caur API, un lietotāji var izvēlēties meklēt vairāk informācijas vai kontekstu plašākā datu bāzē, ieskaitot atrašanās vietu, biežumu, aizskarošās pakāpes līmeni utt. Izmantojot šāda veida datus, jūs varat izprast globālās tendences, saistīt aktivitātes ar citiem notikumiem vai vienkārši sekot līdzi strauji mainīgajai etnisko traucētāju pasaulei.

Naida runas tiek apzīmētas ar karodziņiem visā pasaulē – šodien to tika atklāts nedaudz, kā arī no tiem IP radītā platuma un garuma.

Tomēr Kvins neizliekas, ka process ir maģisks vai ideāls. "Ir tikai nedaudzi 100 procenti, kas nāk no Hatebrain," viņš paskaidroja. “Tas nedaudz atšķiras no mašīnmācīšanās pieejas, ko citi izmanto. ML ir lieliski, ja jums ir nepārprotams apmācību komplekts, taču ar cilvēku runu un naida runu, kas var būt tik niansēta, tieši tad rodas aizspriedumi. Mums vienkārši nav apjomīga naida runas korpusa, jo neviens var vienoties par to, kas ir naida kurināšana. ”

Tā ir daļa no problēmas, ar ko saskaras tādi uzņēmumi kā Google, Twitter un Facebook – jūs nevarat automatizēt to, ko nevar automātiski saprast.

Par laimi Hatebrain izmanto arī cilvēku inteliģenci brīvprātīgo un partneru korpusa formā, kas autentificē, lemj un apkopo neskaidrākos datu punktus.

“Mums ir ķekars NVO, kas ar mums sadarbojas valodiski daudzveidīgajos reģionos visā pasaulē, un mēs tikko uzsācām mūsu“ pilsoņu valodnieku ”programmu, kas ir mūsu uzņēmuma brīvprātīgā darba grupa, un viņi pastāvīgi atjaunina, apstiprina un attīra definīcijas, ”sacīja Kvina. “Mēs ļoti augstu ticamību piešķiram datiem, kurus tie mums sniedz.”

Šī vietējā perspektīva var būt būtiska, lai saprastu vārda kontekstu. Viņš minēja vārda piemēru Nigērijā, kas, lietojot starp vienas grupas dalībniekiem, nozīmē draugu, bet, ja šī grupa to lieto, atsaucoties uz kādu citu, tas nozīmē neizglītotu. Diez vai kāds, bet nigērietis, jums to spēs pateikt. Pašlaik Hatebase aptver 95 valodas 200 valstīs, un tās to visu laiku papildina.

Turklāt ir “pastiprinātāji”, vārdi vai frāzes, kas paši par sevi nav aizvainojoši, bet kalpo, lai norādītu, vai kāds uzsver saīsinājumu vai frāzi. Tajā nonāk arī citi faktori, no kuriem dažus dabiskās valodas dzinējs, iespējams, nespēj atpazīt, jo par tiem ir tik maz datu. Tāpēc komanda papildus definīciju atjaunināšanai pastāvīgi strādā arī pie parametru uzlabošanas, ko izmanto runas naidaprāta sastopamības klasificēšanai.

Labākas datu bāzes izveidošana zinātnei un peļņai

Sistēma tikko ieņēma savu miljono naida runas novērošanu (no varbūt desmitiem reižu, kad tika novērtētas daudzas frāzes), kas vienlaikus izklausās daudz un maz. Tas ir nedaudz tāpēc, ka runas apjoms internetā ir tik milzīgs, ka drīzāk tiek gaidīts, ka pat niecīga naida runas daļa to veido miljoniem un miljoniem.

Bet tas ir daudz, jo neviens cits nav izveidojis šāda izmēra un kvalitātes datu bāzi. Pārbaudīts miljonu datu punktu vārdu un frāžu kopums, kas klasificēts kā naida kurināšana vai naida kurināšana, pats par sevi ir vērtīga prece. Tāpēc Hatebase to bez maksas nodrošina pētniekiem un institūcijām, kas to izmanto humāniem vai zinātniskiem mērķiem.

Bet uzņēmumi un lielākas organizācijas, kas mēdz ārpakalpojumos izmantot naida runas atklāšanu, maksā licences maksu, kas uztur deg un ļauj brīvam līmenim pastāvēt.

“Es domāju, ka mums ir četri no desmit pasaules lielākajiem sociālajiem tīkliem, kas izmanto mūsu datus. Mēs esam ieguvuši ANO datus, NVO, vietējās hiperorganizācijas, kas darbojas konfliktu zonās. Mēs apkopojam datus par LAPD par pēdējiem pāris gadiem. Un mēs arvien vairāk runājam ar valdības departamentiem, ”sacīja Kvina.

Viņiem ir vairāki komerciāli klienti, no kuriem daudzi atrodas NDA pakļautībā, atzīmēja Kvina, taču pēdējie, kas pievienojās, to darīja publiski, un tas ir TikTok. Kā jūs varat iedomāties, šādai populārai platformai ir nepieciešama ātra, precīza moderēšana.

Faktiski tā ir kaut kāda krīze, jo ir spēkā likumi, kas uzņēmumiem paredz milzīgas soda sankcijas, ja tie nekavējoties nenoņem pārkāpēju saturu. Šāda veida draudi patiešām atslābj maka stīgas; Ja naudas sods varētu būt desmitos miljonu dolāru, ievērojamas daļas samaksa par tādu pakalpojumu kā Hatebase ir labs ieguldījums.

"Šīm lielajām tiešsaistes ekosistēmām ir jānovērš šī informācija no platformām, un tām ir jā automatizē noteikta procentuāla daļa no viņu satura moderēšanas," sacīja Kvina. “Mēs nekad nedomājam, ka spēsim atbrīvoties no mērenības, tas ir smieklīgs un neizpildāms mērķis; Tas, ko mēs vēlamies darīt, ir palīdzēt automatizācijai, kas jau ir ieviesta. Arvien reālāk kļūst tas, ka ikviena tiešsaistes kopiena, kas atrodas zem saules, izveidos savu masveida daudzvalodu naida runas datu bāzi, savu AI. Tādā pašā veidā uzņēmumiem vairs nav sava pasta servera, viņi izmanto Gmail vai arī viņiem nav serveru istabu, viņi izmanto AWS – tas ir mūsu modelis, ko mēs sevi saucam par naida kurināšanu kā pakalpojumu. Apmēram pusei no mums patīk šis termins, pusei nē, bet tas tiešām ir mūsu paraugs. ”

Hatebase komerciālie klienti jau kopš pirmās dienas ir padarījuši uzņēmumu rentablu, taču viņi “nekādā gadījumā neveic skaidrā naudā”.

"Mēs bijām bezpeļņas organizācijas, līdz mēs izgriezāmies, un mēs no tā neejam prom, bet mēs gribējām būt pašfinansējoši," sacīja Kvina. Paļauties uz bagāto svešinieku laipnību galu galā nav veids, kā turpināt uzņēmējdarbību. Uzņēmums pieņem darbā un iegulda līdzekļus savā infrastruktūrā, taču Kvīns norādīja, ka viņi nedomā par sulas pieaugumu vai kaut ko citu – vienkārši pārliecinieties, vai darba vietas, kuras jāveic, ir kāds, kas tās veiktu.

Tikmēr Kvinam un visiem pārējiem šķiet skaidrs, ka šāda veida informācijai ir patiesa vērtība, kaut arī tā reti ir vienkārša.

“Tā ir patiešām sarežģīta problēma. Mēs vienmēr ar to cīnāmies, jūs zināt, kāda loma ir naida runai? Kāda loma ir dezinformācijai? Kādu lomu spēlē sociālekonomika? ”Viņš sacīja. “Ir lielisks raksts, kas iznāca no Vorikas universitātes. Viņi pētīja sakarību starp naida kurināšanu un vardarbību pret imigrantiem Vācijā, es gribu teikt, no 2015. līdz 2017. gadam. Viņi to izklāsta. Un tās maksimuma maksimums, jūs zināt, derīgs Valley. Tas ir brīnišķīgs. Mēs neveicam daudz analīžu – mēs esam datu sniedzēji. ”

"Bet tagad ir, piemēram, gandrīz 300 universitāšu, kas savāc datus, un viņi veiciet šāda veida analīzes. Tātad tas mūs ļoti apstiprina. ”

Uzņēmuma vietnē varat uzzināt vairāk par Hatebase, pievienoties pilsoņu valodniekiem vai pētniecības partnerībai vai arī skatīt nesenos novērojumus un datu bāzes atjauninājumus.