Blog 05 april 2022

Text-mining for early detection of water-related substances

BTO Workshop on Text-Mining

Text-mining can automatically search through (large) amounts of textual information and bring the information together in a structured way. Many techniques and applications are conceivable.

During the workshop for drinking water companies and NORMAN members on 22 March 2022, techniques and applications from which the water sector can benefit were discussed. The workshop was organized in the context of the project ‘Text-mining for early detection of water-related substances’, part of the Joint Research Programme with the water utilities (BTO).

Figure 1. Words that the participants associated with the concept of text-mining.

The workshop started with a quiz on time involved in the human processing of text. Participants learned that about 8000 papers were published containing the keyword ‘drinking water’ in 2021 alone (source: Scopus). Adding historical published papers this amounted to more than 30,000 papers up to now. The average amount of abstracts a human can evaluate for usefulness is 180 per hour. Then, the average reading speed is 200 words per minute, and for technical documents, this drops to about 50 words per minute. This set the stage for text-mining as a valuable and neccesary way to efficiently sieve through textual information.

Nienke Meekel from KWR water presented possibilities on mining Twitter messages to find news on possible new industrial activities in the Rhine area. This revealed 13 activities that can be further investigated. Web-scraping allowed easy downloading of many documents (for instance, permits) or data files for further processing and integration. Information retrieval allowed for prioritization of these documents to read and extraction of relevant text parts to make reading less time-consuming.

Tessa Pronk from KWR continued with ‘Natural Language Processing’ (NLP) techniques to aid text processing with grammar rules. NLP was used to construct object – verb – subject triplets like ‘cumene’ ‘induced’ ‘mutations’ to get facts around a single chemical of interest. Some work is needed to optimize this task. Also, a way to recognize chemicals based on the character sequence was presented, and the option to associate groups of chemicals by co-occurrence in texts.

Participants could indicate the technique that could most readily be applied in their work. Figure 2 shows that these were web-scraping and information retrieval.

Figure 2. Voting results for readily useable techniques in the water sector.

The workshop ended with a hands-on exercise with a selected group with a working toy-example of web-scraping and NLP. In this group, the possibility of applying text-mining to find facts around chemicals and the statistical associations of chemicals by co-occurrence was found very interesting.

In this article in H2O magazine possibilities on text mining for the water sector are given in more detail (in Dutch): https://www.h2owaternetwerk.nl/vakartikelen/text-mining-voor-de-watersector. A report of the project ‘Text-mining for early detection of water-related substances’ will be delivered in 2022.

Gerelateerd

Projecten

Grip op (indirecte) lozingen

Waterschappen, omgevingsdiensten en gemeenten worden steeds vaker geconfronteerd met lozingen van grote hoeveelheden chemisch afval en andere ongewenste stoffen op het riool en hiermee indirect op het oppervlaktewater. Dit is schadelijk voor de infrastructuur van de rioolwaterzuivering…

Lees verder over Grip op (indirecte) lozingen
Bestrijdingsmiddelen in Nederlandse drinkwaterbronnen

In 2027 moet Nederland voldoen aan de normen uit de Kaderrichtlijn Water (KRW) en moeten alle aangewezen grond- en oppervlaktewateren een goede chemische kwaliteit hebben. Uit de laatste…

Lees verder over Bestrijdingsmiddelen in Nederlandse drinkwaterbronnen
Environmental forensics

Grondwater, oppervlaktewater en afvalwater bevatten verontreinigende stoffen afkomstig van menselijke activiteiten. Deze stoffen komen ergens vandaan en verspreiden zich op een bepaalde manier in het (water)milieu. “Environmental Forensics” is het vakgebied waarin we de keten van gebeurtenissen…

Lees verder over Environmental forensics
Environmental forensics: signaturen van vervuiling

De aanwezigheid van antropogene stoffen in de drinkwaterketen stelt de watersector en specifiek de drinkwaterbedrijven voor uitdagingen. Hun aanwezigheid in drinkwater is ongewenst, en soms zelfs problematisch. Hoewel zuiveringstechnieken verontreinigingen kunnen verwijderen,…

Lees verder over Environmental forensics: signaturen van vervuiling
Text-mining voor vroege detectie van relevante waterverontreinigingen

Lang voordat stoffen in regelgeving en meetprogramma's terechtkomen, kunnen er in tekstbronnen zoals rapporten, sociale media, nieuwsberichten, websites van toezichthoudende instanties of wetenschappelijke literatuur aanwijzingen zijn dat deze…

Lees verder over Text-mining voor vroege detectie van relevante waterverontreinigingen
Voorspellen van de biologische afbraak van organische microverontreinigingen

Drink- en afvalwaterbedrijven hebben te maken met probleemstoffen welke niet of minder goed verwijderd worden in de zuivering, zogenaamde organische microverontreinigingen. In dit nieuwe verkennend onderzoek willen we…

Lees verder over Voorspellen van de biologische afbraak van organische microverontreinigingen
DPWE Robuustheid zuiveringen: proefopzet en stofselectie

Organische microverontreinigingen horen niet thuis in drinkwater. Binnen de DPWE-bedrijven wordt daarom doorlopend gewerkt aan het verbeteren van zuiveringsstappen die voor deze verontreinigingen een barrière vormen. Om die…

Lees verder over DPWE Robuustheid zuiveringen: proefopzet en stofselectie
Ketenverkenner – minder emissies

Wat niet in het water zit, hoef je er ook niet uit te halen. Naast end-of-pipe maatregelen ter verbetering van de waterkwaliteit, is het raadzaam te onderzoeken hoe de emissie van stoffen…

Lees verder over Ketenverkenner – minder emissies
Waterkwaliteitskaart

Met een waterkwaliteitskaart wordt in beeld gebracht wat de gecombineerde effecten van emissies uit verschillende bronnen zijn op de mate van verontreiniging van het Nederlandse oppervlaktewater. Hiermee kan bijvoorbeeld in specifieke gevallen de totale toxische druk worden…

Lees verder over Waterkwaliteitskaart
Cocktail van Stoffen (RIWA-Maas)

RIWA-Maas verzamelt veel gegevens over de kwaliteit van het water in de Maas. Deze gegevens worden verzameld op een aantal verschillende locaties, zowel in Nederland als verder stroomopwaarts. Uit de samenvattingen van deze gegevens in de jaarverslagen…

Lees verder over Cocktail van Stoffen (RIWA-Maas)
Toxiciteit: effectgericht waterkwaliteit meten

Dit project is een onderdeel van de Kennisimpuls Waterkwaliteit. Er worden in Europa meer dan 140 duizend chemische stoffen geproduceerd, gebruikt en verhandeld. Een deel ervan komt in ons oppervlaktewater terecht. Hoe…

Lees verder over Toxiciteit: effectgericht waterkwaliteit meten
Ontwikkeling van een stoffendatabase

Voor drinkwaterbedrijven, de drinkwaterlaboratoria en onderzoekers bij KWR wordt een databank ontwikkeld die informatie ontsluit over relevante stoffen (zoals stofeigenschappen, het voorkomen van bekende en onbekende stoffen, normen, zuiveringsefficiëntie). Met de databank…

Lees verder over Ontwikkeling van een stoffendatabase
Opkomende stoffen

Wereldwijd worden steeds meer chemische stoffen geproduceerd en gebruikt. Tegelijkertijd wordt er steeds meer water onttrokken voor toepassing in huishoudens, industrie en landbouw. Samen met lokale watertekorten leidt dit tot druk op de kwaliteit van het water,…

Lees verder over Opkomende stoffen

Alle projecten ()

Publicaties

Alle publicaties RSS-Feed publicaties Chemische waterkwaliteit

Actueel

Blog

Immunotoxicity: The Hidden Health Risk

02 juli 2025 — KWR’s recent work on chemical water quality and health has been featured in the April 2025 issue of…

Lees verder over Immunotoxicity: The Hidden Health Risk
Blog

Voorspellen van leidingfalen met kunstmatige intelligentie

01 april 2025 — Leidingfalen leidt in de praktijk tot verlies van drinkwater en mogelijke schade aan derden. Weten wanneer een leidingbreuk…

Lees verder over Voorspellen van leidingfalen met kunstmatige intelligentie
Minder waterverbruik door slim gebruik van data

20 november 2023 — Hoe kan digitalisering helpen bij het terugdringen van waterverbruik bij huishoudens? Deze vraag stond centraal tijdens een samenkomst…

Lees verder over Minder waterverbruik door slim gebruik van data
Blog

Waterinfodag in Den Bosch brings together data professionals in the water sector

20 maart 2023 — Five delegates of KWR, Nienke Meekel, Tessa Pronk, Alifta Ariestiwi, Fred Vreeswijk and Rene ter Haar, went to…

Lees verder over Waterinfodag in Den Bosch brings together data professionals in the water sector
Blog

KWR at the International Conference on Toxicology (ICT2022)

26 september 2022 — Understanding potential risks of chemical pollution in the sources of our drinking water is essential to safeguard the…

Lees verder over KWR at the International Conference on Toxicology (ICT2022)
Blog

Digital transformations as part of the solution for wicked problems

28 juni 2022 — We face great challenges like increasing temperatures, housing, flooding, and biodiversity loss. These are societal ‘wicked problems’, meaning…

Lees verder over Digital transformations as part of the solution for wicked problems
KWR neemt deel aan nieuw Europees PARC-project

31 mei 2022 — Kennis uit het PARC-project gaat helpen in het uitvoeren van chemische risicobeoordelingen en vormgeven van stoffenbeleid.

Lees verder over KWR neemt deel aan nieuw Europees PARC-project
Deltafact Biociden: invloed op waterkwaliteit nog niet goed in beeld

17 mei 2021 — Voor waterbeheerders is nog weinig kennis beschikbaar over biociden en de invloed op de waterkwaliteit, terwijl deze stoffen…

Lees verder over Deltafact Biociden: invloed op waterkwaliteit nog niet goed in beeld
Risico’s van consumentenproducten voor de waterketen

30 maart 2021 — Onderzoek naar twintig typen consumentenproducten maakt duidelijk dat nog lang geen antwoord mogelijk is op de vraag welke…

Lees verder over Risico’s van consumentenproducten voor de waterketen
Schoon grondwater wordt zeldzaam

12 oktober 2020 — Analyse van een dataset met landsdekkende informatie over uiteenlopende verontreinigingen in het grondwater toont aan dat schoon grondwater…

Lees verder over Schoon grondwater wordt zeldzaam
Blog

A strategy for exposure science

18 juli 2019 — On the fourth and fifth of July 2019, I joined the de ISES Europe Exposure science strategy workshop.…

Lees verder over A strategy for exposure science
Blog

Future proof opportunities at the ‘Waterinfodag’

03 april 2019 — At the ‘Waterinfodag’, which took place end of March 2019, I presented a theme session on innovative processing…

Lees verder over Future proof opportunities at the ‘Waterinfodag’

Alle actuele berichten ()

Onze expertises

Chemische waterkwaliteit

Grip op (indirecte) lozingen

Bestrijdingsmiddelen in Nederlandse drinkwaterbronnen

Environmental forensics

Environmental forensics: signaturen van vervuiling

Text-mining voor vroege detectie van relevante waterverontreinigingen

Voorspellen van de biologische afbraak van organische microverontreinigingen

DPWE Robuustheid zuiveringen: proefopzet en stofselectie

Ketenverkenner – minder emissies

Waterkwaliteitskaart

Cocktail van Stoffen (RIWA-Maas)

Toxiciteit: effectgericht waterkwaliteit meten

Ontwikkeling van een stoffendatabase

Opkomende stoffen

Including immunotoxicity in water quality assessment

Pesticide contamination across drinking water sources in the Netherlands

Health-based trigger values for data-poor bioassays

Risicogebieden voor de Richtlijn Stedelijk Afvalwater (RSA) vanuit drinkwater perspectief

Bestrijdingsmiddelen in Nederlandse bronnen voor drinkwater (2018-2022)

Pesticides in Dutch sources for drinking water supply

Risicogebieden voor de Richtlijn Stedelijk Afvalwater (RSA) vanuit drinkwater perspectief

Variability and uncertainty of data from genotoxicity test guidelines: what we know and why it matters

Immunotoxicity: The Hidden Health Risk

Voorspellen van leidingfalen met kunstmatige intelligentie

Minder waterverbruik door slim gebruik van data

Waterinfodag in Den Bosch brings together data professionals in the water sector

KWR at the International Conference on Toxicology (ICT2022)

Digital transformations as part of the solution for wicked problems

KWR neemt deel aan nieuw Europees PARC-project

Deltafact Biociden: invloed op waterkwaliteit nog niet goed in beeld

Risico’s van consumentenproducten voor de waterketen

Schoon grondwater wordt zeldzaam

A strategy for exposure science

Future proof opportunities at the ‘Waterinfodag’